Informação pormenorizada sobre os corpos

Projecto AC/DC, Linguateca


Esta página fornece a informação necessária sobre cada corpo, para que os utilizadores do nosso serviço o possam utilizar como instrumento válido de teste de hipóteses científicas.

Além de apontar para a informação original fornecida pelos compiladores e de apresentar uma contabilização sumária de todos os corpos em forma de tabela, descreve várias opções básicas tomadas na codificação dos corpos no ambiente escolhido, o IMS-CWB. Sem que estas opções sejam explicitadas, não é possível compreender os resultados quantitativos ou comparar com vários trabalhos sobre os mesmos corpos.

Todos os corpos foram anotados pelo PALAVRAS, o analisador sintáctico criado Eckhard Bick, Bick (2000). Veja-se a página de anotação para mais informações sobre essa anotação.


Identificação sumária

Informação original fornecida pelos compiladores de corpos, acessível na rede ou publicada. Apenas os identificadores foram atribuídos por nós. Para saber mais informação sobre cada corpo, clique no respectivo identificador.

AmostRA-NILC Selecção de textos do corpo NILC, em português brasileiro, contendo textos dos géneros didático, jornalístico e literário, anotada com classificação gramatical, criada no âmbito da tese de mestrado de Rachel Aires, orientada por Sandra Aluísio, no NILC
ANCIB Corpo de correio electrónico da lista ANCIB
Avante! Corpo de artigos da edição electrónica do Avante!, jornal semanal do Partido Comunista Português
CDHAREM As colecções douradas usadas no HAREM
CETEMPúblico CETEMPúblico (Corpo de Extractos de Textos Electrónicos MCT/Público)
CETEMPúblico (primeiro milhão) Primeiro milhão de palavras do CETEMPúblico, revisto pela equipa do projecto Floresta sintá(c)tica.
CHAVE Corpo de texto jornalístico usado no CLEF
ClassLPPECorpo Clássicos da Literatura Portuguesa da Porto Editora
CONDIVport Parte do corpo CONDIVport, contendo textos de jornais desportivos de Portugal e do Brasil
CoNECorpo de Correio Não-Endereçado, criado pela Linguateca
DiaCLAV Corpo de artigos da edição electrónica de jornais regionais da região centro de Portugal (Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário)
ECI-EBR A parte do corpo Borba-Ramsey, contido no European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI)
ECI-EE A parte da apresentação do programa Esprit do European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI)
ENPCPUB Parte disponível da parte em português do English-Norwegian Parallel Corpus (ENPC) (traduções para português de originais em inglês)
Floresta Corpo relativo ao material da Floresta Sintá(c)tica
FrasesPP Corpo FrasesPP, desenvolvido no Grupo de PLN do INESC em 1990-93
FrasesPB Corpo FrasesPB, criado no âmbito do Projecto Processamento Computacional do Português
Museu da PessoaCorpo de 109 entrevistas realizadas pelo Museu da Pessoa
Natura/Minho Corpo jornalístico Natura/Diário do Minho
Natura/Público Corpo jornalístico Natura/Público
NILC/São Carlos Corpo NILC/São Carlos (parte corrigida), contendo texto jornalístico, didáctico e epistolar.
Vercial Corpo de textos literários portugueses clássicos, disponibilizados pelo projecto Vercial.

Contabilização básica dos corpos

Todos os corpos foram processados de forma a serem codificados pelo IMS-CWB, o que significa que foram previamente transformados no formato de uma unidade por linha, e com um atributo estrutural (que delimita um conjunto de unidades) por linha também.

Este processo, que chamamos atomização, encontra-se descrito em Atomização, e inclui também a divisão em frases, obtida automaticamente na maior parte dos casos.

De forma a poder comparar os vários corpos numa única tabela, convém notar que os elementos classificados como títulos, legendas, etc. não foram considerados frases para efeitos desta contagem. Por outro lado, os parágrafos (geralmente curtos) sem pontuação final são marcados como frases, do tipo fragmento.

Esta contabilização é actualizada sempre que há criação de novas versões.

Corpo Nº de frases Nº de parágrafos Nº de palavras (formas) Nº de palavras (tipos) Nº de unidades
AmostRA-NILC4.9654.90498.78617.153127.832
ANCIB80.99257.6011.258.76473.6861.690.376
Avante!204.414104.7876.501.146119.8487.766.309
CD HAREM12.5587.276225.76630.985290.001
CETEMPúblico8.128.6203.613.334191.277.678927.533240.424.488
CHAVE4.740.4482.269.73499.355.321698.030123.936.528
CONDIVport318.753148.8655.577.161147.6327.089.872
CoNE31.56219.416685.24441.048925.262
DiaCLAV232.15244.1336.651.523107.9477.758.469
ECI-EBR44.38112.117724.00860.201917.124
ECI-EE83934027.1384.09632.034
ENPCPUB (parte em português)4.3711.69072.37512.87592.688
Floresta327.17905.950.072179.4917.252.252
FrasesPB65364819.1626.00823.313
FrasesPP59459416.2325.08520.048
Museu da Pessoa27.28816.858375.14921.497517.740
Natura/Minho69.10057.1491.748.69867.4602.156.707
NILC/São Carlos1.954.9091.121.50432.303.761396.85542.519.799
todos juntos12.949.7335.566.813281.870.3521.416.928356.872.560
Vercial950.980182.64914.710.560340.97820.595.097
Total30.084.49113.230.412649.448.8964.675.336821.008.499


Frequência de formas e lemas por categoria gramatical nos corpos

Para obter as listas de frequências, clique na célula correspondente da tabela abaixo, que indica o número de tipos distintos. Tenha, contudo, em atenção as seguintes informações

CorpusFormas
NADJADVVNUMGRAMtodos
AmostRA64432746415597531144917187
ANCIB239008456994172745926104576627
Avante!31934184872104468825222960121426
CDHAREM10488440981891621070321331216
CETEMPúblico180431810676425203669965763746863933
CETEMPúblico (primeiro milhão)195449763113524893243990066928
CHAVE160832740595624176207866513324722150
Clássicos da Literatura Portuguesa/Porto Editora1952811874145044219268109769898
ConDIVport417522413924565436560351422152239
ConE1499748125998751423866043941
DiaCLAV31792163241481398275608900110063
ECI-EBR196881015911742413777472860394
ECI-EE135987320612992302574254
ENPC (parte pública)43981953446507013242412894
Floresta527332447923095415567471824182563
FrasesPB25749622131777672936018
FrasesPP20448862091474782745099
Museu da Pessoa76622565447943437453921542
Natura/Minho2016610056107721735415271668982
Natura/Público515192710320636070494551383170762
NILC/São Carlos99880461703621104915586361998417746
Vercial13249641933399716498333421878375323
3656881380441002436105917113399721459723

CorpusLemas
NADJADVVNUMGRAMPROPtodostodos/pos
AmostRA50521903329189831714514211092411065
ANCIB17661472676638625945333375417019070833
Avante!201749062169755715944294481059003890847
CDHAREM71712718459214497919969472030020617
CETEMPúblico13277145736536125046103052105693964112471351252662
CETEMPúblico (primeiro milhão)13511474384235662391211237654860249029
CHAVE1120534014443332152590806871696637961622966369
Clássicos da Literatura Portuguesa/Porto Editora1273750961117464226026050442902329156
ConDIVport273471277819297045653735353615108825109604
ConE10317264143922354305230175113726237677
DiaCLAV191467730115649235992279475928604686818
ECI-EBR137025787937409889522189993417634639
ECI-EE10285611834952319618627192780
ENPC (parte pública)35451379366145013713979476637810
Floresta3452912503193474776877773102690164669166782
FrasesPB21557471878346010221742054302
FrasesPP16946891836637110619735573603
Museu da Pessoa55581621326179938217223041197612162
Natura/Minho12979544884837524394233304005748658054
Natura/Público363911248615768812961031383255150844152443
NILC/São Carlos658802452128651478261188514299887466848469637
Vercial10535321256326819563366748696117247171249710
287628820138049502221812631536154155621408222152161


Contabilização detalhada por corpo

A maior parte dos corpos requereu tratamento específico e opções dedicadas, que serão mencionadas na descrição de cada caso. Como opções gerais, mais detalhadas na página de atomização, temos:

Os dados quantitativos que apresentamos para cada corpo dividem-se em quatro grupos: Nota: em relação aos dados quantitativos, a categoria "pontuação" inclui todos as unidades que contenham sinais de pontuação e que não tenham sido considerados como abreviaturas (incluindo portanto números do tipo "3.876.210", abreviaturas com mais de um ponto como "S.O.S." ou "E.U.A", assim como erros de codificação ainda não depurados, como "primeiro-ministro.").


Corpo AmostRA-NILC

O corpus AmostRA-NILC (Corpus Amostra Rachel Aires - NILC) foi criado no âmbito da tese de mestrado de Rachel Aires, orientada por Sandra Aluísio, no NILC, para avaliar e comparar o desempenho de etiquetadores para o português brasileiro (Aires 2000).

Citando Aires 2000 (secção 4.1.1)

" Para compor nosso corpus de treinamento e teste selecionamos textos do corpora do Nilc pertencentes a três gêneros: didático, jornalístico e literário. Um dos objetivos deste trabalho é avaliar os etiquetadores por gêneros. A escolha destes três gêneros foi feita para se abranger em particular:

  1. textos simples, isto é, aqueles que seguem uma estrutura formal fixa, por exemplo a escrita técnica (didáticos);
  2. textos mais próximos da linguagem viva (jornalístico);
  3. textos com estrutura livre, isto é, com formas menos comuns como ordem inversa por exemplo, (literários).

(...) Além dos gêneros de texto que farão parte do corpus, temos também que decidir se serão ou não mantidos títulos, frases entre parênteses e resumos nos textos. No nosso caso não mantivemos os títulos, mas mantivemos os textos entre parênteses e não precisamos nos preocupar com resumos, que não apareciam nos textos escolhidos.

(...) em 20 de julho de 2000, obtivemos a última versão do nosso corpus de treinamento e teste contendo 104.962 palavras, que foi utilizada em todos os experimentos descritos neste trabalho. (...)

Tabela 1 - Corpus de treinamento e teste
Tipo de CorpusTamanho do corpus
D Didático 16.255 palavras
J Jornalístico 56.653 palavras
L Literário 32.054 palavras

(fim de citação)

Corpus AmostRA-NILC duplamente anotado, versão texto de 7 de Agosto de 2003 com primeira anotação do NILC (Rachel Aires), anotado em Agosto de 2008 pelo PALAVRAS, criado a 5 de Janeiro de 2010, v. 3.1

Agradecemos a Rachel Aires a disponibilização do corpus.

Estrutura do corpo

Os atributos estruturais usados são p (parágrafo) e s (frase). É também usado o atributo posicional pos2 (anotação gramatical original do corpus).

Dados quantitativos

Corpo AMOSTRA Número de formasNúmero de tipos
Unidades 12783217185
Total de palavras 9878617153
Palavras em minúscula 7845013535
Palavras com inicial maiúscula83112414
Palavras todas em maiúsculas 42818
Números 914190
Palavras com números7146
Palavras mistas3020
Pontuação575032

Número de unidades estruturais

Atributo Número
s 4963
p 4903
mwe 1779

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 3376 4914
Locuções 1779 3745
Palavras gráficas 98786 98786
Palavras simples 90127 90127
Palavras 95282 98786

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 23235 25,78%
Verbos V.* 14122 15,67%
Adjectivos ADJ.* 6488 7,20%
Pronomes pessoais .*PERS.* 2283 2,53%
Preposições PRP.* 16642 18,47%
Conjunções K.* 4151 4,61%
Advérbios ADV.* 5066 5,62%
Determinantes .*DET.* 17544 19,47%
Especificadores .*SPEC.* 1368 1,52%
Numerais NUM.* 1808 2,01%

^Voltar ao início da página

Corpo ANCIB

O corpus ANCIB foi criado a partir de uma série de ficheiros contendo as mensagens em português enviadas para a lista homónima da Associação Nacional de Pesquisa e Pós-Graduação em Ciência da Informação (até Novembro de 2003) e para a lista abarreto-l, após essa data.

Esta lista é gerida por Aldo Barreto, que gentilmente nos concedeu autorização para a criação deste corpus), que tem material entre Julho de 1998 e Junho de 2008, num total de 624 mensagens em formato Eudora, sendo o resto em formato Outlook, totalizando 2814 mensagens cuja língua foi identificada como portuguesa.

Corpus ANCIB, versão texto de Junho de 2009, anotado 9 de Janeiro de 2010, v. 6.1

Agradecemos a Aldo Barreto a autorização gentilmente cedida para uso dos textos da lista.

Estrutura do corpo

A parte inicial do corpus foi criado a partir do formato mbx do programa de correio Eudora; a seguinte a partir do formato Outlook.

Embora tenham sido excluídas as mensagens totalmente (ou quase) noutros idiomas, foram mantidas mensagens parcialmente noutras línguas, pelo que o corpus contém uma quantidade reduzida de texto em inglês e castelhano.

Foram removidas, na medida do possível, as assinaturas automáticas das mensagens.

Foram transformados alguns caracteres ['A==>À, e'==>é, etc].

O corpus está dividido em mensagens separadas, marcadas pelo atributo mens, com informação da data <mens dt=...> . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem para a lista). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].

O corpus tem também o atributo cita que indica referência a uma mensagem anterior, citada no corpo da mensagem e indicada pelo sinal ">" no início de linha.

Dados quantitativos

Corpo ANCIB Número de formasNúmero de tipos
Unidades 169041876627
Total de palavras 125875673685
Palavras em minúscula 84147734806
Palavras com inicial maiúscula22673421846
Palavras todas em maiúsculas 191693505
Números 201271337
Palavras com números2715801
Palavras mistas2721630
Pontuação1071452928

Número de unidades estruturais

Atributo Número
p 57556
s 80698
mwe 14541
autor 3007
mens 3012
assunto 2978
li 0
titulo 0
cita 81

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 97197 202684
Locuções 14541 31057
Palavras gráficas 1258764 1258764
Palavras simples 1025023 1025023
Palavras 1136761 1258764

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 292526 28,54%
Verbos V.* 126007 12,29%
Adjectivos ADJ.* 73300 7,15%
Pronomes pessoais .*PERS.* 13786 1,34%
Preposições PRP.* 194495 18,97%
Conjunções K.* 59283 5,78%
Advérbios ADV.* 40010 3,90%
Determinantes .*DET.* 190626 18,60%
Especificadores .*SPEC.* 12344 1,20%
Numerais NUM.* 32675 3,19%

^Voltar ao início da página

Corpo Avante!

O corpus Avante! contém textos do semanário «Avante!», orgão oficial do Partido Comunista Português. O corpus contém cerca de 6 milhões de palavras, extraídas da versão na rede do jornal, correspondendo a um total de 8.515 artigos de 207 edições do dito jornal, de Abril de 1997 até Fevereiro de 2002.

Corpus Avante, versão de 6 de Março de 2006, criado a 11 de Janeiro de 2010, versão 4.1

Estamos gratos à direcção do «Avante!», em especial ao seu director José Casanova, pela autorização gentilmente cedida para a elaboração deste corpus.

Estrutura do corpo

O corpus contém as etiquetas art (artigo), t (título), p (parágrafo), s (frase) e li (elemento de uma lista); os artigos não estão datados, sendo apenas indicado o número da edição, através da indicação <art ed= id=> .

Dados quantitativos

Corpo AVANTE Número de formasNúmero de tipos
Unidades 7767354121426
Total de palavras 6499145119858
Palavras em minúscula 509400467953
Palavras com inicial maiúscula67480529348
Palavras todas em maiúsculas 702962307
Números 579091645
Palavras com números770296
Palavras mistas2068721
Pontuação2285991566

Número de unidades estruturais

Atributo Número
art 8539
t 29272
a 2
p 104736
li 43141
s 204212
mwe 130575

Contabilização de multipalavras

Número de entidades Número de unidades
Nomes próprios 81210 492178
Locuções 130575 276704
Palavras gráficas 6499154 6499154
Palavras simples 5730272 5730272
Palavras 5942057 6499154

Distribuição por categoria gramatical

Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
Substantivos N|N[^U].* 1454846 25,39%
Verbos V.* 778537 13,59%
Adjectivos ADJ.* 456501 7,97%
Pronomes pessoais .*PERS.* 91603 1,60%
Preposições PRP.* 1214687 21,20%
Conjunções K.* 326148 5,69%
Advérbios ADV.* 311043 5,43%
Determinantes .*DET.* 1265477 22,08%
Especificadores .*SPEC.* 105560 1,84%
Numerais NUM.* 104441 1,82%

^Voltar ao início da página

Corpo CD HAREM

O corpo CDHAREM contém as colecções douradas usadas no HAREM (avaliação conjunta de sistemas de Reconhecimento de Entidades Mencionadas), tanto no Primeiro (criadas em 2005 e 2006) como no Segundo (criada em 2008). A forma como este corpo foi criado encontra-se pormenorizadamente descrita em Rocha & Santos (2007).

Corpus Colecção Dourada do HAREM, a partir das versões das CD do Primeiro HAREM de 2007, anotado em 3 de Maio de 2010, criado a 15 de Maio de 2010, versão 3.2

Estrutura do corpo

  • Atributos estruturais:
  • Atributos posicionais relacionados com a anotação das entidades:

    Dados quantitativos

    Corpo CDHAREM Número de formasNúmero de tipos
    Unidades 29000131214
    Total de palavras 22576630985
    Palavras em minúscula 16561719241
    Palavras com inicial maiúscula327377956
    Palavras todas em maiúsculas 14001046
    Números 2887564
    Palavras com números12383
    Palavras mistas14995
    Pontuação15197229

    Número de unidades estruturais

    Atributo Número
    DOC 386
    TEXTO 386
    LOCAL 3494
    ORGANIZACAO 2621
    VALOR 1153
    COISA 640
    ACONTECIMENTO 501
    OBRA 863
    PESSOA 4014
    TEMPO 1970
    ABSTRACCAO 1195
    VARIADO 54
    OUTRO 110
    p 7262
    s 12530
    ALT 533
    EM 15908
    mwe 3913

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 12178 22866
    Locuções 3913 8318
    Palavras gráficas 225766 225766
    Palavras simples 194582 194582
    Palavras 210673 225766

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 45363 23,31%
    Verbos V.* 30984 15,92%
    Adjectivos ADJ.* 12191 6,27%
    Pronomes pessoais .*PERS.* 5198 2,67%
    Preposições PRP.* 35007 17,99%
    Conjunções K.* 10098 5,19%
    Advérbios ADV.* 13231 6,80%
    Determinantes .*DET.* 38627 19,85%
    Especificadores .*SPEC.* 3841 1,97%
    Numerais NUM.* 4667 2,40%

    ^Voltar ao início da página

    Corpo CETEMPúblico

    O CETEMPúblico contém cerca de 190 milhões de palavras extraídas do diário PÚBLICO. Veja-se a página oficial do CETEMPúblico para mais informação.

    Corpus CETEMPúblico anotado: versão 1.7 do texto, criada a 18 de Setembro de 2001, anotada em Abril-Julho de 2011, versão na rede criada a 23 de Janeiro de 2012, v. 7.0

    Estamos gratos ao Público pela gentil disponibilização dos textos.
    Estamos especialmente gratos a José Vitor Malheiros, director da versão electrónica, sem o qual este corpo não existiria, e a Paulo Almeida pelo apoio técnico com os ficheiros electrónicos.

    Estrutura do corpo

    Marcadores estruturais: ext [identificador do extracto, com informação sobre secção e semestre], s [frase], t [título ou subtítulo], a [identificação do autor], li [elemento de lista], marca.

    Além da palavra, o corpus tem mais dois atributos posicionais, sem [semestre em que o texto foi escrito ou enviado para o jornal]: e sec [classificação da secção a que o texto pertencia]. Veja-se a discussão em Rocha & Santos (2000) sobre a forma da atribuição deste último.

    semestretamanhocltclt-soccomdesecondopipolsoc
    91a71492176353591820770843279500641278573609766261225499
    91b137453091218925207192013670429132015530051020986912410207
    92a1481480324256655195550145944014692962019147038065353115165
    92b111290152144899426980012637681254558485878026324472920485
    93a147656973077753877517014382351629571573268033065183862835
    93b1177026321948695645760122028212245051040088024936183032325
    94a1489447829332768466700146865715267451427250032025693489311
    94b1441232326910858449080155647215226881676620028405393280011
    95a16142029268329110549220175500615579651877697029995784213570
    95b1521792421559729106940156288813695982006580031801024032090
    96a1158312915898820130401384668930279116951661082520772213807698
    96b112798011551042001497139766872120460160285918492113808077
    97a96165461324919016258127442965349589089660975416011413245654
    97b965087513211480236995119935463219290770555501717608633037601
    98a12537354141639303781141470310769244170822562848919250584241521
    98b870072010150070269169101690654806783289842108316045572993033
    Todos 30379485643509191357621777875172689172613615634280273835527452715082

    Dados quantitativos

    Corpo CETEMPUBLICO Número de formasNúmero de tipos
    Unidades 2404244882461192
    Total de palavras 191277678927533
    Palavras em minúscula 144232762270880
    Palavras com inicial maiúscula24080112309280
    Palavras todas em maiúsculas 112953622120
    Números 184421110640
    Palavras com números26237816256
    Palavras mistas12128130037
    Pontuação1307585729316

    Número de unidades estruturais

    Atributo Número
    p 3613293
    s 8128037
    ext 0
    t 702953
    a 0
    mwe 3730232
    marca 0

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 10556258 18608449
    Locuções 3730232 7855627
    Palavras gráficas 191277678 191277678
    Palavras simples 164813602 164813602
    Palavras 179100092 191277678

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 39333836 23,87%
    Verbos V.* 24626021 14,94%
    Adjectivos ADJ.* 11656230 7,07%
    Pronomes pessoais .*PERS.* 2922656 1,77%
    Preposições PRP.* 33548352 20,36%
    Conjunções K.* 8098658 4,91%
    Advérbios ADV.* 10120834 6,14%
    Determinantes .*DET.* 34972187 21,22%
    Especificadores .*SPEC.* 3038078 1,84%
    Numerais NUM.* 4185363 2,54%

    ^Voltar ao início da página

    Corpo CHAVE

    O corpus CHAVE contém textos jornalísticos dos jornais Público e Folha de São Paulo dos anos de 1994 e 1995. Este corpus foi criado no âmbito da participação da língua portuguesa no CLEF. Pode obter o corpus completo em formato texto requerendo-o nesta página.

    Corpus CHAVE anotado, anotado sintacticamente de Outubro a Dezembro de 2008, anotado com cor e roupa em Abril-Maio de 2010, versão 4.2

    Agradecemos ao PÚBLICO e à Folha de São Paulo a gentil autorização de disponibilização dos textos.

    Estrutura do corpo

    Marcadores estruturais: DOC [documento], s [frase], CATEGORY (secção do jornal), AUTHOR (autor do texto), NE (lista de nomes próprios contidos no documento, usando a anotação do PALAVRAS).

    Dados quantitativos

    Corpo CHAVE Número de formasNúmero de tipos
    Unidades 123936528722150
    Total de palavras 99355321698030
    Palavras em minúscula 73737504230459
    Palavras com inicial maiúscula13001169233405
    Palavras todas em maiúsculas 65469616752
    Números 11108437585
    Palavras com números1076809903
    Palavras mistas15040715229
    Pontuação474012924004

    Número de unidades estruturais

    Atributo Número
    s 4738282
    t 577928
    p 2269421
    mwe 1790346
    data 210729
    DOC 210726
    CATEGORY 210729
    AUTHOR 2
    EM 210729

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 5504868 9550201
    Locuções 1790346 3782008
    Palavras gráficas 99477971 99477971
    Palavras simples 86145762 86145762
    Palavras 93440976 99477971

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 20993953 24,37%
    Verbos V.* 12920153 15,00%
    Adjectivos ADJ.* 6031253 7,00%
    Pronomes pessoais .*PERS.* 1502949 1,74%
    Preposições PRP.* 17043473 19,78%
    Conjunções K.* 4180282 4,85%
    Advérbios ADV.* 4975068 5,78%
    Determinantes .*DET.* 17735511 20,59%
    Especificadores .*SPEC.* 1484406 1,72%
    Numerais NUM.* 2297484 2,67%

    ^Voltar ao início da página

    Corpo CONDIVport

    O corpus CONDIVport é o subcorpus de textos dos domínios do futebol, do vestuário/moda e da saúde das décadas de 50, 70 e 2000 de jornais e revistas portugueses e brasileiros do mais vasto corpus CONDIVport (Silva, 2008), criado para estudar a CONvergência e a DIVergência entre estas duas variantes do português. O sufixo port distingue-o do seu congérene neerlandês, também denominado CONDIV. Veja-se uma descrição mais detalhada.

    Este subcorpus contém 3981 extractos de textos de jornais desportivos portugueses e brasileiros, das décadas de 1950, 1970 e 2000; 4372 textos (agrupados em 82 extractos, ou seja, provenientes de 82 edições) de revistas de moda portuguesas e brasileiras, das décadas de 1950, 1970, e 1990-2000, assim como 1815 textos de revistas e jornais de saúde nos mesmos períodos.

    Corpus CONDIV, versão texto (futebol) de 15 de Fevereiro de 2006, versão texto (moda) de 18 de Dezembro de 2008, versão texto (saúde) de 2 de Fevereiro de 2010, anotado em Abril de 2011, anotado semanticamente e criado a 8 de Janeiro de 2012, v. 9.1

    Estamos gratos à equipa do projecto de investigação Convergência e Divergência no Léxico do Português, em especial ao investigador responsável Augusto Soares da Silva, pela autorização gentilmente cedida para a disponibilização deste corpus.

    Estrutura do corpo

    O corpo está dividido em extractos, assinalados pelo atributo ext; cada extracto está dividido em parágrafos (atributo p) e frases (atributo s). Nos casos da moda e da saúde, os extractos estão ainda subdivididos em textos, que correspondem a notícias completas. Além disso, o CONDIVport contém os atributos posicionais decada (valores: 50, 70, 2000), variante (valores: PT, BR), texto (valores:t1 a tN) e fonte. Como todos os corpos do AC/DC, o CONDIVport está também anotado sintacticamente pelo PALAVRAS, e contém alguma anotação semântica nos atributos sema e grupo, por enquanto referente apenas a cor e roupa.

    TamanhoFutebolModa/vestuárioSaúde
    PT328459716494563071091328032
    BR26314401356183797206478051
    Todos 300563911043251806083

    Dados quantitativos

    Corpo CONDIV Número de formasNúmero de tipos
    Unidades 7089872149652
    Total de palavras 5577161147632
    Palavras em minúscula 419535580549
    Palavras com inicial maiúscula65502937660
    Palavras todas em maiúsculas 136063205
    Números 729911653
    Palavras com números2501722
    Palavras mistas47841215
    Pontuação3389371944

    Número de unidades estruturais

    Atributo Número
    ext 2089
    texto 5384
    p 138192
    s 296796
    mwe 103658

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 240490 359027
    Locuções 103658 219029
    Palavras gráficas 5570215 5570215
    Palavras simples 4992159 4992159
    Palavras 5336307 5570215

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 1137226 22,78%
    Verbos V.* 728433 14,59%
    Adjectivos ADJ.* 373239 7,48%
    Pronomes pessoais .*PERS.* 101637 2,04%
    Preposições PRP.* 830955 16,65%
    Conjunções K.* 258727 5,18%
    Advérbios ADV.* 307296 6,16%
    Determinantes .*DET.* 914430 18,32%
    Especificadores .*SPEC.* 77504 1,55%
    Numerais NUM.* 117297 2,35%

    ^Voltar ao início da página

    Corpo CoNE

    O corpus CoNE (Correio Não Endereçado) é um corpus de mensagens não-endereçadas em português.

    O corpus foi criado usando mensagens em português não endereçadas, recebidas por elementos da equipa da Linguateca entre 10 de Agosto de 2001 e 24 de Janeiro de 2006.

    Versão do corpus de 15 de Janeiro de 2006 e versão 3.1 da sua codificação e anotação, a 9 de Janeiro de 2010

    Estrutura do corpo

    O corpus está dividido em mensagens, marcadas pelo atributo mens, com informação da data . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].

    Dados quantitativos

    Corpo CONE Número de formasNúmero de tipos
    Unidades 92526243941
    Total de palavras 68524441048
    Palavras em minúscula 39916818493
    Palavras com inicial maiúscula16037613527
    Palavras todas em maiúsculas 120441998
    Números 15297872
    Palavras com números2888678
    Palavras mistas3427407
    Pontuação552982887

    Número de unidades estruturais

    Atributo Número
    p 19248
    s 31298
    mwe 8283
    autor 1949
    mens 1949
    assunto 1904
    div 0
    li 26844
    titulo 1295
    cita 0

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 58675 121139
    Locuções 8283 17509
    Palavras gráficas 685252 685252
    Palavras simples 546604 546604
    Palavras 613562 685252

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 160111 29,29%
    Verbos V.* 68258 12,49%
    Adjectivos ADJ.* 36786 6,73%
    Pronomes pessoais .*PERS.* 8977 1,64%
    Preposições PRP.* 94535 17,29%
    Conjunções K.* 32276 5,90%
    Advérbios ADV.* 23758 4,35%
    Determinantes .*DET.* 82614 15,11%
    Especificadores .*SPEC.* 5203 0,95%
    Numerais NUM.* 26399 4,83%

    ^Voltar ao início da página

    Corpo DiaCLAV

    O corpus DiaCLAV é composto dum total de aproximadamente 6,7 milhões de palavras, retiradas de 12.801 artigos da edições online de diversos jornais diários regionais do centro de Portugal, nomeadamente o Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário. Os artigos correspondem ao período de 13 de Junho de 1999 a 18 de Setembro de 2000, e não representam a totalidade do texto dos jornais nesse período, mas apenas o texto disponibilizado na edição on-line. Os jornais em questão pertencem ao mesmo grupo editorial, o Grupo Editorial Adriano Lucas, pelo que alguns artigos neste corpus contêm textos semelhantes, embora não haja casos de artigos exactamente iguais.

    Corpus DIACLAVANOT, versão texto criada em Abril de 2002, anotado em Agosto de 2008, criado a 11 de Janeiro de 2010, v. 3.1

    Agradecemos à direcção do Grupo Editorial Adriano Lucas a autorização gentilmente concedida para a criação deste corpus.

    Estrutura do corpo

    O corpus contém as etiquetas art (artigo), a (autor), t (titulo), p (parágrafo) e s (frase). Cada parágrafo tem a identificação do jornal e da notícia além do número do parágrafo dentro da notícia. Por exemplo: DA-N0623-1 representa o primeiro parágrafo da notícia N0623 do Diário de Aveiro. O número de identificação da notícia é o o da edição electrónica do jornal.

    O atributo posicional fonte, que pode assumir os valores DA, DC, DL ou VD, indica de qual dos jornais do grupo é originário um determinado texto.

    Dados quantitativos

    Corpo DIACLAV Número de formasNúmero de tipos
    Unidades 7758469110063
    Total de palavras 6651523107947
    Palavras em minúscula 498454758853
    Palavras com inicial maiúscula85938328967
    Palavras todas em maiúsculas 400612141
    Números 596911330
    Palavras com números65041047
    Palavras mistas2489862
    Pontuação2316832115

    Número de unidades estruturais

    Atributo Número
    p 44133
    s 232139
    art 13008
    t 13007
    a 5840
    mwe 130555

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 331676 513265
    Locuções 130555 273688
    Palavras gráficas 6651538 6651538
    Palavras simples 5864585 5864585
    Palavras 6326816 6651538

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 1461150 24,91%
    Verbos V.* 879523 15,00%
    Adjectivos ADJ.* 389559 6,64%
    Pronomes pessoais .*PERS.* 86869 1,48%
    Preposições PRP.* 1225336 20,89%
    Conjunções K.* 289298 4,93%
    Advérbios ADV.* 336862 5,74%
    Determinantes .*DET.* 1220515 20,81%
    Especificadores .*SPEC.* 105931 1,81%
    Numerais NUM.* 129334 2,21%

    ^Voltar ao início da página

    Corpo ECI-EBR

    O corpo ECI-EBR foi criado pela ECI (European Corpus Initiative; Thomson et al. 1994) , baseado no corpo Borba-Ramsey. É uma selecção de excertos de obras brasileiras, contendo pelo menos discurso literário, didáctico e oral cuidado (discursos políticos). O corpo contém pouco mais de 700 mil palavras, e estava codificado em SGML muito leve (além do cabeçalho, apenas continha marcas de parágrafos), cf. a informação da ELSNET.

    Em Outubro de 2009, foi levada a cabo pela Linguateca (Rosário Silva) uma análise do texto todo para distinguir entre diversos excertos diferentes, e indicar e identificar o género de texto a que pertenciam. Da mesma penada, foi associada a informação do assunto ou tema sobre que versavam, no caso de textos escritos não literários.

    Mais especificamente, o corpo foi classificado com categorias (correspondentes ao atributo posicional genero) pertencendo à seguinte grelha:

    Dentro do género jornalismo, incluímos as subdivisões: crónica, cultura, desporto, economia, entretenimento, generalidades, internacional, país, religião, reportagem, saúde, sociedade, título.

    Sempre que não foi possível identificar um género mais específico (por serem plausíveis várias hipóteses), optámos por dar apenas indicação de género informativo associando ao mesmo o tema genérico tratado no excerto. O conjunto de temas identificados foi: agricultura; arqueologia; arte; astronomia; biologia; botânica; ciência; clima; culinária; cultura; desporto; direito; ecologia; economia; edição; educação; enciclopédico; escutismo; estatística; filatelia; filosofia; física; fotografia; geografia; gestão; hidrografia; história; indústria; linguística; magia; maternidade; medicina; música; política; psicologia; religião; saúde; sociologia; turismo; zoologia.

    Por vezes foram atribuídos dois temas, por se considerar ambos igualmente adequados para caracterizar o excerto. Exemplos: economia_sociologia; história_economia; história_religião; religião_magia.

    Nos poucos casos em que não foi possível identificar nem o género nem o tema do excerto, usou-se a marca "indef" (de indefinido).

    O corpo ECI-EBR passou então a partir da sua versão 8.0 a incluir mais um atributo posicional tema, com os valores acima.

    Na tabela seguinte indicamos a distribuição do texto pelos diversos géneros, e no caso de texto informativo, qual o assunto versado:

    GéneroUnidadesTextos
    Literatura 368.024 151
    Informativo 201.425 285
    Jornalismo 88.070 536
    Oral 66.565 29
    Outros 16.061 33
    Indef 16.774 81
    AssuntosUnidadesTextos
    Agricultura 3458 8
    Arqueologia 1669 3
    Arte 4193 4
    Astrologia 1292 1
    Biologia 3660 3
    Botânica 6082 4
    Ciência 7375 9
    Clima 302 1
    Crónica 3716 11
    Culinária 1316 1
    Cultura 5698 44
    Desporto 8173 39
    Direito 1703 4
    Ecologia 326 2
    Economia 18360 60
    Edição 821 1
    Educação 1092 1
    Entretenimento 4988 31
    Escutismo 422 1
    Estatística 1237 1
    Filatelia 1109 1
    Filosofia 3382 3
    Física 627 1
    Fotografia 1056 2
    Generalidades 5476 45
    Geografia 3685 6
    Geologia 77 1
    Gestão 2300 3
    Hidrografia 1276 1
    História 35076 30
    Indef 482747 1
    Indústria 1375 3
    Internacional 8098 57
    Jornalismo 277 536
    Linguística 8066 12
    Literatura 8180 14
    Maternidade 344 1
    Medicina 16837 18
    Música 1689 3
    Oceanografia 302 1
    País 44537 206
    Política 19620 36
    Psicologia 2388 5
    Religião 20977 32
    Reportagem 1275 3
    Saúde 4460 18
    Sociedade 7286 58
    Sociologia 10347 15
    Título 173 12
    Turismo 188 1
    Zoologia 2985 15

    Corpus ECI-EBR, versão texto de Abril de 2002, analisado em Novembro de 2009, criado a 8 de Janeiro de 2010, v. 8.1

    Agradecemos aos compiladores do corpus por o terem criado e tornado público.

    Estrutura do corpo

    A partir da versão 7.0, existe também a marcação ext para separar diferentes excertos de textos, aos quais foi adicionado informação de género literário (e ou de tema).

    A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé.

    Marcadores estruturais: s, p, ext e marca.

    Dados quantitativos

    Corpo ECI-EBR Número de formasNúmero de tipos
    Unidades 91712460394
    Total de palavras 72400860201
    Palavras em minúscula 56901942161
    Palavras com inicial maiúscula7342812233
    Palavras todas em maiúsculas 19246
    Números 1996459
    Palavras com números5340
    Palavras mistas181123
    Pontuação48083193

    Número de unidades estruturais

    Atributo Número
    ext 1107
    p 12116
    s 43543
    marca 3
    mwe 14911

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 19405 32985
    Locuções 14911 31806
    Palavras gráficas 724008 724008
    Palavras simples 659217 659217
    Palavras 693533 724008

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 149934 22,74%
    Verbos V.* 114540 17,38%
    Adjectivos ADJ.* 45414 6,89%
    Pronomes pessoais .*PERS.* 25029 3,80%
    Preposições PRP.* 108577 16,47%
    Conjunções K.* 35139 5,33%
    Advérbios ADV.* 46924 7,12%
    Determinantes .*DET.* 125957 19,11%
    Especificadores .*SPEC.* 13550 2,06%
    Numerais NUM.* 9116 1,38%

    ^Voltar ao início da página

    Corpo ECI-EE

    O corpus ECI-EE foi criado pela ECI (European Corpus Initiative, Thomson et al. 1994), e contém o anúncio do programa comunitário ESPRIT . O corpus usa uma codificação SGML leve, com parágrafos e secções/artigos numerados, o que produziu alguns problemas em relação à separação de notas de rodapé (apenas indicadas graficamente por linhas iniciadas por tabuladores, e que tiveram de ser reconstituídas e colocadas após o parágrafo respectivo).

    Pode também consultar a informação da ELSNET.

    Corpus ECI-EE, versão de Abril de 2002, anotado em Agosto de 2008, criado a 1 de Dezembro de 2009, v. 5.2

    Agradecemos aos compiladores do corpus por o terem criado e tornado publico.

    Estrutura do corpo

    Marcadores estruturais: s, p, titulo, nota, marca.

    Alterámos a posição das notas de rodapé, do meio do parágrafo para imediatamente a seguir ao parágrafo onde lhes era feita referência, mas mantivemos a informação dessa mesma posição no atributo marca, com o número igual ao número da nota correspondente.
    <marca num=3> <nota num=3>

    Dados quantitativos

    Corpo ECI-EE Número de formasNúmero de tipos
    Unidades 320344254
    Total de palavras 271404096
    Palavras em minúscula 217443332
    Palavras com inicial maiúscula1786391
    Palavras todas em maiúsculas 19541
    Números 463104
    Palavras com números22
    Palavras mistas1125
    Pontuação1125155

    Número de unidades estruturais

    Atributo Número
    p 340
    s 839
    t 0
    nota 27
    marca 27
    mwe 607

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 641 1008
    Locuções 607 1318
    Palavras gráficas 27140 27140
    Palavras simples 24814 24814
    Palavras 26062 27140

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 6938 27,96%
    Verbos V.* 2908 11,72%
    Adjectivos ADJ.* 2437 9,82%
    Pronomes pessoais .*PERS.* 411 1,66%
    Preposições PRP.* 5300 21,36%
    Conjunções K.* 1322 5,33%
    Advérbios ADV.* 947 3,82%
    Determinantes .*DET.* 4971 20,03%
    Especificadores .*SPEC.* 280 1,13%
    Numerais NUM.* 706 2,85%

    ^Voltar ao início da página

    Corpo ENPCPUB (parte em português)

    O corpus ENPCPUB é um corpus de traduções para português de textos literários em inglês (Johansson et al., 1996, 1999; Oksefjell 1999). Apenas recebemos autorização para dar acesso a uma pequena parte do corpus ENPC, nomeadamente extractos dos textos (identificação do ENPC):
    CódigoAutorObraEditoraAnoTradutor(a)Título original
    JB1PPJulian BarnesAmor & C.aQuetzal Editores, Lisboa1994Helena CardosoTalking It Over.
    BC1Bruce ChatwinUtzQuetzal Editores, Lisboa1991José Luís LunaUtz.
    AH1Arthur HaileyRemédio AmargoDistribuidora Record, Rio de Janeiros/dA.B.P. de Lemos. Strong Medicine.
    JH1Joseph HellerImaginem queDifusão Cultural, Lisboa1991Cristina Rodriguez. Picture This.
    NG1Nadine GordimerA história do meu filhoEditora Siciliano, São Paulo1992Geraldo Galvão FerrazMy Son's Story.

    O corpus ENPCPORT (do qual o ENPCPUB é a parte para cuja disponibilização obtivemos autorização) encontrava-se codificado em SGML, apenas com ligeiras alterações em relação à codificação sugerida pelo TEI (Text Encoding Initiative).

    Cada obra (extracto) encontrava-se em ficheiro separado, com frases e parágrafos identificados e numerados, e anotada a sua correspondência com o texto original (alinhamento).
    Não mantivemos a informação de formatação (por exemplo itálico), de revisão (correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das obras não estarem divididas em partes, juntámos uma divisão "parte única".

    Corpus ENPCPUB, versão de 31 de Dezembro de 2001, anotado em Outubro de 2010, criado a 16 de Outubro de 2010, v. 6.5

    Estamos gratos a Stig Johansson e à equipa do ENPC pela colaboração na criação deste corpus, e aos detentores dos direitos de autor pela autorizações gentilmente cedidas.

    Estrutura do corpo

    Utilizámos como marcadores estruturais texto, parte, capitulo, p e s.
    Não mantivemos a informação de formatação (por exemplo itálico), de revisão (correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das obras não estarem divididas em partes, juntámos uma divisão "parte única".
    O corpus inclui os atributos estruturais obra e variante (com os valores PT ou BR).

    Dados quantitativos

    Corpo ENPCPUB Número de formasNúmero de tipos
    Unidades 9268812894
    Total de palavras 7237512875
    Palavras em minúscula 5762210251
    Palavras com inicial maiúscula70771689
    Palavras todas em maiúsculas 4119
    Números 13778
    Palavras com números11
    Palavras mistas1613
    Pontuação495119

    Número de unidades estruturais

    Atributo Número
    p 1682
    s 4369
    texto 5
    parte 8
    capitulo 25
    mwe 1609

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 2542 3305
    Locuções 1609 3486
    Palavras gráficas 72376 72376
    Palavras simples 65585 65585
    Palavras 69736 72376

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 13279 20,25%
    Verbos V.* 12769 19,47%
    Adjectivos ADJ.* 3869 5,90%
    Pronomes pessoais .*PERS.* 3103 4,73%
    Preposições PRP.* 10801 16,47%
    Conjunções K.* 3962 6,04%
    Advérbios ADV.* 5373 8,19%
    Determinantes .*DET.* 12178 18,57%
    Especificadores .*SPEC.* 1547 2,36%
    Numerais NUM.* 773 1,18%

    ^Voltar ao início da página

    Corpo Floresta

    O corpo FLORESTA contém o material anotado criado no âmbito do projecto Floresta Sintá(c)tica , em particular o Bosque, a Floresta Virgem e a Amazónia. Informação detalhada sobre o conteúdo textual encontra-se aqui

    Corpus Floresta, a partir do material da Floresta de Junho de 2010, anotado semanticamente em Junho de 2010, criado a 11 de Julho de 2010, versão 1.1

    Estrutura do corpo

  • Atributos estruturais:
  • Atributos posicionais:

    Dados quantitativos

    Corpo FLORESTA Número de formasNúmero de tipos
    Unidades 7252252182563
    Total de palavras 5950072179491
    Palavras em minúscula 453210188974
    Palavras com inicial maiúscula73805958256
    Palavras todas em maiúsculas 279823961
    Números 504251609
    Palavras com números3761935
    Palavras mistas57372187
    Pontuação4199043071

    Número de unidades estruturais

    Atributo Número
    ext 24391
    s 326796
    mwe 101900

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 284146 21156
    Locuções 101900 214165
    Palavras gráficas 5950072 5950072
    Palavras simples 5714751 5714751
    Palavras 6100797 5950072

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 1239225 21,68%
    Verbos V.* 847296 14,83%
    Adjectivos ADJ.* 350577 6,13%
    Pronomes pessoais .*PERS.* 117363 2,05%
    Preposições PRP.* 948213 16,59%
    Conjunções K.* 272996 4,78%
    Advérbios ADV.* 323501 5,66%
    Determinantes .*DET.* 1007367 17,63%
    Especificadores .*SPEC.* 107025 1,87%
    Numerais NUM.* 99146 1,73%

    ^Voltar ao início da página

    Corpo FrasesPB

    O corpus FrasesPB é um conjunto de frases em português brasileiro.

    O corpus foi criado em 1999 pelo nosso projecto no SINTEF, de forma a obter um sósia do corpus FrasesPP. Tendo como única compiladora Signe Oksefjell, a recolha de frases foi feita exclusivamente na rede (WWW).

    Corpus FrasesPB, versão texto de 17 de Abril de 2002, anotado em Maio de 2002, criado a 30 de Novembro de 2009, v. 4.1

    Estrutura do corpo

    Cada frase, correspondente a uma origem diferente, foi numerada. Para compatibilização com os outros corpora, considerou-se que cada frase correspondia exactamente a um parágrafo. Em dois casos, contudo, o algoritmo separador de frases ainda conseguiu detectar unidades mais pequenas, dando origem pois a dois parágrafos com duas frases cada.

    Marcadores estruturais: s, p.

    Dados quantitativos

    Corpo FRASESPB Número de formasNúmero de tipos
    Unidades 233136018
    Total de palavras 191626008
    Palavras em minúscula 164225265
    Palavras com inicial maiúscula1051526
    Palavras todas em maiúsculas 1414
    Números 4935
    Palavras com números
    Palavras mistas55
    Pontuação70510

    Número de unidades estruturais

    Atributo Número
    p 648
    s 653
    mwe 422

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 250 409
    Locuções 422 904
    Palavras gráficas 19162 19162
    Palavras simples 17849 17849
    Palavras 18521 19162

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 4623 25,90%
    Verbos V.* 2895 16,22%
    Adjectivos ADJ.* 1434 8,03%
    Pronomes pessoais .*PERS.* 356 1,99%
    Preposições PRP.* 3269 18,31%
    Conjunções K.* 1011 5,66%
    Advérbios ADV.* 1054 5,91%
    Determinantes .*DET.* 3639 20,39%
    Especificadores .*SPEC.* 343 1,92%
    Numerais NUM.* 166 0,93%

    ^Voltar ao início da página

    Corpo FrasesPP

    O corpus FrasesPP é um conjunto de frases em português de Portugal, compilado para o teste de uma gramática computacional, desenvolvido no Grupo Científico IBM-INESC (depois Grupo de Linguagem Natural do INESC) de 1990 a 1992. (Santos (ed.) 1992; Medeiros et al. 1993). Encontrava-se em texto simples e em formato LaTeX.

    Corpus FrasesPP, anotado a 22 de Maio de 2007, criado a 14 de Maio de 2010, versão 6.2

    Estrutura do corpo

    Cada frase, correspondente a uma origem diferente, foi numerada. Para compatibilização com os outros corpora, considerou-se que cada frase correspondia exactamente a um parágrafo.

    Marcadores estruturais: s, p.

    Os valores da anotação original encontram-se no atributo posicional pos2. Os valores deste atributo (A, N, V, VPP, PF, PONT e CL) foram atribuídos automaticamente e depois revistos manualmente nos casos em que as palavras obtiveram mais do que uma categoria.

    Dados quantitativos

    Corpo FRASESPP Número de formasNúmero de tipos
    Unidades 200485099
    Total de palavras 162325085
    Palavras em minúscula 135014243
    Palavras com inicial maiúscula1088569
    Palavras todas em maiúsculas 96
    Números 9750
    Palavras com números22
    Palavras mistas
    Pontuação73814

    Número de unidades estruturais

    Atributo Número
    p 594
    s 594
    mwe 351

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 262 431
    Locuções 351 759
    Palavras gráficas 16233 16233
    Palavras simples 15043 15043
    Palavras 15656 16233

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 3699 24,59%
    Verbos V.* 2281 15,16%
    Adjectivos ADJ.* 1298 8,63%
    Pronomes pessoais .*PERS.* 410 2,73%
    Preposições PRP.* 2796 18,59%
    Conjunções K.* 819 5,44%
    Advérbios ADV.* 967 6,43%
    Determinantes .*DET.* 3115 20,71%
    Especificadores .*SPEC.* 311 2,07%
    Numerais NUM.* 205 1,36%

    ^Voltar ao início da página

    Corpo Museu da Pessoa

    O corpus Museu da Pessoa é um corpus de 107 entrevistas transcritas pelo Núcleo Português do Museu da Pessoa no âmbito dos seus projectos, mais seis entrevistas transcritas pelo Museu da Pessoa brasileiro.

    Corpus Museu da Pessoa, versão do texto português de Abril de 2005, versão do texto brasileiro de Dezembro de 2008, anotado 9 de Fevereiro de 2009, criado a 25 de Outubro de 2010, versão 3.5

    Agradecemos ao Núcleo Português do Museu da Pessoa a disponibilização dos textos.

    Estrutura do corpo

    Marcadores estruturais: entrevista [entrevista completa], p [parágrafo], s [frase], resposta, pergunta, legenda [legenda de uma fotografia], introd [texto de introdução antes da entrevista]

    Dados quantitativos

    Corpo MUSEUDAPESSOA Número de formasNúmero de tipos
    Unidades 51774021542
    Total de palavras 37514921497
    Palavras em minúscula 29800115331
    Palavras com inicial maiúscula392653464
    Palavras todas em maiúsculas 10453
    Números 2377240
    Palavras com números8850
    Palavras mistas11495
    Pontuação2862345

    Número de unidades estruturais

    Atributo Número
    mwe 7337
    p 11790
    s 27284
    entrevista 115
    pergunta 5067
    resposta 5340
    legenda 43
    introd 3

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 7124 11856
    Locuções 7337 15720
    Palavras gráficas 375149 375149
    Palavras simples 347573 347573
    Palavras 362034 375149

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 66140 19,03%
    Verbos V.* 72595 20,89%
    Adjectivos ADJ.* 11781 3,39%
    Pronomes pessoais .*PERS.* 17947 5,16%
    Preposições PRP.* 47326 13,62%
    Conjunções K.* 23142 6,66%
    Advérbios ADV.* 37575 10,81%
    Determinantes .*DET.* 62748 18,05%
    Especificadores .*SPEC.* 9441 2,72%
    Numerais NUM.* 5366 1,54%

    ^Voltar ao início da página

    Corpo Natura/Minho

    O corpus Natura/Minho é um corpus jornalístico contendo texto do jornal regional português Diário do Minho, criado no âmbito do projecto Natura. O corpus (correspondente à versão 3 diariodoMinho.3.cor) contém notícias completas, separadas em edições e marcadas pela data. No texto encontravam-se assinalados, numa codificação de tipo XML, títulos, assinaturas e legendas, além de conter marcação (markup) de parágrafos e de formatação, esta última retirada do corpus final.

    Segundo o projecto Natura, o corpus original é assim descrito:
    Uma série de edições do Diário do Minho. Não aparecem neste corpus os textos de desporto e alguns de publicidade por dificuldades com os formatos. Todos os outros textos aparecem completos. Os artigos aqui apresentados contêm algumas gralhas (correspondem à versão antes da revisão de provas).

    Tentámos retirar artigos que continham apenas publicidade, resolução de palavras cruzadas ou de desafios de futebol, assim como evitar artigos repetidos.

    Corpus Natura/Minho (de 9 de Março de 2001), versão texto criada em Abril de 2002, anotado em 14 de Maio de 2011, criado a 7 de Julho de 2011, v. 7.1

    Estamos gratos à direcção do Diário do Minho pela gentil autorização de disponibilização dos tex

    Estrutura do corpo

    A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé. A partir da versão 3.0, introduzimos a anotação li para assinalar listas.

    Marcadores estruturais: p, s, assinatura, legenda, subtitulo, titulo, art, marca e li.

    Dados quantitativos

    Corpo NATMINHO Número de formasNúmero de tipos
    Unidades 215670768966
    Total de palavras 174869867460
    Palavras em minúscula 128481138992
    Palavras com inicial maiúscula25383517613
    Palavras todas em maiúsculas 125511328
    Números 221851268
    Palavras com números2747354
    Palavras mistas1439442
    Pontuação679661505

    Número de unidades estruturais

    Atributo Número
    p 57123
    s 69036
    assinatura 539
    legenda 782
    t 7661
    art 5117
    marca 0
    mwe 30422

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 104234 220144
    Locuções 30422 63832
    Palavras gráficas 1748703 1748703
    Palavras simples 1464727 1464727
    Palavras 1599383 1748703

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 374158 25,54%
    Verbos V.* 207519 14,17%
    Adjectivos ADJ.* 100303 6,85%
    Pronomes pessoais .*PERS.* 19892 1,36%
    Preposições PRP.* 313445 21,40%
    Conjunções K.* 73461 5,02%
    Advérbios ADV.* 72008 4,92%
    Determinantes .*DET.* 315085 21,51%
    Especificadores .*SPEC.* 22878 1,56%
    Numerais NUM.* 42092 2,87%

    ^Voltar ao início da página

    Corpo NILC/São Carlos

    O corpus NILC/São Carlos do Núcleo Interinstitucional de Lingüística Computacional, sediado no Instituto de Ciências Matemáticas e de Computação da Universidade de São Paulo em São Carlos, contém textos brasileiros do registo jornalístico, didáctico, epistolar e redacções de alunos (Nunes et al., 1996a, 1996b). Para um descrição mais abrangente, veja-se a página de descrição do corpus NILC e sua descendência.

    Encontrava-se em vários ficheiros em formato de texto, numa estrutura de directorias indicando a fonte.

    Versão 2.0 do corpus sem Folha, incluindo o CETENFolha 1.0 (antes de baralhar) de 4 de Setembro de 2002 e o Folhazinha-2.1 de 27 de Abril de 2002; anotação sintáctica em Outubro de 2008, anotação semântica em Novembro de 2010, criado a 10 de Novembro de 2010, versão 9.3

    Estamos gratos à Folha de São Paulo pela autorização gentilmente concedida para uso dos seus textos.
    Estamos gratos ao Núcleo Interinstitucional de Lingüística Computacional, em especial a Graça Nunes, por nos ter disponibilizado o texto do corpus em formato electrónico, autorizado a sua disponibilização através do projecto AC/DC e negociado com a Folha de São Paulo a autorização anteriormente mencionada.

    Estrutura do corpo

    Marcadores estruturais: s, p, texto, t (anteriormente à versão 4.0, estava marcado como titulo), subtitulo, assinatura,
    Para os textos da folha de São Paulo, a (autor), artigo, caixa, situacao, li (elemento de lista).

    As primeiras linhas de cada ficheiro foram classificadas como títulos (t). Como subtítulos foram identificadas linhas sem pontuação final todas em maiúsculas. No caso das cartas comerciais, também a assinatura da carta foi marcada separadamente.

    Cada texto tem como identificação o nome do ficheiro de que provém, o que dá alguma indicação sobre o tipo de texto. Prevê-se para breve uma reorganização desses identificadores segundo os novos critérios em desenvolvimento pelos compiladores do corpus.

    A nova versão foi criada após a detecção de alguns textos repetidos. Possíveis alterações em relação ao conteúdo dos textos que constituem o corpus são previsíveis.

    O atributo classe, correspondendo ao tipo de texto, foi adicionado na versão 3.0. A sua distribuição, correspondendo à versão 9.0, é a seguinte:

    TipoDescriçãoTamanho
    DI texto didáctico 425.692
    ENC enciclopédia 286.550
    ENS ensaio 2.169.726
    EP texto epistolar 3.332
    JO.* jornalístico 29.140.843
    JOCF jornalístico só CETENFolha 27.082.793
    JO jornalístico sem CETENFolha 2.058.050
    LE texto legal 1.117.747
    LI literário 921.011
    RE revista 152.366

    O tamanho, na tabela anterior, é medido pelo número de unidades do corpus com a classificação indicada.

    A partir da versão 5.0, a parte do Folha de São Paulo (correspondente ao CETENFolha, de texto de 1994, e a algumas edições de 1996) está dividida em extractos identificados pela secção, semestre, número de extracto, e número de parágrafo no CETENFolha, por exemplo: Cotidiano-94a-61755-2 .

    A partir da versão 7.1, é possível seleccionar apenas o CETENFolha, no corpus SAOCARLOS, usando para isso a restrição [classe="JOCF"]. Dois exemplos (usando a restrição de forma diferente):

    Dados quantitativos

    Corpo SAOCARLOS Número de formasNúmero de tipos
    Unidades 42519799417746
    Total de palavras 32303761396855
    Palavras em minúscula 23191173158345
    Palavras com inicial maiúscula4751063129830
    Palavras todas em maiúsculas 2945529320
    Números 5281213378
    Palavras com números407614685
    Palavras mistas873245314
    Pontuação187531120823

    Número de unidades estruturais

    Atributo Número
    mwe 496106
    p 1119928
    s 1943510
    texto 341900
    subtitulo 3767
    assinatura 13
    artigo 0
    caixa 20418
    situacao 5028
    t 147869
    a 79986
    li 44802

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 2043779 3497556
    Locuções 496106 1049556
    Palavras gráficas 32278876 32278876
    Palavras simples 27731764 27731764
    Palavras 30271649 32278876

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 7068907 25,49%
    Verbos V.* 4278343 15,43%
    Adjectivos ADJ.* 1841809 6,64%
    Pronomes pessoais .*PERS.* 466551 1,68%
    Preposições PRP.* 5269892 19,00%
    Conjunções K.* 1261018 4,55%
    Advérbios ADV.* 1454528 5,24%
    Determinantes .*DET.* 5500177 19,83%
    Especificadores .*SPEC.* 405056 1,46%
    Numerais NUM.* 920599 3,32%

    ^Voltar ao início da página

    Corpo todos juntos

    O corpo TODOS foi criado pela Linguateca de forma a permitir que todos os corpos da Linguateca pudessem ser interrogadas duma só vez, evitando ao mesmo tempo que sobreposições de material produzissem repetição escusada e enganadora de concordâncias ou frequências. É portanto especialmente apropriado para investigações relacionadas com género textual ou com anotação semântica. Porque é automaticamente produzido a partir de todos os outros corpos do AC/DC, contém apenas os atributos estruturais e posicionais que pertençam à interseção de todos os corpos, além dos atributos variante e corpo. Além disso, chamamos a atenção para o facto de poder estar pontualmente desatualizado em relação a versões modernas de corpos individuais.

    O corpo contém cerca de 300 milhões de palavras, distribuídas entre vários géneros e temas, correspondendo ao conteúdo de todos os corpos presentes no AC/DC.

    No caso da sobreposição entre o corpo NILC/São Carlos e o CHAVE, e do corpo CETEMPúblico e o CHAVE, foi escolhido o material do CHAVE.

    Corpo TODOS, versão texto de 18 de Setembro de 2011, criado a 23 de Janeiro de 2012, v. 1.2

    Agradecemos aos compiladores de todos os corpos incluídos por os terem criado e (deixado) tornar públicos.

    Estrutura do corpo

    Os marcadores estruturais são: s, p, e, dependendo dos corpos envolvidos, também ext, texto, entrevista, TEXTO, etc.

    Dados quantitativos

    Corpo TODOS Número de formasNúmero de tipos
    Unidades 3562648691481673
    Total de palavras 2817753231418677
    Palavras em minúscula 210500972441746
    Palavras com inicial maiúscula35825312441013
    Palavras todas em maiúsculas 170200336376
    Números 286583313749
    Palavras com números33350921987
    Palavras mistas29659046740
    Pontuação1887930961412

    Número de unidades estruturais

    Atributo Número
    TEXTO 386
    AUTHOR 0
    CATEGORY 150107
    0
    art 26762
    assinatura 552
    assunto 4872
    autor 50523
    caixa 315
    capitulo 678
    cita 81
    div 1753
    entrevista 115
    ext 1092479
    fala 23769
    introd 3
    legenda 825
    li 136428
    marca 10629
    mens 4951
    mwe 5248145
    nota 276
    obra 309
    p 5526568
    parte 8
    pergunta 5067
    personagem 24721
    resposta 5340
    s 12925612
    situacao 561
    subtitulo 3767
    t 1134945
    texto 6363
    titulo 686
    tituloobra 309
    u 751742
    v 251377
    a 179626
    data 208390
    indic 2049

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 15176959 26526551
    Locuções 5248145 11067704
    Palavras gráficas 281775323 281775323
    Palavras simples 244181068 244181068
    Palavras 264606172 281775323

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 58682394 24,03%
    Verbos V.* 36823912 15,08%
    Adjectivos ADJ.* 17141848 7,02%
    Pronomes pessoais .*PERS.* 4770122 1,95%
    Preposições PRP.* 48153135 19,72%
    Conjunções K.* 12189229 4,99%
    Advérbios ADV.* 14665294 6,01%
    Determinantes .*DET.* 50716622 20,77%
    Especificadores .*SPEC.* 4428281 1,81%
    Numerais NUM.* 6108600 2,50%

    ^Voltar ao início da página

    Corpo Vercial

    O corpo Vercial contém 309 obras literárias de 55 autores portugueses, digitalizadas pelo projecto Vercial, cujas datas de publicação variam desde 1500 (Carta a El-rei Dom Manuel Sobre o Achamento do Brasil, de Pero Vaz de Caminha) a 1933 (Memórias III, de Raul Brandão).

    Corpus Vercial, anotado em Junho de 2011, criado a 21 de Dezembro de 2011, v. 5.0

    Agradecemos à equipa do projecto Vercial, especialmente a José Leon Machado, que gentilmente nos cederam os textos para este corpus.

    Estrutura do corpo

    Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra).

    As 187 obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].

    As 80 obras de poesia têm os seguintes marcadores estruturais adicionais: div [parte de um poema, assinalada graficamente por números romanos] e v [verso].

    As 43 obras de teatro têm os seguintes marcadores estruturais adicionais: fala [juntando a fala de uma personagem] e s [frase].

    Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), classe (que pode ser Poesia, Prosa ou Teatro), e data (que quando é desconhecida tem o valor "desc").

    As obras presentes e respectivos autores são as seguintes:

    Dados quantitativos

    Corpo VERCIAL Número de formasNúmero de tipos
    Unidades 20595097347292
    Total de palavras 14710560340978
    Palavras em minúscula 11073481180882
    Palavras com inicial maiúscula166082375533
    Palavras todas em maiúsculas 243521642
    Números 543662048
    Palavras com números373322
    Palavras mistas293657452
    Pontuação10263312859

    Número de unidades estruturais

    Atributo Número
    p 157225
    s 948750
    v 251377
    obra 309
    capitulo 653
    titulo 0
    u 759805
    fala 23769
    autor 309
    tituloobra 309
    div 1753
    mwe 231769

    Contabilização de multipalavras

    Número de entidades Número de unidades
    Nomes próprios 510817 772410
    Locuções 231769 490229
    Palavras gráficas 14313729 14313729
    Palavras simples 13051090 13051090
    Palavras 13793676 14313729

    Distribuição por categoria gramatical

    Categoria gramaticalExpressão de procura Número de palavrasPercentagem do corpo
    Substantivos N|N[^U].* 2897532 22,20%
    Verbos V.* 2279520 17,47%
    Adjectivos ADJ.* 897834 6,88%
    Pronomes pessoais .*PERS.* 671822 5,15%
    Preposições PRP.* 2050555 15,71%
    Conjunções K.* 807631 6,19%
    Advérbios ADV.* 892486 6,84%
    Determinantes .*DET.* 2552774 19,56%
    Especificadores .*SPEC.* 304846 2,34%
    Numerais NUM.* 148354 1,14%

    ^Voltar ao início da página

    [ Acesso | Anotação | Atomização | Exemplos | Agradecimentos ]


    Última actualização: 04 de Setembro de 2011
    Perguntas, comentários e sugestões