Além de apontar para a informação original fornecida pelos compiladores e de apresentar uma contabilização sumária de todos os corpos em forma de tabela, descreve várias opções básicas tomadas na codificação dos corpos no ambiente escolhido, o IMS-CWB. Sem que estas opções sejam explicitadas, não é possível compreender os resultados quantitativos ou comparar com vários trabalhos sobre os mesmos corpos.
Todos os corpos foram anotados pelo PALAVRAS, o analisador sintáctico criado Eckhard Bick, Bick (2000). Veja-se a página de anotação para mais informações sobre essa anotação.
| AmostRA-NILC | Selecção de textos do corpo NILC, em português brasileiro, contendo textos dos géneros didático, jornalístico e literário, anotada com classificação gramatical, criada no âmbito da tese de mestrado de Rachel Aires, orientada por Sandra Aluísio, no NILC |
| ANCIB | Corpo de correio electrónico da lista ANCIB |
| Avante! | Corpo de artigos da edição electrónica do Avante!, jornal semanal do Partido Comunista Português |
| CDHAREM | As colecções douradas usadas no HAREM |
| CETEMPúblico | CETEMPúblico (Corpo de Extractos de Textos Electrónicos MCT/Público) |
| CETEMPúblico (primeiro milhão) | Primeiro milhão de palavras do CETEMPúblico, revisto pela equipa do projecto Floresta sintá(c)tica. |
| CHAVE | Corpo de texto jornalístico usado no CLEF |
| ClassLPPE | Corpo Clássicos da Literatura Portuguesa da Porto Editora |
| CONDIVport | Parte do corpo CONDIVport, contendo textos de jornais desportivos de Portugal e do Brasil |
| CoNE | Corpo de Correio Não-Endereçado, criado pela Linguateca |
| DiaCLAV | Corpo de artigos da edição electrónica de jornais regionais da região centro de Portugal (Diário de Coimbra, Diário de Leiria, Diário de Aveiro e Viseu Diário) |
| ECI-EBR | A parte do corpo Borba-Ramsey, contido no European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI) |
| ECI-EE | A parte da apresentação do programa Esprit do European Corpus Initiative, the Multilingual Corpus 1 (ECI/MCI) |
| ENPCPUB | Parte disponível da parte em português do English-Norwegian Parallel Corpus (ENPC) (traduções para português de originais em inglês) |
| Floresta | Corpo relativo ao material da Floresta Sintá(c)tica |
| FrasesPP | Corpo FrasesPP, desenvolvido no Grupo de PLN do INESC em 1990-93 |
| FrasesPB | Corpo FrasesPB, criado no âmbito do Projecto Processamento Computacional do Português |
Museu da Pessoa| Corpo de 109 entrevistas realizadas pelo Museu da Pessoa | |
| Natura/Minho | Corpo jornalístico Natura/Diário do Minho |
| Natura/Público | Corpo jornalístico Natura/Público |
| NILC/São Carlos | Corpo NILC/São Carlos (parte corrigida), contendo texto jornalístico, didáctico e epistolar. |
| Vercial | Corpo de textos literários portugueses clássicos, disponibilizados pelo projecto Vercial. |
Este processo, que chamamos atomização, encontra-se descrito em Atomização, e inclui também a divisão em frases, obtida automaticamente na maior parte dos casos.
De forma a poder comparar os vários corpos numa única tabela, convém notar que os elementos classificados como títulos, legendas, etc. não foram considerados frases para efeitos desta contagem. Por outro lado, os parágrafos (geralmente curtos) sem pontuação final são marcados como frases, do tipo fragmento.
Esta contabilização é actualizada sempre que há criação de novas versões.
| Corpo | Nº de frases | Nº de parágrafos | Nº de palavras (formas) | Nº de palavras (tipos) | Nº de unidades |
| AmostRA-NILC | 4.965 | 4.904 | 98.786 | 17.153 | 127.832 |
| ANCIB | 80.992 | 57.601 | 1.258.764 | 73.686 | 1.690.376 |
| Avante! | 204.414 | 104.787 | 6.501.146 | 119.848 | 7.766.309 |
| CD HAREM | 12.558 | 7.276 | 225.766 | 30.985 | 290.001 |
| CETEMPúblico | 8.128.620 | 3.613.334 | 191.277.678 | 927.533 | 240.424.488 |
| CHAVE | 4.740.448 | 2.269.734 | 99.355.321 | 698.030 | 123.936.528 |
| CONDIVport | 318.753 | 148.865 | 5.577.161 | 147.632 | 7.089.872 |
| CoNE | 31.562 | 19.416 | 685.244 | 41.048 | 925.262 |
| DiaCLAV | 232.152 | 44.133 | 6.651.523 | 107.947 | 7.758.469 |
| ECI-EBR | 44.381 | 12.117 | 724.008 | 60.201 | 917.124 |
| ECI-EE | 839 | 340 | 27.138 | 4.096 | 32.034 |
| ENPCPUB (parte em português) | 4.371 | 1.690 | 72.375 | 12.875 | 92.688 |
| Floresta | 327.179 | 0 | 5.950.072 | 179.491 | 7.252.252 |
| FrasesPB | 653 | 648 | 19.162 | 6.008 | 23.313 |
| FrasesPP | 594 | 594 | 16.232 | 5.085 | 20.048 |
| Museu da Pessoa | 27.288 | 16.858 | 375.149 | 21.497 | 517.740 |
| Natura/Minho | 69.100 | 57.149 | 1.748.698 | 67.460 | 2.156.707 |
| NILC/São Carlos | 1.954.909 | 1.121.504 | 32.303.761 | 396.855 | 42.519.799 |
| todos juntos | 12.949.733 | 5.566.813 | 281.870.352 | 1.416.928 | 356.872.560 |
| Vercial | 950.980 | 182.649 | 14.710.560 | 340.978 | 20.595.097 |
| Total | 30.084.491 | 13.230.412 | 649.448.896 | 4.675.336 | 821.008.499 |
A maior parte dos corpos requereu tratamento específico e opções dedicadas, que serão mencionadas na descrição de cada caso. Como opções gerais, mais detalhadas na página de atomização, temos:
Citando Aires 2000 (secção 4.1.1)
" Para compor nosso corpus de treinamento e teste selecionamos textos do corpora do Nilc pertencentes a três gêneros: didático, jornalístico e literário. Um dos objetivos deste trabalho é avaliar os etiquetadores por gêneros. A escolha destes três gêneros foi feita para se abranger em particular:
(...) Além dos gêneros de texto que farão parte do corpus, temos também que decidir se serão ou não mantidos títulos, frases entre parênteses e resumos nos textos. No nosso caso não mantivemos os títulos, mas mantivemos os textos entre parênteses e não precisamos nos preocupar com resumos, que não apareciam nos textos escolhidos.
(...) em 20 de julho de 2000, obtivemos a última versão do nosso corpus de treinamento e teste contendo 104.962 palavras, que foi utilizada em todos os experimentos descritos neste trabalho. (...)
| Tabela 1 - Corpus de treinamento e teste | ||
|---|---|---|
| Tipo de Corpus | Tamanho do corpus | |
| D | Didático | 16.255 palavras |
| J | Jornalístico | 56.653 palavras |
| L | Literário | 32.054 palavras |
(fim de citação)
Corpus AmostRA-NILC duplamente anotado, versão texto de 7 de Agosto de 2003 com primeira anotação do NILC (Rachel Aires), anotado em Agosto de 2008 pelo PALAVRAS, criado a 5 de Janeiro de 2010, v. 3.1
Agradecemos a Rachel Aires a disponibilização do corpus.
| Corpo AMOSTRA | Número de formas | Número de tipos |
| Unidades | 127832 | 17185 |
| Total de palavras | 98786 | 17153 |
| Palavras em minúscula | 78450 | 13535 |
| Palavras com inicial maiúscula | 8311 | 2414 |
| Palavras todas em maiúsculas | 428 | 18 |
| Números | 914 | 190 |
| Palavras com números | 71 | 46 |
| Palavras mistas | 30 | 20 |
| Pontuação | 5750 | 32 |
| Atributo | Número |
| s | 4963 |
| p | 4903 |
| mwe | 1779 |
| Número de entidades | Número de unidades | |
| Nomes próprios | 3376 | 4914 |
| Locuções | 1779 | 3745 |
| Palavras gráficas | 98786 | 98786 |
| Palavras simples | 90127 | 90127 |
| Palavras | 95282 | 98786 |
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
|---|---|---|---|
| Substantivos | N|N[^U].* | 23235 | 25,78% |
| Verbos | V.* | 14122 | 15,67% |
| Adjectivos | ADJ.* | 6488 | 7,20% |
| Pronomes pessoais | .*PERS.* | 2283 | 2,53% |
| Preposições | PRP.* | 16642 | 18,47% |
| Conjunções | K.* | 4151 | 4,61% |
| Advérbios | ADV.* | 5066 | 5,62% |
| Determinantes | .*DET.* | 17544 | 19,47% |
| Especificadores | .*SPEC.* | 1368 | 1,52% |
| Numerais | NUM.* | 1808 | 2,01% |
Esta lista é gerida por Aldo Barreto, que gentilmente nos concedeu autorização para a criação deste corpus), que tem material entre Julho de 1998 e Junho de 2008, num total de 624 mensagens em formato Eudora, sendo o resto em formato Outlook, totalizando 2814 mensagens cuja língua foi identificada como portuguesa.
Corpus ANCIB, versão texto de Junho de 2009, anotado 9 de Janeiro de 2010, v. 6.1
Agradecemos a Aldo Barreto a autorização gentilmente cedida para uso dos textos da lista.
Embora tenham sido excluídas as mensagens totalmente (ou quase) noutros idiomas, foram mantidas mensagens parcialmente noutras línguas, pelo que o corpus contém uma quantidade reduzida de texto em inglês e castelhano.
Foram removidas, na medida do possível, as assinaturas automáticas das mensagens.
Foram transformados alguns caracteres ['A==>À, e'==>é, etc].
O corpus está dividido em mensagens separadas, marcadas pelo atributo mens, com informação da data <mens dt=...> . Cada mensagem tem sempre os campos assunto e autor (a pessoa que enviou a mensagem para a lista). O corpo da mensagem está dividido em p [parágrafos], s [frases], e possivelmente li [elementos de listas] e titulo [títulos].
O corpus tem também o atributo cita que indica referência a uma mensagem anterior, citada no corpo da mensagem e indicada pelo sinal ">" no início de linha.
| Corpo ANCIB | Número de formas | Número de tipos |
| Unidades | 1690418 | 76627 |
| Total de palavras | 1258756 | 73685 |
| Palavras em minúscula | 841477 | 34806 |
| Palavras com inicial maiúscula | 226734 | 21846 |
| Palavras todas em maiúsculas | 19169 | 3505 |
| Números | 20127 | 1337 |
| Palavras com números | 2715 | 801 |
| Palavras mistas | 2721 | 630 |
| Pontuação | 107145 | 2928 |
| Atributo | Número |
| p | 57556 |
| s | 80698 |
| mwe | 14541 |
| autor | 3007 |
| mens | 3012 |
| assunto | 2978 |
| li | 0 |
| titulo | 0 |
| cita | 81 |
| Número de entidades | Número de unidades | |
| Nomes próprios | 97197 | 202684 |
| Locuções | 14541 | 31057 |
| Palavras gráficas | 1258764 | 1258764 |
| Palavras simples | 1025023 | 1025023 |
| Palavras | 1136761 | 1258764 |
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
|---|---|---|---|
| Substantivos | N|N[^U].* | 292526 | 28,54% |
| Verbos | V.* | 126007 | 12,29% |
| Adjectivos | ADJ.* | 73300 | 7,15% |
| Pronomes pessoais | .*PERS.* | 13786 | 1,34% |
| Preposições | PRP.* | 194495 | 18,97% |
| Conjunções | K.* | 59283 | 5,78% |
| Advérbios | ADV.* | 40010 | 3,90% |
| Determinantes | .*DET.* | 190626 | 18,60% |
| Especificadores | .*SPEC.* | 12344 | 1,20% |
| Numerais | NUM.* | 32675 | 3,19% |
Corpus Avante, versão de 6 de Março de 2006, criado a 11 de Janeiro de 2010, versão 4.1
Estamos gratos à direcção do «Avante!», em especial ao seu director José Casanova, pela autorização gentilmente cedida para a elaboração deste corpus.
| Corpo AVANTE | Número de formas | Número de tipos |
| Unidades | 7767354 | 121426 |
| Total de palavras | 6499145 | 119858 |
| Palavras em minúscula | 5094004 | 67953 |
| Palavras com inicial maiúscula | 674805 | 29348 |
| Palavras todas em maiúsculas | 70296 | 2307 |
| Números | 57909 | 1645 |
| Palavras com números | 770 | 296 |
| Palavras mistas | 2068 | 721 |
| Pontuação | 228599 | 1566 |
| Atributo | Número |
| art | 8539 |
| t | 29272 |
| a | 2 |
| p | 104736 |
| li | 43141 |
| s | 204212 |
| mwe | 130575 |
| Número de entidades | Número de unidades | |
| Nomes próprios | 81210 | 492178 |
| Locuções | 130575 | 276704 |
| Palavras gráficas | 6499154 | 6499154 |
| Palavras simples | 5730272 | 5730272 |
| Palavras | 5942057 | 6499154 |
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
|---|---|---|---|
| Substantivos | N|N[^U].* | 1454846 | 25,39% |
| Verbos | V.* | 778537 | 13,59% |
| Adjectivos | ADJ.* | 456501 | 7,97% |
| Pronomes pessoais | .*PERS.* | 91603 | 1,60% |
| Preposições | PRP.* | 1214687 | 21,20% |
| Conjunções | K.* | 326148 | 5,69% |
| Advérbios | ADV.* | 311043 | 5,43% |
| Determinantes | .*DET.* | 1265477 | 22,08% |
| Especificadores | .*SPEC.* | 105560 | 1,84% |
| Numerais | NUM.* | 104441 | 1,82% |
Corpus Colecção Dourada do HAREM, a partir das versões das CD do Primeiro HAREM de 2007, anotado em 3 de Maio de 2010, criado a 15 de Maio de 2010, versão 3.2
| Corpo CDHAREM | Número de formas | Número de tipos |
| Unidades | 290001 | 31214 |
| Total de palavras | 225766 | 30985 |
| Palavras em minúscula | 165617 | 19241 |
| Palavras com inicial maiúscula | 32737 | 7956 |
| Palavras todas em maiúsculas | 1400 | 1046 |
| Números | 2887 | 564 |
| Palavras com números | 123 | 83 |
| Palavras mistas | 149 | 95 |
| Pontuação | 15197 | 229 |
| Atributo | Número |
| DOC | 386 |
| TEXTO | 386 |
| LOCAL | 3494 |
| ORGANIZACAO | 2621 |
| VALOR | 1153 |
| COISA | 640 |
| ACONTECIMENTO | 501 |
| OBRA | 863 |
| PESSOA | 4014 |
| TEMPO | 1970 |
| ABSTRACCAO | 1195 |
| VARIADO | 54 |
| OUTRO | 110 |
| p | 7262 |
| s | 12530 |
| ALT | 533 |
| EM | 15908 |
| mwe | 3913 |
| Número de entidades | Número de unidades | |
| Nomes próprios | 12178 | 22866 |
| Locuções | 3913 | 8318 |
| Palavras gráficas | 225766 | 225766 |
| Palavras simples | 194582 | 194582 |
| Palavras | 210673 | 225766 |
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
|---|---|---|---|
| Substantivos | N|N[^U].* | 45363 | 23,31% |
| Verbos | V.* | 30984 | 15,92% |
| Adjectivos | ADJ.* | 12191 | 6,27% |
| Pronomes pessoais | .*PERS.* | 5198 | 2,67% |
| Preposições | PRP.* | 35007 | 17,99% |
| Conjunções | K.* | 10098 | 5,19% |
| Advérbios | ADV.* | 13231 | 6,80% |
| Determinantes | .*DET.* | 38627 | 19,85% |
| Especificadores | .*SPEC.* | 3841 | 1,97% |
| Numerais | NUM.* | 4667 | 2,40% |
Corpus CETEMPúblico anotado: versão 1.7 do texto, criada a 18 de Setembro de 2001, anotada em Abril-Julho de 2011, versão na rede criada a 23 de Janeiro de 2012, v. 7.0
Estamos gratos ao Público pela gentil disponibilização dos textos.
Estamos especialmente gratos a José Vitor Malheiros, director da versão electrónica, sem o qual este corpo não existiria, e a Paulo Almeida pelo apoio técnico com os ficheiros electrónicos.
Além da palavra, o corpus tem mais dois atributos posicionais, sem [semestre em que o texto foi escrito ou enviado para o jornal]: e sec [classificação da secção a que o texto pertencia]. Veja-se a discussão em Rocha & Santos (2000) sobre a forma da atribuição deste último.
| semestre | tamanho | clt | clt-soc | com | des | eco | nd | opi | pol | soc |
|---|---|---|---|---|---|---|---|---|---|---|
| 91a | 7149217 | 635359 | 182077 | 0 | 843279 | 500641 | 2785736 | 0 | 976626 | 1225499 |
| 91b | 13745309 | 1218925 | 207192 | 0 | 1367042 | 913201 | 5530051 | 0 | 2098691 | 2410207 |
| 92a | 14814803 | 2425665 | 519555 | 0 | 1459440 | 1469296 | 2019147 | 0 | 3806535 | 3115165 |
| 92b | 11129015 | 2144899 | 426980 | 0 | 1263768 | 1254558 | 485878 | 0 | 2632447 | 2920485 |
| 93a | 14765697 | 3077753 | 877517 | 0 | 1438235 | 1629571 | 573268 | 0 | 3306518 | 3862835 |
| 93b | 11770263 | 2194869 | 564576 | 0 | 1220282 | 1224505 | 1040088 | 0 | 2493618 | 3032325 |
| 94a | 14894478 | 2933276 | 846670 | 0 | 1468657 | 1526745 | 1427250 | 0 | 3202569 | 3489311 |
| 94b | 14412323 | 2691085 | 844908 | 0 | 1556472 | 1522688 | 1676620 | 0 | 2840539 | 3280011 |
| 95a | 16142029 | 2683291 | 1054922 | 0 | 1755006 | 1557965 | 1877697 | 0 | 2999578 | 4213570 |
| 95b | 15217924 | 2155972 | 910694 | 0 | 1562888 | 1369598 | 2006580 | 0 | 3180102 | 4032090 |
| 96a | 11583129 | 1589882 | 0 | 13040 | 1384668 | 930279 | 1169516 | 610825 | 2077221 | 3807698 |
| 96b | 11279801 | 1551042 | 0 | 0 | 1497139 | 766872 | 1204601 | 602859 | 1849211 | 3808077 |
| 97a | 9616546 | 1324919 | 0 | 16258 | 1274429 | 653495 | 890896 | 609754 | 1601141 | 3245654 |
| 97b | 9650875 | 1321148 | 0 | 236995 | 1199354 | 632192 | 907705 | 555017 | 1760863 | 3037601 |
| 98a | 12537354 | 1416393 | 0 | 378114 | 1470310 | 769244 | 1708225 | 628489 | 1925058 | 4241521 |
| 98b | 8700720 | 1015007 | 0 | 269169 | 1016906 | 548067 | 832898 | 421083 | 1604557 | 2993033 |
| Todos | 30379485 | 6435091 | 913576 | 21777875 | 17268917 | 26136156 | 3428027 | 38355274 | 52715082 |
| Corpo CETEMPUBLICO | Número de formas | Número de tipos |
| Unidades | 240424488 | 2461192 |
| Total de palavras | 191277678 | 927533 |
| Palavras em minúscula | 144232762 | 270880 |
| Palavras com inicial maiúscula | 24080112 | 309280 |
| Palavras todas em maiúsculas | 1129536 | 22120 |
| Números | 1844211 | 10640 |
| Palavras com números | 262378 | 16256 |
| Palavras mistas | 121281 | 30037 |
| Pontuação | 13075857 | 29316 |
| Atributo | Número |
| p | 3613293 |
| s | 8128037 |
| ext | 0 |
| t | 702953 |
| a | 0 |
| mwe | 3730232 |
| marca | 0 |
| Número de entidades | Número de unidades | |
| Nomes próprios | 10556258 | 18608449 |
| Locuções | 3730232 | 7855627 |
| Palavras gráficas | 191277678 | 191277678 |
| Palavras simples | 164813602 | 164813602 |
| Palavras | 179100092 | 191277678 |
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
|---|---|---|---|
| Substantivos | N|N[^U].* | 39333836 | 23,87% |
| Verbos | V.* | 24626021 | 14,94% |
| Adjectivos | ADJ.* | 11656230 | 7,07% |
| Pronomes pessoais | .*PERS.* | 2922656 | 1,77% |
| Preposições | PRP.* | 33548352 | 20,36% |
| Conjunções | K.* | 8098658 | 4,91% |
| Advérbios | ADV.* | 10120834 | 6,14% |
| Determinantes | .*DET.* | 34972187 | 21,22% |
| Especificadores | .*SPEC.* | 3038078 | 1,84% |
| Numerais | NUM.* | 4185363 | 2,54% |
Corpus CHAVE anotado, anotado sintacticamente de Outubro a Dezembro de 2008, anotado com cor e roupa em Abril-Maio de 2010, versão 4.2
Agradecemos ao PÚBLICO e à Folha de São Paulo a gentil autorização de disponibilização dos textos.
| Corpo CHAVE | Número de formas | Número de tipos |
| Unidades | 123936528 | 722150 |
| Total de palavras | 99355321 | 698030 |
| Palavras em minúscula | 73737504 | 230459 |
| Palavras com inicial maiúscula | 13001169 | 233405 |
| Palavras todas em maiúsculas | 654696 | 16752 |
| Números | 1110843 | 7585 |
| Palavras com números | 107680 | 9903 |
| Palavras mistas | 150407 | 15229 |
| Pontuação | 4740129 | 24004 |
| Atributo | Número |
| s | 4738282 |
| t | 577928 |
| p | 2269421 |
| mwe | 1790346 |
| data | 210729 |
| DOC | 210726 |
| CATEGORY | 210729 |
| AUTHOR | 2 |
| EM | 210729 |
| Número de entidades | Número de unidades | |
| Nomes próprios | 5504868 | 9550201 |
| Locuções | 1790346 | 3782008 |
| Palavras gráficas | 99477971 | 99477971 |
| Palavras simples | 86145762 | 86145762 |
| Palavras | 93440976 | 99477971 |
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
|---|---|---|---|
| Substantivos | N|N[^U].* | 20993953 | 24,37% |
| Verbos | V.* | 12920153 | 15,00% |
| Adjectivos | ADJ.* | 6031253 | 7,00% |
| Pronomes pessoais | .*PERS.* | 1502949 | 1,74% |
| Preposições | PRP.* | 17043473 | 19,78% |
| Conjunções | K.* | 4180282 | 4,85% |
| Advérbios | ADV.* | 4975068 | 5,78% |
| Determinantes | .*DET.* | 17735511 | 20,59% |
| Especificadores | .*SPEC.* | 1484406 | 1,72% |
| Numerais | NUM.* | 2297484 | 2,67% |
Este subcorpus contém 3981 extractos de textos de jornais desportivos portugueses e brasileiros, das décadas de 1950, 1970 e 2000; 4372 textos (agrupados em 82 extractos, ou seja, provenientes de 82 edições) de revistas de moda portuguesas e brasileiras, das décadas de 1950, 1970, e 1990-2000, assim como 1815 textos de revistas e jornais de saúde nos mesmos períodos.
Corpus CONDIV, versão texto (futebol) de 15 de Fevereiro de 2006, versão texto (moda) de 18 de Dezembro de 2008, versão texto (saúde) de 2 de Fevereiro de 2010, anotado em Abril de 2011, anotado semanticamente e criado a 8 de Janeiro de 2012, v. 9.1
Estamos gratos à equipa do projecto de investigação Convergência e Divergência no Léxico do Português, em especial ao investigador responsável Augusto Soares da Silva, pela autorização gentilmente cedida para a disponibilização deste corpus.
| Tamanho | Futebol | Moda/vestuário | Saúde | |
|---|---|---|---|---|
| PT | 3284597 | 1649456 | 307109 | 1328032 |
| BR | 2631440 | 1356183 | 797206 | 478051 |
| Todos | 3005639 | 1104325 | 1806083 |
| Corpo CONDIV | Número de formas | Número de tipos |
| Unidades | 7089872 | 149652 |
| Total de palavras | 5577161 | 147632 |
| Palavras em minúscula | 4195355 | 80549 |
| Palavras com inicial maiúscula | 655029 | 37660 |
| Palavras todas em maiúsculas | 13606 | 3205 |
| Números | 72991 | 1653 |
| Palavras com números | 2501 | 722 |
| Palavras mistas | 4784 | 1215 |
| Pontuação | 338937 | 1944 |
| Atributo | Número |
| ext | 2089 |
| texto | 5384 |
| p | 138192 |
| s | 296796 |
| mwe | 103658 |
| Número de entidades | Número de unidades | |
| Nomes próprios | 240490 | 359027 |
| Locuções | 103658 | 219029 |
| Palavras gráficas | 5570215 | 5570215 |
| Palavras simples | 4992159 | 4992159 |
| Palavras | 5336307 | 5570215 |
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
|---|---|---|---|
| Substantivos | N|N[^U].* | 1137226 | 22,78% |
| Verbos | V.* | 728433 | 14,59% |
| Adjectivos | ADJ.* | 373239 | 7,48% |
| Pronomes pessoais | .*PERS.* | 101637 | 2,04% |
| Preposições | PRP.* | 830955 | 16,65% |
| Conjunções | K.* | 258727 | 5,18% |
| Advérbios | ADV.* | 307296 | 6,16% |
| Determinantes | .*DET.* | 914430 | 18,32% |
| Especificadores | .*SPEC.* | 77504 | 1,55% |
| Numerais | NUM.* | 117297 | 2,35% |
O corpus foi criado usando mensagens em português não endereçadas, recebidas por elementos da equipa da Linguateca entre 10 de Agosto de 2001 e 24 de Janeiro de 2006.
Versão do corpus de 15 de Janeiro de 2006 e versão 3.1 da sua codificação e anotação, a 9 de Janeiro de 2010
| Corpo CONE | Número de formas | Número de tipos |
| Unidades | 925262 | 43941 |
| Total de palavras | 685244 | 41048 |
| Palavras em minúscula | 399168 | 18493 |
| Palavras com inicial maiúscula | 160376 | 13527 |
| Palavras todas em maiúsculas | 12044 | 1998 |
| Números | 15297 | 872 |
| Palavras com números | 2888 | 678 |
| Palavras mistas | 3427 | 407 |
| Pontuação | 55298 | 2887 |
| Atributo | Número |
| p | 19248 |
| s | 31298 |
| mwe | 8283 |
| autor | 1949 |
| mens | 1949 |
| assunto | 1904 |
| div | 0 |
| li | 26844 |
| titulo | 1295 |
| cita | 0 |
| Número de entidades | Número de unidades | |
| Nomes próprios | 58675 | 121139 |
| Locuções | 8283 | 17509 |
| Palavras gráficas | 685252 | 685252 |
| Palavras simples | 546604 | 546604 |
| Palavras | 613562 | 685252 |
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
|---|---|---|---|
| Substantivos | N|N[^U].* | 160111 | 29,29% |
| Verbos | V.* | 68258 | 12,49% |
| Adjectivos | ADJ.* | 36786 | 6,73% |
| Pronomes pessoais | .*PERS.* | 8977 | 1,64% |
| Preposições | PRP.* | 94535 | 17,29% |
| Conjunções | K.* | 32276 | 5,90% |
| Advérbios | ADV.* | 23758 | 4,35% |
| Determinantes | .*DET.* | 82614 | 15,11% |
| Especificadores | .*SPEC.* | 5203 | 0,95% |
| Numerais | NUM.* | 26399 | 4,83% |
Corpus DIACLAVANOT, versão texto criada em Abril de 2002, anotado em Agosto de 2008, criado a 11 de Janeiro de 2010, v. 3.1
Agradecemos à direcção do Grupo Editorial Adriano Lucas a autorização gentilmente concedida para a criação deste corpus.
O atributo posicional fonte, que pode assumir os valores DA, DC, DL ou VD, indica de qual dos jornais do grupo é originário um determinado texto.
| Corpo DIACLAV | Número de formas | Número de tipos |
| Unidades | 7758469 | 110063 |
| Total de palavras | 6651523 | 107947 |
| Palavras em minúscula | 4984547 | 58853 |
| Palavras com inicial maiúscula | 859383 | 28967 |
| Palavras todas em maiúsculas | 40061 | 2141 |
| Números | 59691 | 1330 |
| Palavras com números | 6504 | 1047 |
| Palavras mistas | 2489 | 862 |
| Pontuação | 231683 | 2115 |
| Atributo | Número |
| p | 44133 |
| s | 232139 |
| art | 13008 |
| t | 13007 |
| a | 5840 |
| mwe | 130555 |
| Número de entidades | Número de unidades | |
| Nomes próprios | 331676 | 513265 |
| Locuções | 130555 | 273688 |
| Palavras gráficas | 6651538 | 6651538 |
| Palavras simples | 5864585 | 5864585 |
| Palavras | 6326816 | 6651538 |
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
|---|---|---|---|
| Substantivos | N|N[^U].* | 1461150 | 24,91% |
| Verbos | V.* | 879523 | 15,00% |
| Adjectivos | ADJ.* | 389559 | 6,64% |
| Pronomes pessoais | .*PERS.* | 86869 | 1,48% |
| Preposições | PRP.* | 1225336 | 20,89% |
| Conjunções | K.* | 289298 | 4,93% |
| Advérbios | ADV.* | 336862 | 5,74% |
| Determinantes | .*DET.* | 1220515 | 20,81% |
| Especificadores | .*SPEC.* | 105931 | 1,81% |
| Numerais | NUM.* | 129334 | 2,21% |
Em Outubro de 2009, foi levada a cabo pela Linguateca (Rosário Silva) uma análise do texto todo para distinguir entre diversos excertos diferentes, e indicar e identificar o género de texto a que pertenciam. Da mesma penada, foi associada a informação do assunto ou tema sobre que versavam, no caso de textos escritos não literários.
Mais especificamente, o corpo foi classificado com categorias (correspondentes ao atributo posicional genero) pertencendo à seguinte grelha:
Sempre que não foi possível identificar um género mais específico (por serem plausíveis várias hipóteses), optámos por dar apenas indicação de género informativo associando ao mesmo o tema genérico tratado no excerto. O conjunto de temas identificados foi: agricultura; arqueologia; arte; astronomia; biologia; botânica; ciência; clima; culinária; cultura; desporto; direito; ecologia; economia; edição; educação; enciclopédico; escutismo; estatística; filatelia; filosofia; física; fotografia; geografia; gestão; hidrografia; história; indústria; linguística; magia; maternidade; medicina; música; política; psicologia; religião; saúde; sociologia; turismo; zoologia.
Por vezes foram atribuídos dois temas, por se considerar ambos igualmente adequados para caracterizar o excerto. Exemplos: economia_sociologia; história_economia; história_religião; religião_magia.
Nos poucos casos em que não foi possível identificar nem o género nem o tema do excerto, usou-se a marca "indef" (de indefinido).
O corpo ECI-EBR passou então a partir da sua versão 8.0 a incluir mais um atributo posicional tema, com os valores acima.
Na tabela seguinte indicamos a distribuição do texto pelos diversos géneros, e no caso de texto informativo, qual o assunto versado:
| Género | Unidades | Textos |
| Literatura | 368.024 | 151 |
| Informativo | 201.425 | 285 |
| Jornalismo | 88.070 | 536 |
| Oral | 66.565 | 29 |
| Outros | 16.061 | 33 |
| Indef | 16.774 | 81 |
| Assuntos | Unidades | Textos |
| Agricultura | 3458 | 8 |
| Arqueologia | 1669 | 3 |
| Arte | 4193 | 4 |
| Astrologia | 1292 | 1 |
| Biologia | 3660 | 3 |
| Botânica | 6082 | 4 |
| Ciência | 7375 | 9 |
| Clima | 302 | 1 |
| Crónica | 3716 | 11 |
| Culinária | 1316 | 1 |
| Cultura | 5698 | 44 |
| Desporto | 8173 | 39 |
| Direito | 1703 | 4 |
| Ecologia | 326 | 2 |
| Economia | 18360 | 60 |
| Edição | 821 | 1 |
| Educação | 1092 | 1 |
| Entretenimento | 4988 | 31 |
| Escutismo | 422 | 1 |
| Estatística | 1237 | 1 |
| Filatelia | 1109 | 1 |
| Filosofia | 3382 | 3 |
| Física | 627 | 1 |
| Fotografia | 1056 | 2 |
| Generalidades | 5476 | 45 |
| Geografia | 3685 | 6 |
| Geologia | 77 | 1 |
| Gestão | 2300 | 3 |
| Hidrografia | 1276 | 1 |
| História | 35076 | 30 |
| Indef | 482747 | 1 |
| Indústria | 1375 | 3 |
| Internacional | 8098 | 57 |
| Jornalismo | 277 | 536 |
| Linguística | 8066 | 12 |
| Literatura | 8180 | 14 |
| Maternidade | 344 | 1 |
| Medicina | 16837 | 18 |
| Música | 1689 | 3 |
| Oceanografia | 302 | 1 |
| País | 44537 | 206 |
| Política | 19620 | 36 |
| Psicologia | 2388 | 5 |
| Religião | 20977 | 32 |
| Reportagem | 1275 | 3 |
| Saúde | 4460 | 18 |
| Sociedade | 7286 | 58 |
| Sociologia | 10347 | 15 |
| Título | 173 | 12 |
| Turismo | 188 | 1 |
| Zoologia | 2985 | 15 |
Corpus ECI-EBR, versão texto de Abril de 2002, analisado em Novembro de 2009, criado a 8 de Janeiro de 2010, v. 8.1
Agradecemos aos compiladores do corpus por o terem criado e tornado público.
A partir da versão 2.0, introduzimos a anotação marca para sinalizar (conjuntos de) asteriscos que indicam notas de rodapé.
Marcadores estruturais: s, p, ext e marca.
| Corpo ECI-EBR | Número de formas | Número de tipos |
| Unidades | 917124 | 60394 |
| Total de palavras | 724008 | 60201 |
| Palavras em minúscula | 569019 | 42161 |
| Palavras com inicial maiúscula | 73428 | 12233 |
| Palavras todas em maiúsculas | 192 | 46 |
| Números | 1996 | 459 |
| Palavras com números | 53 | 40 |
| Palavras mistas | 181 | 123 |
| Pontuação | 48083 | 193 |
| Atributo | Número |
| ext | 1107 |
| p | 12116 |
| s | 43543 |
| marca | 3 |
| mwe | 14911 |
| Número de entidades | Número de unidades | |
| Nomes próprios | 19405 | 32985 |
| Locuções | 14911 | 31806 |
| Palavras gráficas | 724008 | 724008 |
| Palavras simples | 659217 | 659217 |
| Palavras | 693533 | 724008 |
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
|---|---|---|---|
| Substantivos | N|N[^U].* | 149934 | 22,74% |
| Verbos | V.* | 114540 | 17,38% |
| Adjectivos | ADJ.* | 45414 | 6,89% |
| Pronomes pessoais | .*PERS.* | 25029 | 3,80% |
| Preposições | PRP.* | 108577 | 16,47% |
| Conjunções | K.* | 35139 | 5,33% |
| Advérbios | ADV.* | 46924 | 7,12% |
| Determinantes | .*DET.* | 125957 | 19,11% |
| Especificadores | .*SPEC.* | 13550 | 2,06% |
| Numerais | NUM.* | 9116 | 1,38% |
Pode também consultar a informação da ELSNET.
Corpus ECI-EE, versão de Abril de 2002, anotado em Agosto de 2008, criado a 1 de Dezembro de 2009, v. 5.2
Agradecemos aos compiladores do corpus por o terem criado e tornado publico.
Marcadores estruturais: s, p, titulo, nota, marca.
Alterámos a posição das notas de rodapé, do meio do parágrafo para imediatamente a seguir ao parágrafo onde lhes era feita referência, mas mantivemos a informação dessa mesma posição no atributo marca, com o número igual ao número da nota correspondente.
<marca num=3> <nota num=3>
| Corpo ECI-EE | Número de formas | Número de tipos |
| Unidades | 32034 | 4254 |
| Total de palavras | 27140 | 4096 |
| Palavras em minúscula | 21744 | 3332 |
| Palavras com inicial maiúscula | 1786 | 391 |
| Palavras todas em maiúsculas | 195 | 41 |
| Números | 463 | 104 |
| Palavras com números | 2 | 2 |
| Palavras mistas | 112 | 5 |
| Pontuação | 1125 | 155 |
| Atributo | Número |
| p | 340 |
| s | 839 |
| t | 0 |
| nota | 27 |
| marca | 27 |
| mwe | 607 |
| Número de entidades | Número de unidades | |
| Nomes próprios | 641 | 1008 |
| Locuções | 607 | 1318 |
| Palavras gráficas | 27140 | 27140 |
| Palavras simples | 24814 | 24814 |
| Palavras | 26062 | 27140 |
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
|---|---|---|---|
| Substantivos | N|N[^U].* | 6938 | 27,96% |
| Verbos | V.* | 2908 | 11,72% |
| Adjectivos | ADJ.* | 2437 | 9,82% |
| Pronomes pessoais | .*PERS.* | 411 | 1,66% |
| Preposições | PRP.* | 5300 | 21,36% |
| Conjunções | K.* | 1322 | 5,33% |
| Advérbios | ADV.* | 947 | 3,82% |
| Determinantes | .*DET.* | 4971 | 20,03% |
| Especificadores | .*SPEC.* | 280 | 1,13% |
| Numerais | NUM.* | 706 | 2,85% |
| Código | Autor | Obra | Editora | Ano | Tradutor(a) | Título original |
|---|---|---|---|---|---|---|
| JB1PP | Julian Barnes | Amor & C.a | Quetzal Editores, Lisboa | 1994 | Helena Cardoso | Talking It Over. |
| BC1 | Bruce Chatwin | Utz | Quetzal Editores, Lisboa | 1991 | José Luís Luna | Utz. |
| AH1 | Arthur Hailey | Remédio Amargo | Distribuidora Record, Rio de Janeiro | s/d | A.B.P. de Lemos. | Strong Medicine. |
| JH1 | Joseph Heller | Imaginem que | Difusão Cultural, Lisboa | 1991 | Cristina Rodriguez. | Picture This. |
| NG1 | Nadine Gordimer | A história do meu filho | Editora Siciliano, São Paulo | 1992 | Geraldo Galvão Ferraz | My Son's Story. |
O corpus ENPCPORT (do qual o ENPCPUB é a parte para cuja disponibilização obtivemos autorização) encontrava-se codificado em SGML, apenas com ligeiras alterações em relação à codificação sugerida pelo TEI (Text Encoding Initiative).
Cada obra (extracto) encontrava-se em ficheiro separado, com frases e parágrafos identificados e numerados, e anotada a sua
correspondência com o texto original (alinhamento).
Não mantivemos a informação de formatação (por exemplo itálico), de revisão
(correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das
obras não estarem divididas em partes, juntámos uma divisão "parte única".
Corpus ENPCPUB, versão de 31 de Dezembro de 2001, anotado em Outubro de 2010, criado a 16 de Outubro de 2010, v. 6.5
Estamos gratos a Stig Johansson e à equipa do ENPC pela colaboração na criação deste corpus, e aos detentores dos direitos de autor pela autorizações gentilmente cedidas.
Utilizámos como marcadores estruturais texto, parte, capitulo, p e
s.
Não mantivemos a informação de formatação (por exemplo itálico), de revisão
(correcção do revisor) e retirámos as notas (por serem poucas, e todas notas de tradutor e não de autor). No caso das
obras não estarem divididas em partes, juntámos uma divisão "parte única".
O corpus inclui os atributos estruturais obra e variante (com os valores PT ou BR).
| Corpo ENPCPUB | Número de formas | Número de tipos |
| Unidades | 92688 | 12894 |
| Total de palavras | 72375 | 12875 |
| Palavras em minúscula | 57622 | 10251 |
| Palavras com inicial maiúscula | 7077 | 1689 |
| Palavras todas em maiúsculas | 41 | 19 |
| Números | 137 | 78 |
| Palavras com números | 1 | 1 |
| Palavras mistas | 16 | 13 |
| Pontuação | 4951 | 19 |
| Atributo | Número |
| p | 1682 |
| s | 4369 |
| texto | 5 |
| parte | 8 |
| capitulo | 25 |
| mwe | 1609 |
| Número de entidades | Número de unidades | |
| Nomes próprios | 2542 | 3305 |
| Locuções | 1609 | 3486 |
| Palavras gráficas | 72376 | 72376 |
| Palavras simples | 65585 | 65585 |
| Palavras | 69736 | 72376 |
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
|---|---|---|---|
| Substantivos | N|N[^U].* | 13279 | 20,25% |
| Verbos | V.* | 12769 | 19,47% |
| Adjectivos | ADJ.* | 3869 | 5,90% |
| Pronomes pessoais | .*PERS.* | 3103 | 4,73% |
| Preposições | PRP.* | 10801 | 16,47% |
| Conjunções | K.* | 3962 | 6,04% |
| Advérbios | ADV.* | 5373 | 8,19% |
| Determinantes | .*DET.* | 12178 | 18,57% |
| Especificadores | .*SPEC.* | 1547 | 2,36% |
| Numerais | NUM.* | 773 | 1,18% |
Corpus Floresta, a partir do material da Floresta de Junho de 2010, anotado semanticamente em Junho de 2010, criado a 11 de Julho de 2010, versão 1.1
| Corpo FLORESTA | Número de formas | Número de tipos |
| Unidades | 7252252 | 182563 |
| Total de palavras | 5950072 | 179491 |
| Palavras em minúscula | 4532101 | 88974 |
| Palavras com inicial maiúscula | 738059 | 58256 |
| Palavras todas em maiúsculas | 27982 | 3961 |
| Números | 50425 | 1609 |
| Palavras com números | 3761 | 935 |
| Palavras mistas | 5737 | 2187 |
| Pontuação | 419904 | 3071 |
| Atributo | Número |
| ext | 24391 |
| s | 326796 |
| mwe | 101900 |
| Número de entidades | Número de unidades | |
| Nomes próprios | 284146 | 21156 |
| Locuções | 101900 | 214165 |
| Palavras gráficas | 5950072 | 5950072 |
| Palavras simples | 5714751 | 5714751 |
| Palavras | 6100797 | 5950072 |
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
|---|---|---|---|
| Substantivos | N|N[^U].* | 1239225 | 21,68% |
| Verbos | V.* | 847296 | 14,83% |
| Adjectivos | ADJ.* | 350577 | 6,13% |
| Pronomes pessoais | .*PERS.* | 117363 | 2,05% |
| Preposições | PRP.* | 948213 | 16,59% |
| Conjunções | K.* | 272996 | 4,78% |
| Advérbios | ADV.* | 323501 | 5,66% |
| Determinantes | .*DET.* | 1007367 | 17,63% |
| Especificadores | .*SPEC.* | 107025 | 1,87% |
| Numerais | NUM.* | 99146 | 1,73% |
O corpus foi criado em 1999 pelo nosso projecto no SINTEF, de forma a obter um sósia do corpus FrasesPP. Tendo como única compiladora Signe Oksefjell, a recolha de frases foi feita exclusivamente na rede (WWW).
Corpus FrasesPB, versão texto de 17 de Abril de 2002, anotado em Maio de 2002, criado a 30 de Novembro de 2009, v. 4.1
Marcadores estruturais: s, p.
| Corpo FRASESPB | Número de formas | Número de tipos |
| Unidades | 23313 | 6018 |
| Total de palavras | 19162 | 6008 |
| Palavras em minúscula | 16422 | 5265 |
| Palavras com inicial maiúscula | 1051 | 526 |
| Palavras todas em maiúsculas | 14 | 14 |
| Números | 49 | 35 |
| Palavras com números | ||
| Palavras mistas | 5 | 5 |
| Pontuação | 705 | 10 |
| Atributo | Número |
| p | 648 |
| s | 653 |
| mwe | 422 |
| Número de entidades | Número de unidades | |
| Nomes próprios | 250 | 409 |
| Locuções | 422 | 904 |
| Palavras gráficas | 19162 | 19162 |
| Palavras simples | 17849 | 17849 |
| Palavras | 18521 | 19162 |
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
|---|---|---|---|
| Substantivos | N|N[^U].* | 4623 | 25,90% |
| Verbos | V.* | 2895 | 16,22% |
| Adjectivos | ADJ.* | 1434 | 8,03% |
| Pronomes pessoais | .*PERS.* | 356 | 1,99% |
| Preposições | PRP.* | 3269 | 18,31% |
| Conjunções | K.* | 1011 | 5,66% |
| Advérbios | ADV.* | 1054 | 5,91% |
| Determinantes | .*DET.* | 3639 | 20,39% |
| Especificadores | .*SPEC.* | 343 | 1,92% |
| Numerais | NUM.* | 166 | 0,93% |
Corpus FrasesPP, anotado a 22 de Maio de 2007, criado a 14 de Maio de 2010, versão 6.2
Marcadores estruturais: s, p.
Os valores da anotação original encontram-se no atributo posicional pos2. Os valores deste atributo (A, N, V, VPP, PF, PONT e CL) foram atribuídos automaticamente e depois revistos manualmente nos casos em que as palavras obtiveram mais do que uma categoria.
| Corpo FRASESPP | Número de formas | Número de tipos |
| Unidades | 20048 | 5099 |
| Total de palavras | 16232 | 5085 |
| Palavras em minúscula | 13501 | 4243 |
| Palavras com inicial maiúscula | 1088 | 569 |
| Palavras todas em maiúsculas | 9 | 6 |
| Números | 97 | 50 |
| Palavras com números | 2 | 2 |
| Palavras mistas | ||
| Pontuação | 738 | 14 |
| Atributo | Número |
| p | 594 |
| s | 594 |
| mwe | 351 |
| Número de entidades | Número de unidades | |
| Nomes próprios | 262 | 431 |
| Locuções | 351 | 759 |
| Palavras gráficas | 16233 | 16233 |
| Palavras simples | 15043 | 15043 |
| Palavras | 15656 | 16233 |
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
|---|---|---|---|
| Substantivos | N|N[^U].* | 3699 | 24,59% |
| Verbos | V.* | 2281 | 15,16% |
| Adjectivos | ADJ.* | 1298 | 8,63% |
| Pronomes pessoais | .*PERS.* | 410 | 2,73% |
| Preposições | PRP.* | 2796 | 18,59% |
| Conjunções | K.* | 819 | 5,44% |
| Advérbios | ADV.* | 967 | 6,43% |
| Determinantes | .*DET.* | 3115 | 20,71% |
| Especificadores | .*SPEC.* | 311 | 2,07% |
| Numerais | NUM.* | 205 | 1,36% |
Corpus Museu da Pessoa, versão do texto português de Abril de 2005, versão do texto brasileiro de Dezembro de 2008, anotado 9 de Fevereiro de 2009, criado a 25 de Outubro de 2010, versão 3.5
Agradecemos ao Núcleo Português do Museu da Pessoa a disponibilização dos textos.
| Corpo MUSEUDAPESSOA | Número de formas | Número de tipos |
| Unidades | 517740 | 21542 |
| Total de palavras | 375149 | 21497 |
| Palavras em minúscula | 298001 | 15331 |
| Palavras com inicial maiúscula | 39265 | 3464 |
| Palavras todas em maiúsculas | 104 | 53 |
| Números | 2377 | 240 |
| Palavras com números | 88 | 50 |
| Palavras mistas | 114 | 95 |
| Pontuação | 28623 | 45 |
| Atributo | Número |
| mwe | 7337 |
| p | 11790 |
| s | 27284 |
| entrevista | 115 |
| pergunta | 5067 |
| resposta | 5340 |
| legenda | 43 |
| introd | 3 |
| Número de entidades | Número de unidades | |
| Nomes próprios | 7124 | 11856 |
| Locuções | 7337 | 15720 |
| Palavras gráficas | 375149 | 375149 |
| Palavras simples | 347573 | 347573 |
| Palavras | 362034 | 375149 |
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
|---|---|---|---|
| Substantivos | N|N[^U].* | 66140 | 19,03% |
| Verbos | V.* | 72595 | 20,89% |
| Adjectivos | ADJ.* | 11781 | 3,39% |
| Pronomes pessoais | .*PERS.* | 17947 | 5,16% |
| Preposições | PRP.* | 47326 | 13,62% |
| Conjunções | K.* | 23142 | 6,66% |
| Advérbios | ADV.* | 37575 | 10,81% |
| Determinantes | .*DET.* | 62748 | 18,05% |
| Especificadores | .*SPEC.* | 9441 | 2,72% |
| Numerais | NUM.* | 5366 | 1,54% |
Segundo o projecto Natura, o corpus original é assim descrito:
Uma série de edições do Diário do Minho. Não aparecem neste corpus os textos de desporto e alguns de publicidade por dificuldades com os formatos. Todos os outros textos aparecem completos. Os artigos aqui apresentados contêm algumas gralhas (correspondem à versão antes da revisão de
provas).
Tentámos retirar artigos que continham apenas publicidade, resolução de palavras cruzadas ou de desafios de futebol, assim como evitar artigos repetidos.
Corpus Natura/Minho (de 9 de Março de 2001), versão texto criada em Abril de 2002, anotado em 14 de Maio de 2011, criado a 7 de Julho de 2011, v. 7.1
Estamos gratos à direcção do Diário do Minho pela gentil autorização de disponibilização dos tex
Marcadores estruturais: p, s, assinatura, legenda, subtitulo, titulo, art, marca e li.
| Corpo NATMINHO | Número de formas | Número de tipos |
| Unidades | 2156707 | 68966 |
| Total de palavras | 1748698 | 67460 |
| Palavras em minúscula | 1284811 | 38992 |
| Palavras com inicial maiúscula | 253835 | 17613 |
| Palavras todas em maiúsculas | 12551 | 1328 |
| Números | 22185 | 1268 |
| Palavras com números | 2747 | 354 |
| Palavras mistas | 1439 | 442 |
| Pontuação | 67966 | 1505 |
| Atributo | Número |
| p | 57123 |
| s | 69036 |
| assinatura | 539 |
| legenda | 782 |
| t | 7661 |
| art | 5117 |
| marca | 0 |
| mwe | 30422 |
| Número de entidades | Número de unidades | |
| Nomes próprios | 104234 | 220144 |
| Locuções | 30422 | 63832 |
| Palavras gráficas | 1748703 | 1748703 |
| Palavras simples | 1464727 | 1464727 |
| Palavras | 1599383 | 1748703 |
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
|---|---|---|---|
| Substantivos | N|N[^U].* | 374158 | 25,54% |
| Verbos | V.* | 207519 | 14,17% |
| Adjectivos | ADJ.* | 100303 | 6,85% |
| Pronomes pessoais | .*PERS.* | 19892 | 1,36% |
| Preposições | PRP.* | 313445 | 21,40% |
| Conjunções | K.* | 73461 | 5,02% |
| Advérbios | ADV.* | 72008 | 4,92% |
| Determinantes | .*DET.* | 315085 | 21,51% |
| Especificadores | .*SPEC.* | 22878 | 1,56% |
| Numerais | NUM.* | 42092 | 2,87% |
Encontrava-se em vários ficheiros em formato de texto, numa estrutura de directorias indicando a fonte.
Versão 2.0 do corpus sem Folha, incluindo o CETENFolha 1.0 (antes de baralhar) de 4 de Setembro de 2002 e o Folhazinha-2.1 de 27 de Abril de 2002; anotação sintáctica em Outubro de 2008, anotação semântica em Novembro de 2010, criado a 10 de Novembro de 2010, versão 9.3
Estamos gratos à Folha de São Paulo pela autorização gentilmente concedida para uso dos seus textos.
Estamos gratos ao Núcleo Interinstitucional de Lingüística Computacional, em especial a Graça Nunes, por nos ter disponibilizado o texto do corpus em formato electrónico, autorizado a sua disponibilização através do projecto AC/DC e negociado com a Folha de São Paulo a autorização anteriormente mencionada.
Marcadores estruturais: s, p,
texto,
t (anteriormente à versão 4.0, estava marcado como titulo),
subtitulo,
assinatura,
Para os textos da folha de São Paulo,
a (autor),
artigo,
caixa,
situacao,
li (elemento de lista).
As primeiras linhas de cada ficheiro foram classificadas como títulos (t). Como subtítulos foram identificadas linhas sem pontuação final todas em maiúsculas. No caso das cartas comerciais, também a assinatura da carta foi marcada separadamente.
Cada texto tem como identificação o nome do ficheiro de que provém, o que dá alguma indicação sobre o tipo de texto. Prevê-se para breve uma reorganização desses identificadores segundo os novos critérios em desenvolvimento pelos compiladores do corpus.
A nova versão foi criada após a detecção de alguns textos repetidos. Possíveis alterações em relação ao conteúdo dos textos que constituem o corpus são previsíveis.
O atributo classe, correspondendo ao tipo de texto, foi adicionado na versão 3.0. A sua distribuição, correspondendo à versão 9.0, é a seguinte:
| Tipo | Descrição | Tamanho |
| DI | texto didáctico | 425.692 |
| ENC | enciclopédia | 286.550 |
| ENS | ensaio | 2.169.726 |
| EP | texto epistolar | 3.332 |
| JO.* | jornalístico | 29.140.843 |
| JOCF | jornalístico só CETENFolha | 27.082.793 |
| JO | jornalístico sem CETENFolha | 2.058.050 |
| LE | texto legal | 1.117.747 |
| LI | literário | 921.011 |
| RE | revista | 152.366 |
O tamanho, na tabela anterior, é medido pelo número de unidades do corpus com a classificação indicada.
A partir da versão 5.0, a parte do Folha de São Paulo (correspondente ao CETENFolha, de texto de 1994, e a algumas edições de 1996) está dividida em extractos identificados pela secção, semestre, número de extracto, e número de parágrafo no CETENFolha, por exemplo: Cotidiano-94a-61755-2 .
A partir da versão 7.1, é possível seleccionar apenas o CETENFolha, no corpus SAOCARLOS, usando para isso a restrição [classe="JOCF"]. Dois exemplos (usando a restrição de forma diferente):
| Corpo SAOCARLOS | Número de formas | Número de tipos |
| Unidades | 42519799 | 417746 |
| Total de palavras | 32303761 | 396855 |
| Palavras em minúscula | 23191173 | 158345 |
| Palavras com inicial maiúscula | 4751063 | 129830 |
| Palavras todas em maiúsculas | 294552 | 9320 |
| Números | 528121 | 3378 |
| Palavras com números | 40761 | 4685 |
| Palavras mistas | 87324 | 5314 |
| Pontuação | 1875311 | 20823 |
| Atributo | Número |
| mwe | 496106 |
| p | 1119928 |
| s | 1943510 |
| texto | 341900 |
| subtitulo | 3767 |
| assinatura | 13 |
| artigo | 0 |
| caixa | 20418 |
| situacao | 5028 |
| t | 147869 |
| a | 79986 |
| li | 44802 |
| Número de entidades | Número de unidades | |
| Nomes próprios | 2043779 | 3497556 |
| Locuções | 496106 | 1049556 |
| Palavras gráficas | 32278876 | 32278876 |
| Palavras simples | 27731764 | 27731764 |
| Palavras | 30271649 | 32278876 |
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
|---|---|---|---|
| Substantivos | N|N[^U].* | 7068907 | 25,49% |
| Verbos | V.* | 4278343 | 15,43% |
| Adjectivos | ADJ.* | 1841809 | 6,64% |
| Pronomes pessoais | .*PERS.* | 466551 | 1,68% |
| Preposições | PRP.* | 5269892 | 19,00% |
| Conjunções | K.* | 1261018 | 4,55% |
| Advérbios | ADV.* | 1454528 | 5,24% |
| Determinantes | .*DET.* | 5500177 | 19,83% |
| Especificadores | .*SPEC.* | 405056 | 1,46% |
| Numerais | NUM.* | 920599 | 3,32% |
O corpo contém cerca de 300 milhões de palavras, distribuídas entre vários géneros e temas, correspondendo ao conteúdo de todos os corpos presentes no AC/DC.
No caso da sobreposição entre o corpo NILC/São Carlos e o CHAVE, e do corpo CETEMPúblico e o CHAVE, foi escolhido o material do CHAVE.
Corpo TODOS, versão texto de 18 de Setembro de 2011, criado a 23 de Janeiro de 2012, v. 1.2
Agradecemos aos compiladores de todos os corpos incluídos por os terem criado e (deixado) tornar públicos.
Os marcadores estruturais são: s, p, e, dependendo dos corpos envolvidos, também ext, texto, entrevista, TEXTO, etc.
| Corpo TODOS | Número de formas | Número de tipos |
| Unidades | 356264869 | 1481673 |
| Total de palavras | 281775323 | 1418677 |
| Palavras em minúscula | 210500972 | 441746 |
| Palavras com inicial maiúscula | 35825312 | 441013 |
| Palavras todas em maiúsculas | 1702003 | 36376 |
| Números | 2865833 | 13749 |
| Palavras com números | 333509 | 21987 |
| Palavras mistas | 296590 | 46740 |
| Pontuação | 18879309 | 61412 |
| Atributo | Número |
| TEXTO | 386 |
| AUTHOR | 0 |
| CATEGORY | 150107 |
| 0 | |
| art | 26762 |
| assinatura | 552 |
| assunto | 4872 |
| autor | 50523 |
| caixa | 315 |
| capitulo | 678 |
| cita | 81 |
| div | 1753 |
| entrevista | 115 |
| ext | 1092479 |
| fala | 23769 |
| introd | 3 |
| legenda | 825 |
| li | 136428 |
| marca | 10629 |
| mens | 4951 |
| mwe | 5248145 |
| nota | 276 |
| obra | 309 |
| p | 5526568 |
| parte | 8 |
| pergunta | 5067 |
| personagem | 24721 |
| resposta | 5340 |
| s | 12925612 |
| situacao | 561 |
| subtitulo | 3767 |
| t | 1134945 |
| texto | 6363 |
| titulo | 686 |
| tituloobra | 309 |
| u | 751742 |
| v | 251377 |
| a | 179626 |
| data | 208390 |
| indic | 2049 |
| Número de entidades | Número de unidades | |
| Nomes próprios | 15176959 | 26526551 |
| Locuções | 5248145 | 11067704 |
| Palavras gráficas | 281775323 | 281775323 |
| Palavras simples | 244181068 | 244181068 |
| Palavras | 264606172 | 281775323 |
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
|---|---|---|---|
| Substantivos | N|N[^U].* | 58682394 | 24,03% |
| Verbos | V.* | 36823912 | 15,08% |
| Adjectivos | ADJ.* | 17141848 | 7,02% |
| Pronomes pessoais | .*PERS.* | 4770122 | 1,95% |
| Preposições | PRP.* | 48153135 | 19,72% |
| Conjunções | K.* | 12189229 | 4,99% |
| Advérbios | ADV.* | 14665294 | 6,01% |
| Determinantes | .*DET.* | 50716622 | 20,77% |
| Especificadores | .*SPEC.* | 4428281 | 1,81% |
| Numerais | NUM.* | 6108600 | 2,50% |
Corpus Vercial, anotado em Junho de 2011, criado a 21 de Dezembro de 2011, v. 5.0
Agradecemos à equipa do projecto Vercial, especialmente a José Leon Machado, que gentilmente nos cederam os textos para este corpus.
Utilizámos como marcadores estruturais para todas as obras obra (que contém o nome da obra, o tipo de obra e o código do autor), tituloobra (o nome da obra), autor (o autor da obra), capitulo, u (uma unidade de texto: frase, verso, titulo ou indicação de cena, consoante o tipo de obra).
As 187 obras em prosa têm os marcadores estruturais adicionais p [parágrafo] e s [frase].
As 80 obras de poesia têm os seguintes marcadores estruturais adicionais: div [parte de um poema, assinalada graficamente por números romanos] e v [verso].
As 43 obras de teatro têm os seguintes marcadores estruturais adicionais: fala [juntando a fala de uma personagem] e s [frase].
Além disso, para todas as obras existem os atributos posicionais autor (valores e chave em lista de autores), obra (contendo o seu título), classe (que pode ser Poesia, Prosa ou Teatro), e data (que quando é desconhecida tem o valor "desc").
As obras presentes e respectivos autores são as seguintes:
| Corpo VERCIAL | Número de formas | Número de tipos |
| Unidades | 20595097 | 347292 |
| Total de palavras | 14710560 | 340978 |
| Palavras em minúscula | 11073481 | 180882 |
| Palavras com inicial maiúscula | 1660823 | 75533 |
| Palavras todas em maiúsculas | 24352 | 1642 |
| Números | 54366 | 2048 |
| Palavras com números | 373 | 322 |
| Palavras mistas | 29365 | 7452 |
| Pontuação | 1026331 | 2859 |
| Atributo | Número |
| p | 157225 |
| s | 948750 |
| v | 251377 |
| obra | 309 |
| capitulo | 653 |
| titulo | 0 |
| u | 759805 |
| fala | 23769 |
| autor | 309 |
| tituloobra | 309 |
| div | 1753 |
| mwe | 231769 |
| Número de entidades | Número de unidades | |
| Nomes próprios | 510817 | 772410 |
| Locuções | 231769 | 490229 |
| Palavras gráficas | 14313729 | 14313729 |
| Palavras simples | 13051090 | 13051090 |
| Palavras | 13793676 | 14313729 |
| Categoria gramatical | Expressão de procura | Número de palavras | Percentagem do corpo |
|---|---|---|---|
| Substantivos | N|N[^U].* | 2897532 | 22,20% |
| Verbos | V.* | 2279520 | 17,47% |
| Adjectivos | ADJ.* | 897834 | 6,88% |
| Pronomes pessoais | .*PERS.* | 671822 | 5,15% |
| Preposições | PRP.* | 2050555 | 15,71% |
| Conjunções | K.* | 807631 | 6,19% |
| Advérbios | ADV.* | 892486 | 6,84% |
| Determinantes | .*DET.* | 2552774 | 19,56% |
| Especificadores | .*SPEC.* | 304846 | 2,34% |
| Numerais | NUM.* | 148354 | 1,14% |
[ Acesso | Anotação | Atomização | Exemplos | Agradecimentos ]