CETEMPúblico:

versão 1.7, distribuída pelo Linguistic Data Consortium (LDC)

Projecto Processamento computacional do português

Última actualização: 6 de Agosto de 2001

O CETEMPúblico (Corpus de Extractos de Textos Electrónicos MCT/Público) é um corpus de aproximadamente 180 milhões de palavras em português europeu, criado pelo projecto Processamento computacional do português após a assinatura de um protocolo entre o Ministério da Ciência e da Tecnologia português (MCT) e o jornal PÚBLICO em Abril de 2000.

O CETEMPúblico, além de distribuído pelo LDC, é também disponibilizado pelas seguintes formas:

para consulta via rede (WWW), através do sítio do projecto (http://www.portugues.mct.pt/). Endereço actual: http://corpora.portugues.mct.pt/. Página de informações actualizada: http://www.linguateca.pt/cetempublico/informacoes.html.
num CD em formato texto (versão 1.0), enviado gratuitamente pelo correio a todos quantos se registarem na página anterior)
em dois CDs em formato CQP para uso com o sistema de processamento de corpora IMS-CWB (Corpus Workbench do Institut for Maschinelle Sprachverarbeitung da Universidade de Estugarda)

A presente distribuição inclui a versão 1.7 do CETEMPúblico, criada em Oslo a 6 de Agosto de 2001 de forma a ser compatível com uma codificacão SGML.

Apresenta-se em 196 ficheiros diferentes, chamados cetemXXX.gz, de cetem001.gz a cetem196.gz.

LPP - Lista de perguntas pertinentes

A quem se destina o CETEMPúblico?

Este corpus destina-se primariamente a todos quantos desenvolvem programas que processam a língua portuguesa, e que consequentemente precisam de matéria prima para o seu trabalho. As versões em formato texto distribuídas em CD destinam-se principalmente a este tipo de investigadores.

Por outro lado, espera-se que o corpus seja útil a todos os estudiosos da língua que queiram confirmar as suas hipóteses em material textual, previamente organizado. As versões CQP e acesso através da rede foram pensadas para este público alvo que, no entanto e se assim o desejar, também pode obter o CD para o manipular localmente, e eventualmente codificar o corpus no sistema de processamento de corpora da sua preferência.

O que é o PÚBLICO?

O PÚBLICO é um jornal diário português de grande circulação, fundado em 1991, e o primeiro jornal português a disponibilizar uma edição electrónica na rede (Publico.pt).

Quais são as restrições ao uso do CETEMPúblico?

Conforme também explicitado no ficheiro Condições de Utilização, o CETEMPúblico pode ser utilizado para fins de investigação e desenvolvimento tecnológico, apenas sendo vedada a sua comercialização.

Quais são as minhas obrigações como utilizador do CETEMPúblico?

O Público deverá ser sempre referido como fonte do material utilizado em todas as apresentações públicas de trabalhos que tenham recorrido a esta ferramenta incluindo, designadamente, artigos, teses, comunicações e conferências.

Deverá ser cedido gratuitamente ao Público qualquer produto que venha a ser comercializado na sequência da execução de projecto de investigação e desenvolvimento em que o CETEMPúblico seja utilizado.

Posso reconstituir as notícias?

A resposta breve é não. O protocolo assinado entre o MCT e o PÚBLICO obrigou-nos a retalhar os artigos em extractos de modo a ser impossível reconstituir os artigos originais. O corpus não pretende substituir os arquivos do jornal.

O CETEMPúblico inclui a totalidade do texto do PÚBLICO?

Não. Por um lado, faltam várias edições, e várias secções do jornal foram excluídas, por terem sido consideradas de pouco interesse para os objectivos do corpus. Essas secções incluem as citações de outros jornais ("Diz-se"), a secção "O PÚBLICO errou", e tabelas desportivos (classificações, rankings, e resultados). Por outro lado, o CETEMPúblico inclui inúmeros artigos que não foram publicados no jornal por falta de espaço ou oportunidade.

O CETEMPúblico contém exclusivamente texto em português europeu?

A esmagadora maioria do texto do CETEMPúblico está em português europeu, embora haja alguns textos de autores brasileiros e africanos.

Qual o conteúdo do CETEMPúblico?

O corpus inclui o texto de cerca de 2600 edições do PÚBLICO, entre os anos de 1991 e 1998, num total de aproximadamente 180 milhões de palavras.

O CETEMPúblico 1.7 está dividido em 1.504.258 extractos (a versão 1.0 continha 1.567.625), classificados por semestre e secção do jornal da qual provêm. Cada extracto está dividido em parágrafos e frases, e os títulos e os autores dos artigos estão assinalados. Veja aqui alguns exemplos de extractos.

Como foram contadas as palavras?

Considerámos palavras todas os tokens existentes no corpus que contenham pelo menos uma letra ou dígito. Os sinais de pontuação não foram incluídos.

Alguns números aproximados:

Tokens Tipos

Unidades 229.038.019 1.033.041

Palavras 191.687.833 999.059

Pontuação 13.065.151 33.982

"Pontuação" inclui os tokens com sinais de pontuação, tal como (1993), a) ou 17:53.

Estrutura Número

Extractos <ext> 1.504.258

Parágrafos <p> 2.571.735

Frases <s> 7.082.094

Títulos <t> 655.059

Autores <a> 247.392

Elementos de lista <li> 80.060

Qual a estrutura do corpus?

Fornecemos aqui uma pequena especificação em BNF, com terminais em carregado (negrito):

corpus = <corpus> extracto+ </corpus> extracto = id_extracto conteúdo_extracto </ext> contéudo_extracto = parágrafo+ parágrafo = título | identif_autor | <p> frase+ </p> | elemento_lista título = <t> token+ </t> identif_autor = <a> token+ </a> elemento_lista = <li> token+ </li> frase = ( <s> | <s tipo=frag> ) token+ </s> token = <marca num= X > | palavra | sinal_pontuação | identificador X = ( *+ ) | *+ id_extracto = <ext n=número sec=id_sec sem=semestre > número = [0-9]+ id_sec= soc | pol | clt | des | opi | eco | com | clt-soc | pol-soc | nd semestre = 91a | 91b | 92a | 92b | 93a | 93b | 94a | 94b | 95a | 95b | 96a | 96b |97a | 97b | 98a | 98b

Notas:

Na definição de X, tanto os parênteses como o asterisco são símbolos terminais.
número é único e varia entre 1 e 1567625.
palavra, sinal_pontuação e identificador assumem-se identificáveis por um analisador lexical do português.

Uma alternativa de definição da estrutura do corpus é dada pela seguinte DTD de SGML.

O CETEMPúblico vai ser anotado sintacticamente?

Estamos de momento a criar uma versão anotada do CETEMPúblico, a qual planeamos servir através da rede como os restantes corpora do projecto AC/DC.

Os caracteres utilizados reflectem exactamente o uso do jornal?

Em alguns casos, e por questões associadas a diferentes codificações de caracteres (o material original foi-nos cedido em formato Macintsosh, e nós usamos o padrão ISO-8859-1), utilizámos formas alternativas:

O travessão encontra-se no corpus como "--" (ou seja, dois hífenes seguidos).
Não distinguimos entre tipos de aspas, todas as aspas se encontram codificadas como « ou »
O caracter "oe ligature" é rendido pelas duas letras O e E em sequência
O caracter decimal 127 (hexadecimal 7F) foi substituído por um hífen.
As (raras) combinações >> e << foram transformadas no seu caracter equivalente, ou seja, em "»" e "«" respectivamente.
Os caracteres &, < e > foram traduzidos para a entidade SGML correspondente: &, < e >.

Onde posso obter mais informação sobre o CETEMPúblico?

Consulte os artigos, aqui disponíveis em formato electrónico:

Paulo Rocha & Diana Santos. "CETEMPúblico: Um corpus de grandes dimensões de linguagem jornalística portuguesa", in Maria das Graças Volpe Nunes (ed.), Actas do V Encontro para o processamento computacional da língua portuguesa escrita e falada (PROPOR'2000) (Atibaia, São Paulo, Brasil, 19 a 22 de Novembro de 2000), pp. 131-140: RTF, PostScript, PDF
Diana Santos & Paulo Rocha. "Evaluating CETEMPúblico, a free resource for Portuguese", in Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics (Toulouse, 9-11 July 2001), pp.442-449: RTF, PostScript, PDF
Diana Santos & Paulo Rocha. "Evaluating CETEMPúblico, a free resource for Portuguese", in Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics (Toulouse, 9-11 July 2001), pp.442-449: RTF, PostScript, PDF

Todo o material incluído no CETEMPúblico tem um formato válido?

Apesar de tal não ser o caso nas versões anteriores, podemos garantir que não existem secções de "lixo" na presente versão.

Conhecem-se outros problemas com o CETEMPúblico?

Existem alguns artigos (e consequentemente extractos) repetidos. Embora se tenha tentado, na versão 1.2, eliminar extractos duplicados (mantendo apenas o primeiro extracto), há casos de artigos ligeiramente diferentes, que presumimos sejam diferentes versões do mesmo artigo; aconselhamos a visualização do exemplo de extractos semelhantes.
Parágrafos identificados como títulos ou autores são sempre anexados ao parágafo anterior. Como os artigos originais foram divididos em grupos de dois parágafos, e alguns artigos incluem várias notícias (as 'Breves'), isto significa que alguns (sub)títulos foram separados da notícia a que se referem. Aconselhamos a visualização de um caso de separação incorrecta de título.

Veja-se o nosso artigo na ACL'2001 para a precisão e cobertura da atribuição da marcação estrutural no que respeita a títulos, autores e separação de frases.

Como posso manter-me actualizado/a em relação às modificações do CETEMPúblico?

À medida que formos tendo conhecimento de problemas com o corpus, tentaremos disponibilizar a partir da página Web do CETEMPúblico pequenos programas para os corrigir, assim como actualizar a versão acessível através da rede. Até agora (para os utilizadores da versão 1.0), já disponibilizámos 6 remendos (patches) em Perl, da forma patch_cetempublico_1.0.x.pl directamente acessível da página das informações.

Para se manter informado sobre novidades em relação a este corpus, pode inscrever-se na lista do CETEMPúblico enviando um mail para projecto@informatics.sintef.no.

Agradecimentos

Da parte do PÚBLICO, agradecemos a José Vítor Malheiros, responsável pela edição online, sem cuja inestimável ajuda o corpus não existiria, e a Paulo Almeida, pelo apoio técnico.
Estamos também gratos a Stefan Evert e a Arne Fitschen, da Universidade de Estugarda, pela ajuda com o IMS-CWB.
Agradecemos a Pedro Veiga o pontapé de saída deste projecto, assim como a reprodução e distribuição por parte da FCCN dos CDs, e a Miguel Andrade o apoio jurídico prestado.
Agradecemos vivamente também o apoio prestado pelo José João Dias de Almeida na remoção dos duplicados presente no patch 1.0.2 e posteriores.
Finalmente agradecemos a Andrew Cole, do LDC, o apoio à validação SGML da presente versão.

Contacte os compiladores do CETEMPúblico usando o endereço projecto@informatics.sintef.no

	Tokens	Tipos
Unidades	229.038.019	1.033.041
Palavras	191.687.833	999.059
Pontuação	13.065.151	33.982

Estrutura	Número
Extractos <ext>	1.504.258
Parágrafos <p>	2.571.735
Frases <s>	7.082.094
Títulos <t>	655.059
Autores <a>	247.392
Elementos de lista <li>	80.060