CETEMPúblico:

versão 1.7, distribuída pelo Linguistic Data Consortium (LDC)

Projecto Processamento computacional do português

Última actualização: 6 de Agosto de 2001


O CETEMPúblico (Corpus de Extractos de Textos Electrónicos MCT/Público) é um corpus de aproximadamente 180 milhões de palavras em português europeu, criado pelo projecto Processamento computacional do português após a assinatura de um protocolo entre o Ministério da Ciência e da Tecnologia português (MCT) e o jornal PÚBLICO em Abril de 2000.

O CETEMPúblico, além de distribuído pelo LDC, é também disponibilizado pelas seguintes formas:

  1. para consulta via rede (WWW), através do sítio do projecto (http://www.portugues.mct.pt/). Endereço actual: http://corpora.portugues.mct.pt/. Página de informações actualizada: http://www.linguateca.pt/cetempublico/informacoes.html.
  2. num CD em formato texto (versão 1.0), enviado gratuitamente pelo correio a todos quantos se registarem na página anterior)
  3. em dois CDs em formato CQP para uso com o sistema de processamento de corpora IMS-CWB (Corpus Workbench do Institut for Maschinelle Sprachverarbeitung da Universidade de Estugarda)
A presente distribuição inclui a versão 1.7 do CETEMPúblico, criada em Oslo a 6 de Agosto de 2001 de forma a ser compatível com uma codificacão SGML.

Apresenta-se em 196 ficheiros diferentes, chamados cetemXXX.gz, de cetem001.gz a cetem196.gz.


LPP - Lista de perguntas pertinentes

A quem se destina o CETEMPúblico?

Este corpus destina-se primariamente a todos quantos desenvolvem programas que processam a língua portuguesa, e que consequentemente precisam de matéria prima para o seu trabalho. As versões em formato texto distribuídas em CD destinam-se principalmente a este tipo de investigadores.

Por outro lado, espera-se que o corpus seja útil a todos os estudiosos da língua que queiram confirmar as suas hipóteses em material textual, previamente organizado. As versões CQP e acesso através da rede foram pensadas para este público alvo que, no entanto e se assim o desejar, também pode obter o CD para o manipular localmente, e eventualmente codificar o corpus no sistema de processamento de corpora da sua preferência.

O que é o PÚBLICO?

O PÚBLICO é um jornal diário português de grande circulação, fundado em 1991, e o primeiro jornal português a disponibilizar uma edição electrónica na rede (Publico.pt).

Quais são as restrições ao uso do CETEMPúblico?

Conforme também explicitado no ficheiro Condições de Utilização, o CETEMPúblico pode ser utilizado para fins de investigação e desenvolvimento tecnológico, apenas sendo vedada a sua comercialização.

Quais são as minhas obrigações como utilizador do CETEMPúblico?

O Público deverá ser sempre referido como fonte do material utilizado em todas as apresentações públicas de trabalhos que tenham recorrido a esta ferramenta incluindo, designadamente, artigos, teses, comunicações e conferências.

Deverá ser cedido gratuitamente ao Público qualquer produto que venha a ser comercializado na sequência da execução de projecto de investigação e desenvolvimento em que o CETEMPúblico seja utilizado.

Posso reconstituir as notícias?

A resposta breve é não. O protocolo assinado entre o MCT e o PÚBLICO obrigou-nos a retalhar os artigos em extractos de modo a ser impossível reconstituir os artigos originais. O corpus não pretende substituir os arquivos do jornal.

O CETEMPúblico inclui a totalidade do texto do PÚBLICO?

Não. Por um lado, faltam várias edições, e várias secções do jornal foram excluídas, por terem sido consideradas de pouco interesse para os objectivos do corpus. Essas secções incluem as citações de outros jornais ("Diz-se"), a secção "O PÚBLICO errou", e tabelas desportivos (classificações, rankings, e resultados). Por outro lado, o CETEMPúblico inclui inúmeros artigos que não foram publicados no jornal por falta de espaço ou oportunidade.

O CETEMPúblico contém exclusivamente texto em português europeu?

A esmagadora maioria do texto do CETEMPúblico está em português europeu, embora haja alguns textos de autores brasileiros e africanos.

Qual o conteúdo do CETEMPúblico?

O corpus inclui o texto de cerca de 2600 edições do PÚBLICO, entre os anos de 1991 e 1998, num total de aproximadamente 180 milhões de palavras.

O CETEMPúblico 1.7 está dividido em 1.504.258 extractos (a versão 1.0 continha 1.567.625), classificados por semestre e secção do jornal da qual provêm. Cada extracto está dividido em parágrafos e frases, e os títulos e os autores dos artigos estão assinalados. Veja aqui alguns exemplos de extractos.

Como foram contadas as palavras?

Considerámos palavras todas os tokens existentes no corpus que contenham pelo menos uma letra ou dígito. Os sinais de pontuação não foram incluídos.

Alguns números aproximados:

Tokens Tipos
Unidades 229.038.019 1.033.041
Palavras 191.687.833 999.059
Pontuação13.065.151 33.982

"Pontuação" inclui os tokens com sinais de pontuação, tal como (1993), a) ou 17:53.

EstruturaNúmero
Extractos <ext> 1.504.258
Parágrafos <p> 2.571.735
Frases <s> 7.082.094
Títulos <t>655.059
Autores <a>247.392
Elementos de lista <li> 80.060

Qual a estrutura do corpus?

Fornecemos aqui uma pequena especificação em BNF, com terminais em carregado (negrito):

corpus = <corpus> extracto+ </corpus>
extracto = id_extracto conteúdo_extracto </ext>
contéudo_extracto = parágrafo+
parágrafo = título | identif_autor | <p> frase+ </p> | elemento_lista
título = <t> token+ </t>
identif_autor = <a> token+ </a>
elemento_lista = <li> token+ </li>
frase = ( <s> | <s tipo=frag> ) token+ </s>
token = <marca num= X > | palavra | sinal_pontuação | identificador
X = ( *+ ) | *+
id_extracto = <ext n=número sec=id_sec sem=semestre >
número = [0-9]+
id_sec= soc | pol | clt | des | opi | eco | com | clt-soc | pol-soc | nd
semestre = 91a | 91b | 92a | 92b | 93a | 93b | 94a | 94b | 95a | 95b | 96a | 96b |97a | 97b | 98a | 98b

Notas:

Uma alternativa de definição da estrutura do corpus é dada pela seguinte DTD de SGML.

O CETEMPúblico vai ser anotado sintacticamente?

Estamos de momento a criar uma versão anotada do CETEMPúblico, a qual planeamos servir através da rede como os restantes corpora do projecto AC/DC.

Os caracteres utilizados reflectem exactamente o uso do jornal?

Em alguns casos, e por questões associadas a diferentes codificações de caracteres (o material original foi-nos cedido em formato Macintsosh, e nós usamos o padrão ISO-8859-1), utilizámos formas alternativas:

Onde posso obter mais informação sobre o CETEMPúblico?

Consulte os artigos, aqui disponíveis em formato electrónico:

Todo o material incluído no CETEMPúblico tem um formato válido?

Apesar de tal não ser o caso nas versões anteriores, podemos garantir que não existem secções de "lixo" na presente versão.

Conhecem-se outros problemas com o CETEMPúblico?

Veja-se o nosso artigo na ACL'2001 para a precisão e cobertura da atribuição da marcação estrutural no que respeita a títulos, autores e separação de frases.

Como posso manter-me actualizado/a em relação às modificações do CETEMPúblico?

À medida que formos tendo conhecimento de problemas com o corpus, tentaremos disponibilizar a partir da página Web do CETEMPúblico pequenos programas para os corrigir, assim como actualizar a versão acessível através da rede. Até agora (para os utilizadores da versão 1.0), já disponibilizámos 6 remendos (patches) em Perl, da forma patch_cetempublico_1.0.x.pl directamente acessível da página das informações.

Para se manter informado sobre novidades em relação a este corpus, pode inscrever-se na lista do CETEMPúblico enviando um mail para projecto@informatics.sintef.no.


Agradecimentos


Contacte os compiladores do CETEMPúblico usando o endereço projecto@informatics.sintef.no