El corpus del español SenSem (acrónimo de Sentence Semantics) se inició en 2004 y continúa en el 2014. Ha recibido la financiación del gobierno español a través del desarrollo de 4 proyectos. 

En la versión 1.0 dicho corpus incluye textos del ámbito periodístico (1ª fase) y literario (2ª fase) y consta de 30.274 oraciones (25.075 de registro periodístico y 5.299 de registro literario). Estas oraciones están asociadas a casi un millar de verbos distintos, que están etiquetados usando una propuesta lexicográfica propia. Dichos sentidos, a su vez, se corresponden con los 250 lemas verbales más frecuentes en español. La frecuencia se extrajo a partir de un análisis cuantitativo de un corpus periodístico de unos 13 millones de palabras.

Las oraciones se han anotado con información sintáctico-semántica. El resultado es un corpus de casi un millón de palabras, de las cuales aproximadamente el 50% están anotadas.

Los textos periodísticos han sido extraídos mayormente de El Periódico de Catalunya, que nos cedió su uso para la investigación en el momento de la creación del recurso. Además, también contiene un porcentaje reducido de frases extraídas de La Vanguardia. En cuanto a las oraciones pertenecientes al registro literario, la mayoría han sido extraídas de pequeños fragmentos de novelas disponibles en internet. Dichas novelas son contemporáneas (siglos XX y XXI) y de autores peninsulares. Al final del documento se adjunta el listado de las obras usadas. Esporádicamente se han extraído algunas oraciones del subcorpus literario CREA de la Real Academia Española.

En el nivel sintagmático y oracional, se han identificado los participantes (distinguiendo entre argumentos y adjuntos). No se ha realizado la anotación de la estructura sintagmática interna de los constituyentes identificados. Sí se ha codificado la información sintáctico-semántica prototípica de los patrones de subcategorización: roles semánticos, funciones sintácticas y categorías sintagmáticas. 

Cada oración ha sido asociada también a un significado construccional y se ha indicado también el mecanismo formal usado en cada caso, siguiendo el concepto de construcción de Goldberg 1995. Esta es una de las novedades de este corpus respecto a otros del mismo tipo. La inclusión de esta información construccional es clave para completar la descripción de los patrones de subcategorización con el fin de evitar las ambigüedades de estos.

Se han codificación también la aspectualidad, la polaridad y la modalidad oracionales. Este tipo de información es muy útil en el campo del procesamiento del lenguaje natural (PLN). En primer lugar, el tipo aspectual de los verbos y de los sintagmas de la oración es útil para obtener la concatenación de eventos en el discurso, lo cual es de interés en el campo de las interfaces de pregunta-respuesta. De forma similar, la diferenciación entre eventos y estados es también muy útil, ya que, por ejemplo, en generación automática la adecuada selección de un ítem léxico en algunas lenguas depende de información aspectual. Por otro lado, la polaridad y la modalidad son dos elementos clave en la interpretación de la factualidad. En el campo del PLN la distinción entre eventos factivos y no factivos es crucial para poder identificar los hechos descritos en los textos que son reales de los que no lo son porque no han sucedido o no se sabe si han sucedido.

Un corpus con información tan diversificada y que incluye semántica de tan alto nivel es de gran interés en general en otro campo del PLN muy activo en la actualidad: la adquisición de información para la creación de otros recursos, como gramáticas y analizadores de distintos tipos.

Se pueden hacer búsquedas on-line en el corpus a través de la web: http://grial.uab.es/sensem/corpus. En esta página se puede acceder a documentación más específica, como la definición de las etiquetas usadas y sus equivalencias en relación a otros proyectos. Se pueden consultar también las publicaciones relacionadas con el proyecto en: http://grial.uab.es/publicacions.php. 

Apéndice: obras literarias

AÑO	AUTOR	TÍTULO	PALABRAS
1902	Vicente Blasco Ibáñez	Cañas y barro	74.990
1914	Miguel de Unamuno	Niebla	54.000
1940	Ortega y Gasset	Creer y pensar	5.000
1977	Alonso Zamora	Sin levantar cabeza	3.315
1995	Enrique Cerdán	Los ahorcados del cuarto menguante	13.456
1996	Arturo Pérez-Reverte	Capitán Alatriste	5.000
2000	Rafael López Rivera	El don	39.000