El corpus del catalán SenSem (acrónimo de Sentence Semantics) se inició en 2008 y continúa en el 2014. El corpus catalán se ha construido traduciendo el subcorpus periodístico del SenSem español y ha recibido financiación específica del gobierno español (Ministerio de Educación y Ciencia HUM2007-65267). La traducción se ha llevado a cabo con sistemas automáticos y se ha posteditado manualmente. Las oraciones están anotadas con información sintáctico-semántica. El resultado es que el corpus del catalán SenSem está formado por 700.000 palabras, de las cuales 391.267 están anotadas. Estas oraciones están asociadas a casi 1.300 verbos distintos que están etiquetados usando una propuesta lexicográfica propia. En el nivel sintagmático y oracional, aparecen identificados los participantes (distinguiendo entre argumentos y adjuntos) y está codificada la información sintáctico-semántica más relevante (roles semánticos, funciones sintácticas y categorías sintagmáticas). No se ha realizado la anotación de la estructura sintagmática interna de los constituyentes identificados. Cada oración está asociada también a un significado construccional y se indica también el mecanismo formal usado en cada caso, siguiendo el concepto de construcción de Goldberg 1995. Esta es una de las novedades de este corpus respecto a otros del mismo tipo. La inclusión de esta información construccional es clave para completar la descripción de los patrones de subcategorización con el fin de evitar las ambigüedades de estos. Se han codificación también la aspectualidad, la polaridad y la modalidad oracionales. Este tipo de información es muy útil en el campo del procesamiento del lenguaje natural (PLN). En primer lugar, el tipo aspectual de los verbos y de los sintagmas de la oración es útil para obtener la concatenación de eventos en el discurso, lo cual es de interés en el campo de las interfaces de pregunta-respuesta. De forma similar, la diferenciación entre eventos y estados es también muy útil, ya que, por ejemplo, en generación automática la adecuada selección de un ítem léxico en algunas lenguas depende de información aspectual. Por otro lado, la polaridad y la modalidad son dos elementos clave en la interpretación de la factualidad. En el campo del PLN la distinción entre eventos factivos y no factivos es crucial para poder identificar los hechos descritos en los textos que son reales de los que no lo son porque no han sucedido o no se sabe si han sucedido. La anotación se ha heredado del proyecto español en un 85%. Se han reanotado las oraciones que presentan cambios estructurales o funcionales respecto al español. Dichos cambios sólo afectan el nivel de complementos y no el de la semántica de la oración. Así, tanto la aspectualidad como la modalidad y la polaridad son necesariamente las mismas en ambas lenguas. Lo mismo ocurre con la semántica de la construcción. Un corpus de una lengua como el catalán, que no dispone de excesivos recursos, con información tan diversificada y que incluye semántica de tan alto nivel es de gran interés en general en otro campo del PLN muy activo en la actualidad: la adquisición de información para la creación de otros recursos, como gramáticas y analizadores de distintos tipos. Se pueden hacer búsquedas on-line a través de la web: http://grial.uab.es/sensem/corpus. En esta página se puede acceder a documentación más específica, como la definición de las etiquetas usadas y sus equivalencias en relación a otros proyectos. Se pueden consultar también las publicaciones relacionadas con el proyecto en: http://grial.uab.es/publicacions.php.