Proyecto Corpus IULA

El proyecto Corpus es el proyecto de investigación prioritario del IULA, en el que participan todos sus miembros. Recoge textos escritos en cinco lenguas diferentes (catalàn, castellano, inglés, francés y alemán) dentro de los dominios de especialidad de la economía, el derecho, el medio ambiente, la medicina, la informática y las ciencias del lenguaje. A través del establecimiento del corpus, se intentan inferir las leyes que rigen el comportamiento de cada lengua en todas estas áreas.

Este corpus es el apoyo principal de las actividades de investigación y docencia del instituto. La investigación sobre este corpus incluye: detección de neologismos y términos, estudios sobre variación lingüística, análisis sintáctico parcial, alineación de textos, extracción de datos para la enseñanza de segundas lenguas y para la construcción de diccionarios electrónicos, elaboración de tesaurus, etc.

En el marco del proyecto METANET4U (2011-2013): (1) el procesamiento del corpus se adaptó a las directrices del estándar LAF (Language resource management -- Linguistic annotation framework - ISO 24612:2012): formato XML y anotación "stand-off" y (2) se añadió el nivel de anotación sintàctica a más de 42.000 frases en castellano del corpus.

Documentación técnica del proyecto:

Metodología y procedimiento de trabajo (incluidos etiquetarios y clasificación de textos)
Herramientas
Personas y entidades colaboradoras

Las publicaciones técnicas del corpus se publicaron en los Papers de l'IULA. En 2006 se publicó un working paper titulado 10 anys del Corpus de l'IULA disponible en el e-repositori.

Investigadora principal del proyecto: M. Teresa Cabré Castellví.

Coordinación técnica: Jorge Vivaldi Palatresi.