Projecte Corpus IULA
El projecte Corpus és el projecte de recerca prioritari de l'IULA en què tots els membres participen. Recull textos escrits en cinc llengües diferents (català, castellà, anglès, francès i alemany) dins els dominis d'especialitat de l'economia, el dret, el medi ambient, la medicina, la informàtica i les ciències del llenguatge. A través de l'establiment del corpus, s'intenten inferir les lleis que regeixen el comportament de cada llengua en cada àrea.
Aquest corpus és el suport principal de les activitats de recerca i docència del nostre institut. Les recerques sobre el corpus inclouen: detecció de neologismes i termes, estudis sobre variació lingüística, anàlisi sintàctica parcial, alineació de textos, extracció de dades per a l'ensenyament de segones llengües, extracció de dades per a la construcció de diccionaris electrònics, elaboració de tesaurus, etc.
En el marc del projecte METANET4U (2011-2013): (1) el processament del corpus es va adaptar a les noves directrius de l'estàndard LAF (Language resource management -- Linguistic annotation framework - ISO 24612:2012), format XML i anotació "stand-off", i (2) es va afegir el nivell d’anotació sintàctica a més de 42.000 frases en castellà del corpus.
Documentació tècnica del projecte:
- Metodologia i procediment de treball (inclosos etiquetaris i classificació de textos)
- Eines
- Persones i entitats col·laboradores
Les publicacions tècniques del corpus es van publicar als Papers de l'IULA. L'any 2006 es va publicar un working paper titulat 10 anys del Corpus de l'IULA disponible a l'e-repositori.
Investigadora principal del projecte: M. Teresa Cabré Castellví.
Coordinació tècnica: Jorge Vivaldi Palatresi.