El projecte Corpus és el projecte de recerca prioritari de l'IULA en què tots els membres participen. Recull textos escrits en cinc llengües diferents (català, castellà, anglès, francès i alemany) dins els dominis d'especialitat de l'economia, el dret, el medi ambient, la medicina, la informàtica i les ciències del llenguatge. A través de l'establiment del corpus, s'intenten inferir les lleis que regeixen el comportament de cada llengua en cada àrea.
 
Aquest corpus és el suport principal de les activitats de recerca i docència del nostre institut. Les recerques sobre el corpus inclouen: detecció de neologismes i termes, estudis sobre variació lingüística, anàlisi sintàctica parcial, alineació de textos, extracció de dades per a l'ensenyament de segones llengües, extracció de dades per a la construcció de diccionaris electrònics, elaboració de tesaurus, etc. 
 
En el marc del projecte METANET4U (2011-2013): (1) el processament del corpus es va adaptar a les noves directrius de l'estàndard LAF (Language resource management -- Linguistic annotation framework - ISO 24612:2012), format XML i anotació "stand-off", i (2) es va afegir el nivell d’anotació sintàctica a més de 42.000 frases en castellà del corpus. 
 
Documentació tècnica del projecte:
Les publicacions tècniques del corpus es van publicar als Papers de l'IULA. L'any 2006 es va publicar un working paper titulat 10 anys del Corpus de l'IULA disponible a l'e-repositori.
 
Investigadora principal del projecte: M. Teresa Cabré Castellví.
Coordinació tècnica: Jorge Vivaldi Palatresi.