Metodología y procesos de trabajo

Los textos son seleccionados por especialistas de cada área y agrupados sobre la base de una clasificación temática y de uso propuesta por los propios especialistas: Derecho, Economía, Medio Ambiente, Medicina, Informática y Ciencias de lenguaje.

Posteriormente los textos son marcados de acuerdo con el estándar SGML y siguiendo las directrices marcadas por el "Corpus Encoding Standard (CES) de la iniciativa EAGLES.

El procesamiento de los textos del corpus sigue los siguientes pasos:

marcaje estructural (etiquetarios)
preproceso (detección de fechas, números, locuciones, nombres propios...)
análisis y marcaje morfológicos de acuerdo con los etiquetarios morfosintácticos diseñados en el IULA
desambiguación lingüística y/o estadística
análisis sintáctico: el análisis y anotación sintáctica de más de 42.000 frases en español del corpus ha dado lugar al corpus IULA Spanish LSP Treebank