Metodología y procesos de trabajo
Los textos son seleccionados por especialistas de cada área y agrupados sobre la base de una clasificación temática y de uso propuesta por los propios especialistas: Derecho, Economía, Medio Ambiente, Medicina, Informática y Ciencias de lenguaje.
Posteriormente los textos son marcados de acuerdo con el estándar SGML y siguiendo las directrices marcadas por el "Corpus Encoding Standard (CES) de la iniciativa EAGLES.
El procesamiento de los textos del corpus sigue los siguientes pasos:
- marcaje estructural (etiquetarios)
- preproceso (detección de fechas, números, locuciones, nombres propios...)
- análisis y marcaje morfológicos de acuerdo con los etiquetarios morfosintácticos diseñados en el IULA
- desambiguación lingüística y/o estadística
- análisis sintáctico: el análisis y anotación sintáctica de más de 42.000 frases en español del corpus ha dado lugar al corpus IULA Spanish LSP Treebank