Los textos son seleccionados por especialistas de cada área y agrupados sobre la base de una clasificación temática y de uso propuesta por los propios especialistas: Derecho, Economía, Medio Ambiente, Medicina, Informática y Ciencias de lenguaje.

Posteriormente los textos son marcados de acuerdo con el estándar SGML y siguiendo las directrices marcadas por el "Corpus Encoding Standard (CES) de la iniciativa EAGLES. 

El procesamiento de los textos del corpus sigue los siguientes pasos: 

  • marcaje estructural (etiquetarios)
  • preproceso (detección de fechas, números, locuciones, nombres propios...) 
  • análisis y marcaje morfológicos de acuerdo con los etiquetarios morfosintácticos diseñados en el IULA
  • desambiguación lingüística y/o estadística
  • análisis sintáctico: el análisis y anotación sintáctica de más de 42.000 frases en español del corpus ha dado lugar al corpus IULA Spanish LSP Treebank