Els textos són seleccionats per especialistes de cada àrea i agrupats sobre la base d'una classificació temàtica i d'utilització proposada pels mateixos especialistes (arbres de camp): Dret, Economia, Medi Ambient, Medicina, Informàtica i Ciències del llenguatge.

Posteriorment els textos són marcats d'acord amb l'estàndard SGML i seguint les directrius marcades pel "Corpus Encoding Standard (CES) de la iniciativa EAGLES.

El processament dels textos del corpus segueix els següents passos:
  • marcatge estructural (etiquetaris)
  • preprocés (detecció de dates, números, locucions, noms propis...)
  • anàlisi i marcatge morfològics d'acord amb els etiquetaris morfosintàctics dissenyats a l'IULA
  • desambiguació lingüística i/o estadística
  • anàlisi sintàctica: l'anàlisi i anotació sintàctica de més de 42.000 frases en castellà del corpus ha donat lloc al corpus IULA Spanish LSP Treebank