Corpus Tècnic de l'IULA

Accés

Interfície de consulta online: Bwananet

Descàrrega

Subcorpus paral·lel anglès-castellà en format stand-off (alineació a nivell de frase): e-repositori

Descripció

El Corpus Tècnic aplega textos escrits del dret, l'economia, la genòmica, la medicina, el medi ambient, més un corpus de contrast de premsa. Les llengües del corpus són català, castellà, anglès, francès i alemany.

Parts del Corpus Tècnic de l'IULA han estat reel·laborades ulteriorment en el marc del projecte Metanet4U. S'ha actualitzat el format de codificació d'acord amb els estàndards internacionals més recents i, en alguns casos, s'ha ampliat la informació lingüística incorporada. Aquests subcorpus es poden descarregar prèvia sol·licitud d'ús o directament des de l'e-repositori de la UPF.

IULA Spanish LSP Treebank

Accés

Interfície de consulta online: TreebankBrowser

Descàrrega

Textos del corpus en format CoNLL: e-repositori

Descripció

Anotació sintàctica de dependències sobre 42.000 frases seleccionades del Corpus Tècnic de l'IULA (castellà) elaborada en el marc del projecte Metanet4U

[+ informació (en anglès)]

Malt parser for Spanish

Accés  malt_parser web service
Descàrrega Descarrega el mòdul per al castellà del Malt parser espmalt-1.0.mco: e-repositori
Descripció

Instància del MaltParser entrenada per al castellà amb el corpus IULA Spanish LSP Treebank.

[+ informació (en anglès)]

Corpus PAAU92

Accés 

Interfície de consulta online: Bwananet

Suport digital del llibre "El Corpus PAAU 1992: estudios descriptivos, textos y vocabulario": Corpus92

Descàrrega 

Textos del corpus en format stand-offe-repositori

Descripció

El corpus PAAU92 està format per textos realitzats per estudiants el juny de 1992 durant les proves de accés a diverses  universitats espanyoles.

El corpus es pot consultar des del programa Bwananet o fent servir la interfície de consulta inclosa al llibre "El Corpus PAAU 1992: estudios descriptivos, textos y vocabulario" que inclou els textos analitzats i les llistes de vocabulari que constitueixen el corpus.

Aquest corpus també ha estat reel·laborat en el marc del projecte Metanet4U i es pot descarregar des de l'e-repositori de la UPF.

Corpus d'articles de la Wikipedia

Descàrrega 

Textos del corpus en format stand-off (Català): e-repositori

Textos del corpus en format stand-off (Castellà): e-repositori

Descripció

Aquest corpus conté articles de la Wikipedia en català i castellà. Aquest articles corresponen a una versió del WikiCorpus millorada en el marc del projecte Metanet4U. Els textos han estat depurats, processats lingüísticament i generats en format stand-off.

  • Corpus en català: 140.000 articles amb 35,6 M paraules
  • Corpus en castellà: 250.000 articles amb 92 M paraules

Penn treebank IULA

Descàrrega  Frases amb anotació de dependències en format CoNLL: e-repositori
Descripció

Subconjunt de 805 frases (en  anglès i castellà) del “Penn TreeBank corpus” anotades sintàcticament. Aquest corpus conté textos del Wall Street Journal compilats en orígen per la Universitat de Pennsylvania. La traducciÓ de les frases al castellà la van fer traductors humans.

RST Spanish Treebank

Accés  online
Descripció

Interfície de consulta i descàrrega en línia d’un corpus de textos especialitzats en castellà anotats amb relacions discursives de la Rhetorical Structure Theory (RST). El RST Spanish Treebank és el resultat d’un projecte internacional en col·laboració entre els grups de recerca: Iulaterm (IULA-UPF, Barcelona), Grupo de Ingeniería Lingüística (IINGEN-UNAM, México D.F.) i TALNE (LIA-UAPV, Avignon).

Eines de processament de corpus

Accés  demo online
Descripció Paquet d'eines de processament de corpus en català i castellà. Inclou un preprocessador i un desambiguador estadístic. També permet visualitzar la informació del diccionari del desambiguador.

PALIC

Accés  demo online
Descripció Paquet d'eines de processament de corpus en català i castellà. Inclou un preprocessador, un etiquetador morfosintàctic i un desambiguador de base lingüística.

Analitzador sintàctic en llengua castellana

Accés  demo online
Descripció Gramàtica HPSG per a la llengua castellana de codi obert implementada en el sistema LKB.

DiZer 2.0

Accés  demo online
Descripció

Interfície per al desenvolupament i utilització en línia d’analitzadors discursius en diferents llengües basats en la Rhetorical Structure Theory (RST). Actualment, integra un analitzador complet per al portuguès de Brasil i analitzadors beta per al castellà i l'anglès.  DiZer 2.0 és el resultat d’un projecte internacional en col·laboració entre els grups de recerca: Núcleo Interinstitucional de Lingüística Computacional (ICMC-USP, São Paulo), Iulaterm (IULA-UPF, Barcelona) i TALNE (LIA-UAPV, Avignon).

DiSeg

Accés  demo online
Descripció

Interfície per a la descàrrega i utilització en línia d’un segmentador discursiu per al castellà basat en la Rhetorical Structure Theory (RST). Inclou a més un corpus gold standard de textos especialitzats segmentats manualment.  DiSeg és el resultat d’un projecte internacional en col·laboració entre els grups de recerca: Iulaterm (IULA-UPF, Barcelona), TALNE (LIA-UAPV, Avignon) i GRIAL (UB, Barcelona).

Alinea

Accés  demo online
Descripció Eina de paral·lelització de textos traduïts, especialment dissenyada per a corpus especialitzats i com a validador de traduccions.