Eines
Corpus Tècnic de l'IULA
Accés |
Interfície de consulta online: Bwananet |
Subcorpus paral·lel anglès-castellà en format stand-off (alineació a nivell de frase): e-repositori |
|
Descripció |
El Corpus Tècnic aplega textos escrits del dret, l'economia, la genòmica, la medicina, el medi ambient, més un corpus de contrast de premsa. Les llengües del corpus són català, castellà, anglès, francès i alemany. Parts del Corpus Tècnic de l'IULA han estat reel·laborades ulteriorment en el marc del projecte Metanet4U. S'ha actualitzat el format de codificació d'acord amb els estàndards internacionals més recents i, en alguns casos, s'ha ampliat la informació lingüística incorporada. Aquests subcorpus es poden descarregar prèvia sol·licitud d'ús o directament des de l'e-repositori de la UPF. |
IULA Spanish LSP Treebank
Accés |
Interfície de consulta online: TreebankBrowser |
Descàrrega |
Textos del corpus en format CoNLL: e-repositori |
Descripció |
Anotació sintàctica de dependències sobre 42.000 frases seleccionades del Corpus Tècnic de l'IULA (castellà) elaborada en el marc del projecte Metanet4U |
Malt parser for Spanish
Accés | malt_parser web service |
Descàrrega | Descarrega el mòdul per al castellà del Malt parser espmalt-1.0.mco: e-repositori |
Descripció |
Instància del MaltParser entrenada per al castellà amb el corpus IULA Spanish LSP Treebank. |
Corpus PAAU92
Accés |
Interfície de consulta online: Bwananet Suport digital del llibre "El Corpus PAAU 1992: estudios descriptivos, textos y vocabulario": Corpus92 |
Descàrrega |
Textos del corpus en format stand-off: e-repositori |
Descripció |
El corpus PAAU92 està format per textos realitzats per estudiants el juny de 1992 durant les proves de accés a diverses universitats espanyoles. El corpus es pot consultar des del programa Bwananet o fent servir la interfície de consulta inclosa al llibre "El Corpus PAAU 1992: estudios descriptivos, textos y vocabulario" que inclou els textos analitzats i les llistes de vocabulari que constitueixen el corpus. Aquest corpus també ha estat reel·laborat en el marc del projecte Metanet4U i es pot descarregar des de l'e-repositori de la UPF. |
Corpus d'articles de la Wikipedia
Descàrrega |
Textos del corpus en format stand-off (Català): e-repositori Textos del corpus en format stand-off (Castellà): e-repositori |
Descripció |
Aquest corpus conté articles de la Wikipedia en català i castellà. Aquest articles corresponen a una versió del WikiCorpus millorada en el marc del projecte Metanet4U. Els textos han estat depurats, processats lingüísticament i generats en format stand-off.
|
Penn treebank IULA
Descàrrega | Frases amb anotació de dependències en format CoNLL: e-repositori |
Descripció |
Subconjunt de 805 frases (en anglès i castellà) del “Penn TreeBank corpus” anotades sintàcticament. Aquest corpus conté textos del Wall Street Journal compilats en orígen per la Universitat de Pennsylvania. La traducciÓ de les frases al castellà la van fer traductors humans. |
RST Spanish Treebank
Accés | online |
Descripció |
Interfície de consulta i descàrrega en línia d’un corpus de textos especialitzats en castellà anotats amb relacions discursives de la Rhetorical Structure Theory (RST). El RST Spanish Treebank és el resultat d’un projecte internacional en col·laboració entre els grups de recerca: Iulaterm (IULA-UPF, Barcelona), Grupo de Ingeniería Lingüística (IINGEN-UNAM, México D.F.) i TALNE (LIA-UAPV, Avignon). |
Eines de processament de corpus
Accés | demo online |
Descripció | Paquet d'eines de processament de corpus en català i castellà. Inclou un preprocessador i un desambiguador estadístic. També permet visualitzar la informació del diccionari del desambiguador. |
PALIC
Accés | demo online |
Descripció | Paquet d'eines de processament de corpus en català i castellà. Inclou un preprocessador, un etiquetador morfosintàctic i un desambiguador de base lingüística. |
Analitzador sintàctic en llengua castellana
Accés | demo online |
Descripció | Gramàtica HPSG per a la llengua castellana de codi obert implementada en el sistema LKB. |
DiZer 2.0
Accés | demo online |
Descripció |
Interfície per al desenvolupament i utilització en línia d’analitzadors discursius en diferents llengües basats en la Rhetorical Structure Theory (RST). Actualment, integra un analitzador complet per al portuguès de Brasil i analitzadors beta per al castellà i l'anglès. DiZer 2.0 és el resultat d’un projecte internacional en col·laboració entre els grups de recerca: Núcleo Interinstitucional de Lingüística Computacional (ICMC-USP, São Paulo), Iulaterm (IULA-UPF, Barcelona) i TALNE (LIA-UAPV, Avignon). |
DiSeg
Accés | demo online |
Descripció |
Interfície per a la descàrrega i utilització en línia d’un segmentador discursiu per al castellà basat en la Rhetorical Structure Theory (RST). Inclou a més un corpus gold standard de textos especialitzats segmentats manualment. DiSeg és el resultat d’un projecte internacional en col·laboració entre els grups de recerca: Iulaterm (IULA-UPF, Barcelona), TALNE (LIA-UAPV, Avignon) i GRIAL (UB, Barcelona). |
Alinea
Accés | demo online |
Descripció | Eina de paral·lelització de textos traduïts, especialment dissenyada per a corpus especialitzats i com a validador de traduccions. |