Corpus Tècnic de l'IULA

Acceso

Interfaz de consulta online: Bwananet

Descarga

Subcorpus paralelo inglés-español en formato stand-off (alineación a nivel de frase): e-repositori

Descripción

El Corpus Tècnic del IULA agrupa textos escritos de derecho, economía, genómica, medicina, medioambiente, más un corpus de contraste de prensa. Las lenguas del corpus son catalán, castellano, inglés, francés y alemán.

Partes del Corpus Tècnic del IULA se han reelaborado ulteriormente en el marco del proyecto Metanet4U. Se han actualizado los formatos de codificación de acuerdo con los estándares internacionales más recientes y, en algunos casos, se ha ampliado la información lingüística incorporada. Estos subcorpus están disponibles para ser descargados, algunos previa solicitud de uso y otros directamente desde el e-repisitori de la UPF.

IULA Spanish LSP Treebank

Acceso

Interfaz de consulta online: TreebankBrowser

Descarga

Textos del corpus en formato CoNLL: e-repositori

Descripción

Anotación sintáctica de dependencias sobre 42.000 frases seleccionadas del Corpus Tècnic del IULA (español) elaborada en el marco del proyecto Metanet4U

[+ información (en inglés)]

Malt parser for Spanish

Acceso ws malt_parser web service
Descarga Descargar el módulo para el español del Malt parser espmalt-1.0.mco: e-repositori
Descripción

Instancia del MaltParser entrenada para el español con el corpus IULA Spanish LSP Treebank.

[+ información (en inglés)]

Corpus PAAU92

Acceso

Interfaz de consulta online: Bwananet

Soporte digital del libro El Corpus PAAU 1992: estudios descriptivos, textos y vocabulario: Corpus92

Descarga

Textos del corpus en formato stand-offe-repositori

Descripción

El corpus PAAU92 está formado por textos realizados por estudiantes en Junio de 1992 en el marco de las pruebas de acceso a varias  universidades españolas.

El corpus se puede consultar desde el programa Bwananet o utilizando la interfície de consulta elaborada para el libro El Corpus PAAU 1992: estudios descriptivos, textos y vocabulario que incluye los textos analizados y las listas de vocabulario que constituyen el corpus.

Este corpus también se ha reelaborado en el marco del proyecto Metanet4U y está diponible para ser descargado desde el e-repositori de la UPF.

Corpus de artículos de la Wikipedia

Descarga

Textos del corpus en formato stand-off (Catalán): e-repositori

Textos del corpus en formato stand-off (Español): e-repositori

Descripción

Recopilación de artículos de la Wikipedia en catalán y en español. Versión del WikiCorpus mejorada en el marco del proyecto Metanet4U. Los textos han sido depurados, procesados lingüísticamente y generados en formato stand-off.

  • Corpus en catalán: 140.000 artículos con 35,6 M palabras
  • Corpus en español: 250.000 artículos con 92 M palabras

Penn treebank IULA

Descarga Frases con anotación de dependencias en formato CoNLL: e-repositori
Descripción

Subconjunto de 805 frases (en  inglés y español) del “Penn TreeBank corpus” anotadas sintácticamente. Este corpus es un recurso que contienen textos del Wall Street Journal y que en origen fueron compilados por la Universidad de Pennsylvania. La traducción de las frases al español fue realizada por traductores humanos.

RST Spanish Treebank

Acceso online
Descripción

Interfície de consulta y descarga en línea de un corpus de textos especializados en español anotados con relaciones discursivas de la Rhetorical Structure Theory (RST). El RST Spanish Treebank es el resultado de un proyecto internacional en colaboración entre los grupos de investigación: Iulaterm (IULA-UPF, Barcelona), Grupo de Ingeniería Lingüística (IINGEN-UNAM, México D.F.) y TALNE (LIA-UAPV, Avignon).

Herramientas de procesamiento de corpus

Acceso demo online
Descripción Paquete de herramientas de procesamiento de corpus en catalán y castellano. Incluye un preprocesador y un desambiguador probabilístico. También permite visualizar la información del diccionario del desambiguador.

PALIC

Acceso demo online
Descripción Paquete de herramientas de procesamiento de corpus en catalán y castellano. Incluye un preprocesador, un etiquetador morfosintáctico y un desambiguador de base lingüística.

Analitzador sintáctico en español

Acceso demo online
Descripción Gramática HPSG para el español de código abierto implementada en el sistema LKB

DiZer 2.0

Acceso demo online
Descripción

Interfaz para el desarrollo y utilización en línea de analizadores discursivos en diferentes lenguas basados en la Rhetorical Structure Theory (RST). Actualmente, integra un analizador completo para el portugués de Brasil y analizadores beta para el español y el inglés.  DiZer 2.0 es el resultado de un proyecto internacional en colaboración entre los grupos de investigación: Núcleo Interinstitucional de Lingüística Computacional (ICMC-USP, São Paulo), Iulaterm (IULA-UPF, Barcelona) y TALNE (LIA-UAPV, Avignon).

DiSeg

Acceso demo online
Descripción

Interfaz para la descarga y utilización en línea de un segmentador discursivo para el español basado en la Rhetorical Structure Theory (RST). Incluye además un corpus gold standard de textos especializados segmentados manualmente.  DiSeg es el resultado de un proyecto internacional en colaboración entre los grupos de investigación: Iulaterm (IULA-UPF, Barcelona), TALNE (LIA-UAPV, Avignon) y GRIAL (UB, Barcelona).

Alinea

Acceso demo online
Descripción Herramienta de paralelización de textos traducidos, especialmente diseñada para córpora especializados, y como validador de traducciones.