Descripció del projecte
 

Aquest projecte pretén oferir accés via web a corpus monolingües  i corpus paral·lels, amb finalitats tan diverses com la didàctica de la traducció o la recerca lingüística. La particularitat de BancTrad és que permet cercar no només sobre paraules (cadenes de caràcters), sinó també sobre dues altres menes de característiques:

  • lingüístiques: sobre lema, categoria morfològica i - en el cas del català - funció sintàctica
  • extralingüístiques: sobre trets tals com gènere textual, registre, tema, etc. (quinze paràmetres en total).

Les llengües dels corpus són les llengües de treball a la Facultat de Traducció i Interpretació a la Universitat Pompeu Fabra: català, castellà, anglès, francès i alemany (sempre del català/castellà a les altres llengües o viceversa)).

 

Possibilitats  de cerca:

1. Corpus disponibles

Actualment BancTrad subsumeix sota una mateixa interfície de consulta els següents corpus:

Corpus monolingües

  •     BNC anglès   100.000.000 tokens (Anotació: categoria gramatical)
  •     FR alemany 340.000 tokens (Anotació:  lema i  categoria gramatical)
 

Corpus paral·lel

  • 3.000.000 tokens 
    Anotació: linguística (lema i categoria gramatical) i  extralingüística

 

2. Modalitats de cerca

BancTrad  ofereix dues modalitats de cerca :

a) mode bàsic: permet la cerca per formes de paraules

b) mode avançat: permet la cerca per seqüències de cinc quadruples (forma, lema, etiqueta morfosintàctica i funció sintàctica (només per al català).

 

Interficie:

La interfície de BancTrad interactua amb l'eina CQP (Corpus Query Processor, de l'IMS), que és la que efectua les cerques als corpus. La CGI de BancTrad, doncs, s'ocupa de gestionar la comunicació entre l'usuari i el CQP: codifica la informació que l'usuari introdueix en una sintaxi adequada per CQP, i torna els resultats pertinents a la pantalla de l'usuari.

Etiquetatge extralingüístic:

L'etiquetatge extralingüístic, així com l'alineació dels textos, es fa de manera semiautomàtica. via web (clau de pas necessària) mitjançant l'aplicació BancTrad Manager (accessible com a aplicació  Java a http://mutis.upf.es/~textosbt/). A través d'aquesta  interfície  l'usuari pot introduir  informació sobre el document  i alinear l'original amb al seva traducció

Etiquetatge lingüístic:

L'etiquetatge lingüístic es fa de manera totalment automàtica. Per al català, s'usa l'eina CATCG, un etiquetador de base lingüística desenvolupat a la UPF. Per a l'anglès, el francès i l'alemany s'usa TreeTagger, un etiquetador de base estadística desenvolupat a l'IMS.

 

Publicacions relacionades

·    Badia, T., G. Boleda, J. Brumme, C. Colominas, M. Garmendia, M. Quixal. 2002. BancTrad: un banco de corpus anotados con interficie web. Procesamiento del Lenguaje Natural, n. 29, pp. 293-294. ISSN 1135-5948. Valladolid, Septiembre.[RTF]

·    Badia, T., G. Boleda, C. Colominas, M. Garmendia, A. González, M. Quixal . 2002. BancTrad: a web interface for integrated access to parallel annotated corpora. Proceedings of the Workshop on Language Resources for Translation Work and Research held during the 3rd LREC Conference in Las Palmas 29-31, May. [PDF]