UPF-COBALT, un nou sistema d'avaluació de traductors automàtics
UPF-COBALT, un nou sistema d'avaluació de traductors automàtics
Desenvolupat per Marina Fomicheva i Núria Bel, investigadores de l'Institut de Lingüística Aplicada, que es presenta al congrés internacional LREC 2016 a Portorož (Eslovènia), i que va ser reconegut entre les millors mètriques en el Workshop on Statistical Machine Translation (Lisboa, 2015).
Una línia de recerca en auge és l'avaluació de la qualitat dels sistemes de traducció automàtica que hi ha disponibles actualment. Aquesta avaluació és indispensable i necessària tant per millorar els diferents sistemes com per a què l'usuari pugui comparar entre diferents traductors i escollir el que més li convingui.
Marina Fomicheva i NúriaBel, investigadores de l'Institut de Lingüística Aplicada (IULA) del Departament de Traducció i Ciències del Llenguatge de la UPF, han desenvolupat el UPF-COBALT, un nou sistema d'avaluació de traductors automàtics que explota la informació sintàctica per estimar una puntuació per a cada parell de paraules alineades, a partir de la informació de la seva similitud lèxica i de les diferències dels seus contextos sintàctics.
Per al càlcul de la similitud lèxica, en lloc de recórrer a llistes de sinònims, com fa METEOR, UPF-COBALT utilitza representacions vectorials distribuïdes de les paraules o"Wordem beddings"(Milolov et al . 2013). Per al càlcul de l'equivalència sintàctica, utilitza anàlisi de dependències a partir dels quals es defineixen les equivalències (Sultan et al. 2014).
Les autores han presentat aquest nou sistema en la comunicació "Using Contextual Informació per a Machine Translation Evaluation" al congrés internacional LREC 2016 (Language Resources and Evaluation Conference), que s'està celebrant del 23 al 28 de Maig a Portorož (Eslovènia), en el qual descriuen el nou sistema d'avaluació que discrimina variacions acceptables entre una referència i la proposta del traductor automàtic. La variació es considera que preserva el significat i, per tant, és acceptable si conté paraules semànticament semblants i que estan en contextos sintàctics equivalents.
Com ha explicat Núria Bel, "en el cas de produir-se errors de traducció, que han de ser penalitzats, o l'elecció de la paraula no és apropiada o els contextos sintàctics no són equivalents".
UPF-COBALT va demostrar estar entre les quatre millors mètriques (de més de 20 participants) en el passat Workshop on Statistical Machine Translation 2015, celebrat a la reunió anual de l'Association for Computational Linguistics, ACL 2015, celebrat del 26 al 31 de juliol a Lisboa (Portugal).
Treball de referència:
Marina Fomicheva, Núria Bel (2016), “Using Contextual Information for Machine Translation Evaluation”, Language Resources and Evaluation Conference, 23 al 28 de maig, Portorož (Eslovènia).
Aquesta recerca ha comptat amb el suport del Grup de Recerca IULA i dels ajuts del programa FI-DGR de la Generalitat de Catalunya.