Vés enrere UPF-COBALT, un nou sistema d'avaluació de traductors automàtics

UPF-COBALT, un nou sistema d'avaluació de traductors automàtics

Desenvolupat per Marina Fomicheva i Núria Bel, investigadores de l'Institut de Lingüística Aplicada, que es presenta al congrés internacional LREC 2016 a Portorož (Eslovènia), i que va ser reconegut entre les millors mètriques en el Workshop on Statistical Machine Translation (Lisboa, 2015).

27.05.2016

 

Una línia de recerca en auge és l'avaluació de la qualitat dels sistemes de traducció automàtica que hi ha disponibles actualment. Aquesta avaluació és indispensable i necessària tant per millorar els diferents sistemes com per a què l'usuari pugui comparar entre diferents traductors i escollir el que més li convingui.

                                                      via GIPHY

Actualment, els sistemes d'avaluació més emprats es basen en la comparació de la proposta del traductor automàtic amb una referència humana, sota la hipòtesi que com més s'assemblin millor resulta el sistema de traducció automàtica. Entre els més comuns hi ha el sistema BLUE (Papineni et al. 2002) que compara cadenes de paraules o el METEOR (Denkowski and Lavie, 2014) que, a més, incorpora possibles sinònims en la comparació. Però tot i això, aquests sistemes no tenen en compte que també pot donar-se un canvi d'ordre de paraules, o una expressió lingüística equivalent com l'ús de la veu passiva, etc.


Marina Fomicheva i NúriaBel, investigadores de l'Institut de Lingüística Aplicada (IULA) del Departament de Traducció i Ciències del Llenguatge de la UPF, han desenvolupat el UPF-COBALT, un nou sistema d'avaluació de traductors automàtics que explota la informació sintàctica per estimar una puntuació per a cada parell de paraules alineades, a partir de la informació de  la seva similitud lèxica i de les diferències dels seus contextos sintàctics.

Per al càlcul de la similitud lèxica, en lloc de recórrer a llistes de sinònims, com fa METEOR, UPF-COBALT utilitza representacions vectorials distribuïdes de les paraules o"Wordem beddings"(Milolov et al . 2013). Per al càlcul de l'equivalència sintàctica, utilitza anàlisi de dependències a partir dels quals es defineixen les equivalències (Sultan et al. 2014).

Les autores han presentat aquest nou sistema en la comunicació "Using Contextual Informació per a Machine Translation Evaluation" al congrés internacional LREC 2016 (Language Resources and Evaluation Conference), que s'està celebrant del 23 al 28 de Maig a Portorož (Eslovènia), en el qual descriuen el nou sistema d'avaluació que discrimina variacions acceptables entre una referència i la proposta del traductor automàtic. La variació es considera que preserva el significat i, per tant, és acceptable si conté paraules semànticament semblants i que estan en contextos sintàctics equivalents.

Com ha explicat Núria Bel, "en el cas de produir-se errors de traducció, que han de ser penalitzats, o l'elecció de la paraula no és apropiada o els contextos sintàctics no són equivalents".

UPF-COBALT va demostrar estar entre les quatre millors mètriques (de més de 20 participants) en el passat Workshop on Statistical Machine Translation 2015, celebrat a la reunió anual de l'Association for Computational Linguistics, ACL 2015, celebrat del 26 al 31 de juliol a Lisboa (Portugal).

Treball de referència:

Marina Fomicheva, Núria Bel (2016), “Using Contextual Information for Machine Translation Evaluation”, Language Resources and Evaluation Conference, 23 al 28 de maig, Portorož (Eslovènia). 

Aquesta recerca ha comptat amb el suport del Grup de Recerca IULA i dels ajuts del programa FI-DGR de la Generalitat de Catalunya.

 

Multimèdia

Categories:

ODS - Objectius de desenvolupament sostenible:

Els ODS a la UPF

Contact