Back Més a prop de superar les dificultats de traducció automàtica del xinès mandarí

Més a prop de superar les dificultats de traducció automàtica del xinès mandarí

Segons un treball realitzat per Jingyi Han i Núria Bel, investigadores de l'Institut de Lingüística Aplicada, recentment presentat al congrés internacional Language Resources and Evaluation Conference, celebrat del 23 al 28 de Maig a Portorož (Eslovènia).

31.05.2016

 

Un component crucial dels sistemes de traducció automàtica estadística són els anomenats "corpus paral·lels" o col·leccions de textos i les seves traduccions, grans volums de dades organitzades per parells de llengües. Els sistemes de traducció automàtica aprenen a traduir les paraules i les seves combinacions a partir d'aquestes col·leccions. Com més dades hi ha, major és la probabilitat que la traducció automàtica resultant sigui la correcta.

Com expliquen Jingyi Han i Núria Bel, "el problema rau en què per a molts parells de llengües no hi ha prou corpus paral·lel del qual aprendre. Estem parlant de diversos milions de paraules i el parell de llengües xinès-espanyol és un d'aquests casos". En el treball d'aquestes investigadores de l'Institut de Lingüística Aplicada (IULA) del Departament de Traducció i Ciències del Llenguatge de la UPF, ”Towards Producing Bilingual Lexica from Monolingual Corpora", es proposa un nou sistema per induir diccionaris de traducció, sense necessitat de corpus paral·lel, que es puguin incorporar a un sistema de traducció automàtica estadística. Un treball que ha estat presentat al congrés internacional Language Resources and Evaluation Conference (LREC), celebrat del 23 al 28 de maig a Portorož (Eslovènia).

Un classificador amb un alt potencial en la producció de lèxic bilingüe

Els resultats del treball d'aquestes investigadores demostren que aquest mètode té un alt potencial per ser utilitzat en la producció de lèxic bilingüe per augmentar el generat pel sistema de traducció automàtica estadística,  en aquells casos en què els parells de llengües tenen escassa o insuficient quantitat de corpus paral·lels.

La principal contribució d'aquesta investigació és que la inducció es realitza a partir de textos de cadascuna de les llengües sense necessitat que siguin traduccions uns textos dels altres, de manera que es poden reunir prou dades perquè, mitjançant mètodes d'aprenentatge automàtic supervisat (només necessita uns 300 exemples de traduccions) i prenent com a representació de les paraules dels vectors d'informació distribuïda o "Word embeddings" (Mikolov, 2013), entrenar un classificador que és capaç de decidir amb un encert de gairebé el 90% si un parell de paraules qualsevol de les trobades en els textos de cada llengua és realment una bona traducció l'una de l'altra. "El nostre classificador és capaç de predir si una nou parell de paraules estan en una relació de traducció o no", afirma Bel. El disseny experimental del treball es va fer per a espanyol xinès i anglès.

A més, en l'article, les autores donen exemples de parells de paraules classificats correctament i analitzen els possibles motius dels errors comesos pel classificador. Per exemple quan s'estudien parells de possibles traduccions segons el traductor de Google, però que van ser desestimats pel classificador. Vegeu el parell "poble" - "" en què la paraula en xinès és més restrictiva que en espanyol ja que significa únicament 'lloc habitat'. O també el parell "enllaç" - "链接". En aquest cas la paraula en xinès no tindria el significat de "matrimoni" que té en castellà.

Treball de referència:

Jingyi Han, Núria Bel (2016), “Towards Producing Bilingual Lexica from Monolingual Corpora”, Language Resources and Evaluation Conference, 23 al 28 de maig a Portorož (Eslovènia).

Multimedia

Categories:

SDG - Sustainable Development Goals:

Els ODS a la UPF

Contact