Vés enrere Investigadores de la UPF dissenyen un nou mètode per a l'alineació de textos dels qüestionaris d'enquestes multilingües

Investigadores de la UPF dissenyen un nou mètode per a l'alineació de textos dels qüestionaris d'enquestes multilingües

Danielly Sorato i Diana Zavala-Rojas, membres de RECSM-UPF, han desenvolupat una estratègia d'alineació que aprofita les anotacions de metadades a escala d’oració. Han publicat els resultats en un article científic, en el marc d'un congrés internacional sobre aplicacions del llenguatge natural als sistemes d'informació.

06.07.2022

Imatge inicial

Danielly Sorato i Diana Zavala-Rojas, investigadores del Centre d'Investigació i Recerca en Metodologia d'Enquesta (RECSM) del Departament de Ciències Polítiques i Socials de la UPF, han publicat recentment un article científic que descriu un mètode dissenyat per a l'alineació dels textos dels qüestionaris d'enquestes bilingües, que aprofita les anotacions de metadades a nivell d’oració.

Danielly Sorato: "Les oracions alineades representen un recurs molt útil per a tasques computacionals posteriors, com ara la traducció automàtica de text"

A l seu treball, que s'emmarca en el projecte Corpus Multilingüe de Preguntes d'Enquestes ([MCSQ]: The Multilingual Corpus of Survey Questions), desenvolupat dins de RECSM, les investigadores van analitzar el rendiment de la seva estratègia d'alineació, construint vuit “estàndards d'or” (gold estàndards) en quatre idiomes diferents (català, francès, portuguès i espanyol) per a aquest fi.

L'article es pot trobar al volum Lecture Notes in Computer Science publicat en el marc de la Natural Language Processing and Information Systems Conference 2022, un congrés internacional celebrat a València del 15 al 17 de juny d’enguany.

L'alineació d'oracions, una tasca crucial en el procés de construcció de corpus paral·lels

L'alineació d'oracions és una tasca computacional que té com a objectiu trobar automàticament la correspondència d'una determinada oració escrita en un idioma i la traducció en un altre idioma. Davant d'un text escrit amb unes oracions en un idioma determinat i el mateix text amb les mateixes oracions traduït en un altre idioma, el que fa l'algorisme d'alineació és vincular automàticament les oracions de la manera correcta, amb una correspondència creuada adequada entre els dos idiomes. “Les oracions alineades representen un recurs molt útil per a tasques computacionals posteriors, com ara la traducció automàtica de text”, apunta Danielly Sorato.

Les eines comercials per a l'alineació d'oracions generalment funcionen bé amb aquesta finalitat. No obstant això, en determinats casos, depenent de factors com l'estructura de l'oració i la quantitat d'informació contextual, la tasca d'alineació d'oracions pot ser un desafiament més gran i requerir recursos addicionals que poden ser difícils de trobar, com ara diccionaris bilingües específics del domini.

"Encara que invertir en la creació de recursos lingüístics addicionals és sovint l'opció escollida en aquestes circumstàncies, aprofitar la informació extralingüística, com les metadades a escala d’oració, pot ser una alternativa més fàcil per reduir l'espai de cerca d'alineació", afirma Danielly Sorato.

Un avenç més dins del corpus multilingüe de qüestionaris d'enquestes de RECSM

Aquest article s'integra dins del treball més ampli de RECSM sobre l'MCSQ, que és el primer corpus multilingüe de qüestionaris d'enquestes disponible per al públic, un artefacte de codi i accés oberts. Comprèn 306 qüestionaris diferents en l'idioma d'origen (anglès) i les seves traduccions al català, txec, francès, alemany, noruec, portuguès, espanyol, rus, així com 29 variants lingüístiques (per exemple, suís-francès, austríac-alemany).

Forma part del projecte “The Social Sciences and Humanities Open Cloud” (SSHOC), finançat pel programa marc Horitzó 2020 de la Unió Europea, que uneix una vintena d'organitzacions per desenvolupar l'àrea de les ciències socials i les humanitats de l'European Open Science Cloud (EOSC).

Treball de referència: Danielly Sorato, Diana Zavala-Rojas. “Sentence Alignment of Bilingual Survey Texts Applying a Metadata-Aware Strategy”. Natural Language Processing and Information Systems, pp 469–476

Multimèdia

ODS - Objectius de desenvolupament sostenible:

Els ODS a la UPF

Contact

Per a més informació

Notícia publicada per:

Oficina de Comunicació