Atrás Investigadoras de la UPF diseñan un nuevo método para la alineación de textos de los cuestionarios de encuestas multilingües

Investigadoras de la UPF diseñan un nuevo método para la alineación de textos de los cuestionarios de encuestas multilingües

Danielly Sorato y Diana Zavala-Rojas, miembros de RECSM-UPF, han desarrollado una estrategia de alineación que aprovecha las anotaciones de metadatos a nivel de oración. Han publicado los resultados en un artículo científico, en el marco de un congreso internacional sobre aplicaciones del lenguaje natural en los sistemas de información.

06.07.2022

Imatge inicial

Danielly Sorato y Diana Zavala-Rojas, investigadoras del Centro de Investigación y Asesoramiento de Metodología de Encuesta (RECSM) del Departamento de Ciencias Políticas y Sociales de la UPF, han publicado recientemente un artículo que científico que describe un método diseñado para la alineación de los textos de los cuestionarios de encuestas bilingües, que aprovecha las anotaciones de metadatos a nivel de oración.

Danielly Sorato: "Las oraciones alineadas representan un recurso muy útil para tareas computacionales posteriores, como la traducción automática de texto"

En su trabajo, que se enmarca en el proyecto Corpus Multilingüe de Preguntas de Encuestas ([MCSQ]: The Multilingual Corpus of Survey Questions), desarrollado dentro de RECSM, las investigadoras analizaron el rendimiento de su estrategia de alineación, construyendo ocho “estándares de oro” (gold standards) en cuatro idiomas distintos (catalán, francés, portugués y español) para este fin.

El artículo se puede encontrar en el volumen Lecture Notes in Computer Science publicado en el marco de la Natural Language Processing and Information Systems Conference 2022 , un congreso internacional celebrado en Valencia del 15 al 17 de junio de este año.

La alineación de oraciones, una tarea crucial en el proceso de construcción de corpus paralelos

La alineación de oraciones es una tarea computacional que tiene el objetivo de encontrar automáticamente la correspondencia de una determinada oración escrita en un idioma y su traducción en otro idioma. Ante un texto escrito con unas oraciones en un determinado idioma y el mismo texto con las mismas oraciones traducido en otro idioma, lo que hace el algoritmo de alineación es vincular automáticamente las oraciones de la manera correcta, con una correspondencia cruzada adecuada entre los dos idiomas. “Las oraciones alineadas representan un recurso muy útil para tareas computacionales posteriores, como la traducción automática de texto”, apunta Danielly Sorato.

Las herramientas comerciales para la alineación de oraciones generalmente funcionan bien para este fin. Sin embargo, en ciertos casos, dependiendo de factores como la estructura de la oración y la cantidad de información contextual, la tarea de alineación de oraciones puede ser un desafío mayor y requerir recursos adicionales que pueden ser difíciles de encontrar, como diccionarios bilingües específicos del dominio.

“Aunque invertir en la creación de recursos lingüísticos adicionales es con frecuencia la opción elegida en estas circunstancias, aprovechar la información extralingüística, como los metadatos a nivel de oración, puede ser una alternativa más fácil para reducir el espacio de búsqueda de alineación”, afirma Danielly Sorato.

Un avance más dentro del corpus multilingüe de cuestionarios de encuestas de RECSM

Este artículo se integra dentro del trabajo más amplio de RECSM sobre el MCSQ, que es el primer corpus multilingüe de cuestionarios de encuestas disponible para el público, un artefacto de código y acceso abiertos. Comprende 306 cuestionarios diferentes en el idioma de origen (inglés) y sus traducciones al catalán, checo, francés, alemán, noruego, portugués, español, ruso, así como 29 variantes lingüísticas (por ejemplo, suizo-francés, austriaco-alemán).

Forma parte del proyecto “The Social Sciences and Humanities Open Cloud” (SSHOC), financiado por el programa marco Horizonte 2020 de la Unión Europea, que une a una veintena de organizaciones para desarrollar el área de las ciencias sociales y las humanidades de la European Open Science Cloud (EOSC).

Treball de referència: Danielly Sorato, Diana Zavala-Rojas. “Sentence Alignment of Bilingual Survey Texts Applying a Metadata-Aware Strategy”. Natural Language Processing and Information Systems, pp 469–476

Multimedia

ODS - Objetivos de desarrollo sostenible:

Els ODS a la UPF

Contact

Para más información

Noticia publicada por:

Oficina de Comunicación