Atrás Investigadoras de la UPF lanzan el primer corpus de cuestionarios de encuestas accesible y de código abierto

Investigadoras de la UPF lanzan el primer corpus de cuestionarios de encuestas accesible y de código abierto

Diana Zavala-Rojas y Danielly Sorato, que forman parte del Grupo de Investigación RECSM del Departamento de Ciencias Políticas y Sociales, son las coautoras del Multilingual Corpus of Survey Questionnaires (MCSQ). Esta nueva versión, llamada Rosalind Franklin, será una herramienta que será de mucha utilidad para el análisis sistemático, el diseño y la traducción de cuestionarios de encuestas.
05.10.2021

Imatge inicial

Investigadoras de la Universidad Pompeu Fabra han publicado recientemente la versión 3 del Multilingual Corpus of Survey Questionnaires (MCSQ) (Corpus Multilingüe de Cuestionarios de Encuestas), que lleva el nombre de la científica Rosalind Franklin.

El MCSQ, una herramienta abierta y accesible que será de gran ayuda para el análisis sistemático, el diseño y la traducción de cuestionarios de encuestas, es obra de las investigadoras de RECSM-UPF Diana Zavala-Rojas y Danielly Sorato, junto con Lidun Hareide (Møreforsking AS) y Knut Hofland (Universidad de Bergen).

La versión Rosalind Franklin se compone de 306 cuestionarios diferentes que incluyen aproximadamente 766.000 frases y más de 4 millones de fichas

La versión Rosalind Franklin se compone de 306 cuestionarios diferentes que incluyen aproximadamente 766.000 frases y más de 4 millones de fichas. Actualmente, el corpus consta de los cuestionarios siguientes y sus versiones:

Encuesta Social Europea (European Social Surey, ESS): rondas de la 1 a la 9.

Encuesta de Salud, Envejecimiento y Jubilación en Europa (Survey of Health, Ageing and Retirement in Europe, SHARE), rondas 7 y 8 y cuestionario covid-19

Estudio de Valores Europeos (European Values ​​Study, EVS): olas 3, 4 y 5.

WageIndicator (WIZ): cuestionario de la primera ronda y de la covid-19.

La interfaz de la herramienta permite buscar palabras específicas, recuperar y comparar colocaciones de palabras, buscar frecuencias de palabras, buscar secuencias de etiquetas de partes del discurso (Part-of-Speech) y comparar datos mediante diversas opciones de filtro. También permite descargar subconjuntos personalizados del corpus y crear memorias de traducción.

El MCSQ es una herramienta FAIR (siglas en inglés de localizable, accesible, interoperable y reproducible) para facilitar el diseño de cuestionarios. Es un recurso de investigación accesible a todo el mundo y de código abierto, que será útil para investigadores del ámbito de la lingüística, traductores, científicos sociales y otras personas interesadas.

Etiquetas de partes del discurso y de reconocimiento de entidades denominadas

El MCSQ se anota con etiquetas de partes del discurso (Part-of-Speech, POS) y de reconocimiento de entidades denominadas (Named Entity Recognition, NER).

La tarea de etiquetado POS tiene el objetivo de predecir automáticamente las partes del discurso (por ejemplo, sustantivo, verbo, pronombre, adverbio) de las palabras. Aunque las partes del discurso se asignan habitualmente a palabras individuales, una entidad denominada suele referirse a un nombre propio y a menudo es una expresión múltiple entera (como por ejemplo la organización "Universidad Pompeu Fabra"). Por tanto, la tarea de reconocimiento de entidades denominadas (NER) pretende identificar y clasificar las entidades en un conjunto de categorías, tales como PERSONA, UBICACIÓN, ORGANIZACIÓN, entre otros.

Estas anotaciones NER incluidas en el corpus se ejecutaron con modelos pre-establecidos de diferentes fuentes, concretamente FlairNLP (inglés, alemán, francés y español), SpaCy (Catalán, noruego y portugués) y Slavic BERT como parte de DeepPavlov (checo y ruso).

Traducciones disponibles en diferentes idiomas y variedades locales

Todas las encuestas están disponibles en inglés y sus traducciones a diferentes idiomas (la disponibilidad del idioma varía según la encuesta y su versión): catalán, checo, francés (variedades de idiomas localizadas para Francia, Suiza, Bélgica y Luxemburgo), alemán (localizado en Austria, Alemania, Suiza y Luxemburgo), noruego (bokmål), portugués (localizado en Portugal), español (localizado en España) y ruso (localizado en Bielorrusia, Estonia, Israel, Letonia, Lituania, Rusia y Ucrania).

Para qué se puede utilizar el MCSQ?

Algunos de los principales usos que puede tener MCSQ son analizar la equivalencia de las traducciones, hacer estudios lingüísticos de contraste, redacción de diccionarios bilingües de términos de encuesta (lexicología), construcción de memorias de traducción, utilizar datos alineados para formar modelos de traducción automática específicos de dominios y comparación multilingüe de términos de la encuesta.

Otras utilidades de la herramienta son la recuperación de elementos pasados ​​por utilizarlos como referencia para nuevas traducciones, comparar fácilmente los elementos de la encuesta en varios idiomas y ayudar a la formación de creadores de encuestas, traductores y encuestadores.

El MCSQ se desarrolló como parte de la Encuesta Social Europea ERIC, en el marco del proyecto Social Sciences and Humanities Open Cloud (SSHOC), financiado por el Programa de Investigación e Innovación Horizon 2020 de la UE (2.014-2020) en virtud del Convenio de subvención núm. 823.782. 

Multimedia

ODS - Objetivos de desarrollo sostenible:

Els ODS a la UPF

Contact

Para más información

Noticia publicada por:

Oficina de Comunicación