Vés enrere Investigadores de la UPF llancen el primer corpus de qüestionaris d’enquestes accessible i de codi obert

Investigadores de la UPF llancen el primer corpus de qüestionaris d’enquestes accessible i de codi obert

Diana Zavala-Rojas i Danielly Sorato, membres del Grup de Recerca RECSM del Departament de Ciències Polítiques i Socials, són les coautores del Multilingual Corpus of Survey Questionnaires (MCSQ). Aquesta nova versió, anomenada Rosalind Franklin, serà de molta utilitat per a l’anàlisi sistemàtic, el disseny i la traducció de qüestionaris d’enquestes.
05.10.2021

Imatge inicial

Investigadores de la Universitat Pompeu Fabra han publicat recentment la versió 3 del Multilingual Corpus of Survey Questionnaires (MCSQ) (Corpus Multilingüe de Qüestionaris d'Enquestes), que porta el nom de la científica Rosalind Franklin.

L’MCSQ, una eina oberta i accessible que serà de gran ajut per a l’anàlisi sistemàtic, el disseny i la traducció de qüestionaris d’enquestes, és obra de les investigadores de RECSM-UPF Diana Zavala-Rojas i Danielly Sorato, juntament amb Lidun Hareide (Møreforsking AS) i Knut Hofland (Universitat de Bergen).

La versió Rosalind Franklin es compon de 306 qüestionaris diferents que inclouen aproximadament 766.000 frases i més de 4 milions de fitxes.

La versió Rosalind Franklin es compon de 306 qüestionaris diferents que inclouen aproximadament 766.000 frases i més de 4 milions de fitxes. Actualment, el corpus consta dels qüestionaris següents i les seves versions:

Enquesta Social Europea (European Social Surey, ESS): rondes de la 1 a la 9.

Enquesta de Salut, Envelliment i Jubilació a Europa (Survey of Health, Ageing and Retirement in Europe, SHARE), rondes 7 i 8 i qüestionari covid-19

Estudi de Valors Europeus (European Values Study, EVS): onades 2, 3, 4 i 5.

WageIndicator (WIZ): qüestionari de la primera ronda i de la covid-19

La interfície de l'eina permet cercar paraules específiques, recuperar i comparar col·locacions de paraules, buscar freqüències de paraules, cercar seqüències d'etiquetes de parts del discurs (Part-of-Speech) i comparar dades mitjançant diverses opcions de filtre. També permet descarregar subconjunts personalitzats del corpus i crear memòries de traducció.

L'MCSQ és una eina FAIR (sigles en anglès de localitzable, accessible, interoperable i reproduïble) per facilitar el disseny de qüestionaris. És un recurs de recerca accessible a tothom i de codi obert, que serà útil per a investigadors de l'àmbit de la lingüística, traductors, científics socials i altres persones interessades.

Etiquetes de parts del discurs i de reconeixement d’entitats denominades

L'MCSQ s’anota amb etiquetes de parts del discurs (Part-of-Speech, POS) i de reconeixement d’entitats denominades (Named Entity Recognition, NER).

La tasca d’etiquetatge POS té l’objectiu de predir automàticament les parts del discurs (per exemple, substantiu, verb, pronom, adverbi) de les paraules. Tot i que les parts del discurs s’assignen habitualment a paraules individuals, una entitat denominada sol referir-se a un nom propi i sovint és una expressió múltiple sencera (com per exemple l'organització "Universitat Pompeu Fabra”). Per tant, la tasca de reconeixement d’entitats denominades (NER) pretén identificar i classificar les entitats en un conjunt de categories, com ara PERSONA, UBICACIÓ, ORGANITZACIÓ, entre d’altres.

Aquestes anotacions NER incloses en el corpus es van executar amb models pre-establerts de diferents fonts, concretament FlairNLP (anglès, alemany, francès i espanyol), SpaCy (català, noruec i portuguès) i  Slavic BERT  com a part de DeepPavlov (txec i rus).

Traduccions disponibles en diferents idiomes i varietats locals

Totes les enquestes estan disponibles en anglès i les seves traduccions a diferents idiomes (la disponibilitat de l’idioma varia segons l’enquesta i la seva versió): català, txec, francès (varietats d’idiomes localitzades per a França, Suïssa, Bèlgica i Luxemburg), alemany (localitzat a Àustria, Alemanya, Suïssa i Luxemburg), noruec (bokmål), portuguès (localitzat a Portugal), espanyol (localitzat a Espanya) i rus (localitzat a Bielorússia, Estònia, Israel, Letònia, Lituània, Rússia i Ucraïna).

Per a què es pot utilitzar l’MCSQ?

Alguns dels principals usos que pot tenir l'MCSQ són analitzar l’equivalència de les traduccions, fer estudis lingüístics de contrast, redacció de diccionaris bilingües de termes d’enquesta (lexicologia), construcció de memòries de traducció, utilitzar dades alineades per formar models de traducció automàtica específics de dominis i comparació multilingüística de termes de l'enquesta.

Altres utilitats de l’eina són la recuperació d’elements passats per utilitzar-los com a referència per a noves traduccions, comparar fàcilment els elements de l'enquesta en diversos idiomes i ajudar a la formació de creadors d’enquestes, traductors i enquestadors..

L'MCSQ es va desenvolupar com a part de l'Enquesta Social Europea ERIC , en el marc del projecte Social Sciences and Humanities Open Cloud (SSHOC), finançat pel Programa de Recerca i Innovació Horizon 2020 de la UE (2014-2020) en virtut del Conveni de subvenció núm. 823782.

Multimèdia

ODS - Objectius de desenvolupament sostenible:

Els ODS a la UPF

Contact

Per a més informació

Notícia publicada per:

Oficina de Comunicació