Vés enrere Com podem millorar la manera en què utilitzem dades de rastreig digital per contestar preguntes rellevants en ciències socials?

Com podem millorar la manera en què utilitzem dades de rastreig digital per contestar preguntes rellevants en ciències socials?

Investigadors del centre de recerca RECSM-UPF han desenvolupat el nou Marc d'Error Total (TEM) per a les dades de comportament en línia, que permet millorar la manera en què els científics socials utilitzen aquest tipus de big data. L'aplicació d'aquesta eina innovadora al projecte internacional TRI-POL, liderat per la UPF, va permetre a Oriol Bosch Jover i Melanie Revilla detectar diversos errors, millorar-ne el disseny, i a partir d'aquí, establir un catàleg de recomanacions pràctiques.

19.01.2023

Imatge inicial

Donada l'adopció generalitzada d'Internet, mesurar el que la gent fa i consumeix en línia és crucial en gairebé totes les àrees de recerca en ciències socials. Per exemple, quines són les conseqüències negatives de la desinformació i les fake news, i com podem minimitzar-les? Gràcies a l'adopció del big data i els mètodes de les ciències de dades, durant els últims anys s'ha popularitzat l'ús de dades de comportament en línia (altrament conegudes com de seguiment web o rastreig digital) per mesurar de forma directa i objectiva el que els ciutadans fan quan estan connectats. En general, aquestes dades es recopilen a partir d'una mostra de participants que voluntàriament s'instal·len o configuren, en els seus dispositius, tecnologies que rastregen les traces digitals deixades, com ara informació sobre les pàgines web i les aplicacions visitades.

Tot i les grans oportunitats que aquestes dades brinden per estudiar multitud de fenòmens socials, fins ara no s'ha prestat prou atenció als errors que es produeixen en la utilització d'aquest mètode, acceptant de forma acrítica els resultats obtinguts. Això és problemàtic, ja que els potencials errors d'aquestes dades podrien estar distorsionant les conclusions i les decisions polítiques que es prenen amb la informació aconseguida.

"Aquest nou marc que hem dissenyat pot ajudar a millorar la qualitat de la recerca produïda amb dades de comportament en línia, així com fomentar la comprensió de com i quan es poden combinar aquest tipus de dades amb les d'enquestes"

Per pal·liar aquesta mancança, investigadors del Centre d'Investigació i Recerca en Metodologia de l’Enquesta (RECSM-UPF), vinculat al Departament de Ciències Polítiques i Socials de la Universitat, han dissenyat un Marc d'Error Total (TEM) per a les dades de comportament en línia. Aquesta eina, tradicionalment aplicada en el disseny d'enquestes, permet a qualsevol investigador comprendre millor el procés a seguir per recol·lectar, processar i analitzar les dades de comportament en línia, dotant-lo a la vegada de les eines necessàries per identificar, prevenir, i lluitar contra els diversos errors que poden esbiaixar les conclusions extretes.

Per tal de validar la utilitat d'aquesta eina més enllà de la teoria, els investigadors de l'estudi han utilitzat el TEM per dissenyar la recol·lecció de dades en línia d'un projecte internacional pioner coordinat per la Universitat Pompeu Fabra (el TRI-POL), que els ha permès millorar la qualitat de les dades recollides i la transferència amb la qual comunicar els errors que no s'han pogut evitar.

Els membres de RECSM-UPF i autors de la recerca (publicada a la revista de la Royal Statistical Society) Oriol Bosch Jover, investigador predoctoral vinculat a la London School of Economics and Political Science (LSE), i Melanie Revilla, investigadora sènior a l'Intitut Barcelona Estudis Internacionals (IBEI), afirmen que "aquest nou marc que hem dissenyat pot ajudar a millorar la qualitat de la recerca produïda amb dades de comportament en línia, així com fomentar la comprensió de com i quan es poden combinar aquest tipus de dades amb les d'enquestes."

Aplicació del marc TEM a un cas pràctic: el projecte internacional TRI-POL

Els investigadors, per tal d'il·lustrar com el marc TEM pot ajudar a planificar la recopilació de dades de comportament en línia i minimitzar-ne els erros, van utilitzar un estudi de cas: el projecte Triangle of Polarisation, Political Trust and Political Communication (TRI-POL). Es tracta d’un projecte internacional i interuniversitari, liderat per Mariano Torcal, catedràtic de Ciència Política de la UPF i director de RECSM-UPF, del qual Oriol Bosch Jover i Melanie Revilla també formen part.

TRI-POL representa el primer projecte en l'àmbit internacional en combinar dades de comportament en línia i d'enquestes dels mateixos individus

TRI-POL representa el primer projecte en l'àmbit internacional en combinar dades de comportament en línia i d'enquestes dels mateixos individus per, entre altres objectius, comprendre si els comportaments en línia estan relacionats amb la polarització afectiva a diversos països del sud d'Europa i d'Amèrica Llatina i de quina manera. Així mateix, el projecte TRI-POL és pioner en la seva obertura d'accés i en permetre l'ús lliure de totes les dades recol·lectades, incloent-hi les de comportament en línia, generalment de difícil accés per la majoria d'investigadors. "Mitjançant l'ús del marc TEM, TRIP-POL és el primer projecte que s'ha dissenyat reconeixent els errors de les dades de comportament en línia, amb estratègies establertes per minimitzar, quantificar i donar a conèixer aquests errors. Això podria ajudar a establir els estàndards de qualitat a seguir per a futurs projectes de recerca basats en dades de seguiment web", afirmen els investigadors.

Errors que detecta el TEM i a què es deuen

Les dades de seguiment web presenten molts avantatges, entre els quals, que es tracta de dades mesurades objectives, és a dir, no cal confiar que l'individu recordi el que va fer en línia; són molt granulars, ja que permeten recollir més informació de la que seria possible amb les enquestes, i estan recol·lectades en temps real, possibilitant l'anàlisi de xocs externs que els investigadors no planificaven mesurar.

No obstant això, els investigadors que utilitzen aquestes dades normalment han de dissenyar les seves estratègies de recollida de dades a les fosques: "Els investigadors no poden reconèixer i informar dels errors que troben sense una comprensió clara de quins són aquests errors i com identificar-los. Aquest és precisament el buit que estem omplint amb el nostre marc TEM", afirmen Oriol Bosch Jover i Melanie Revilla.

"Els investigadors no poden reconèixer i informar dels errors que troben sense una comprensió clara de quins són aquests errors i com identificar-los. Aquest és precisament el buit que estem omplint amb el nostre marc TEM"

El TEM mostra que la conceptualització dels errors de les dades de comportament en línia és molt similar al que trobem per dades d'enquestes: “La mostra de la qual obtenim les dades ha de ser una bona representació de la població, i els comportaments que s'observen a partir de les tecnologies de seguiment han de representar el comportament real dels individus que participin en l'estudi. Si això no passa, les dades estan esbiaixades”, aclareixen.

Ara bé, els motius pels quals les dades es poden esbiaixar són nous i fins ara desconeguts. Per exemple, una etapa clau per a qualsevol projecte de seguiment web és assegurar-se que es fa un seguiment dels participants en tots els dispositius que utilitzen per connectar-se. Si això no s'aconsegueix, els investigadors es perdran part del que la gent fa en línia, donant lloc a possibles biaixos.

Tenint en compte això, els investigadors han de definir clarament amb quins dispositius cal fer un seguiment i intentar maximitzar la seva cobertura. Si això no és possible o està fora del seu control, haurien de recollir informació auxiliar per avaluar la proporció o els participants afectats pel s’anomena “seguiment insuficient” (no ser rastrejat en tots els dispositius usats per connectar-se) i informar-ho a mesura que passa per la no resposta a les enquestes. 

Recomanacions i bones pràctiques

Basant-se en aquests errors, els autors proposen un seguit de recomanacions i de bones pràctiques per a qualsevol persona que utilitzi dades de seguiment web: definir clarament la llista de traces (per exemple, URL) que s'utilitzaran per a crear les variables a analitzar; considerar les limitacions que les tecnologies de seguiment usades i com aquestes poden introduir biaixos; definir clarament els dispositius a rastrejar i intentar maximitzar-ne la cobertura.

Altres recomanacions són tenir en compte que els dispositius rastrejats poden ser utilitzats per tercers (per exemple, familiars que llegeixen diaris amb ideologies completament oposades), i finalment, desenvolupar estratègies per minimitzar i corregir els errors que poden succeir en extraure i transformar les dades (per exemple, a l'hora d'identificar si una notícia conté desinformació o no), un procés que molts cops és fet per algoritmes complexos.

"Les dades de comportament en línia poden ser el futur en recerca en ciències socials, però necessitem una major transparència i millors pràctiques de disseny, i anàlisi de les dades, similars a les que s'apliquen a les enquestes. Cal treballar amb molta cura i transparència", conclouen els investigadors.

Treball de referència: Bosch, O.J. & Revilla, M. (2022) “When survey science met webtracking: Presenting an error framework for metered data”. Journal of the Royal Statistical Society: Series A (Statistics in Society).
https://doi.org/10.1111/rssa.12956

Multimèdia

ODS - Objectius de desenvolupament sostenible:

Els ODS a la UPF

Contact

Per a més informació

Notícia publicada per:

Oficina de Comunicació