¿Cómo mejorar la forma en que utilizamos datos de rastreo digital para contestar preguntas relevantes en ciencias sociales?
¿Cómo mejorar la forma en que utilizamos datos de rastreo digital para contestar preguntas relevantes en ciencias sociales?
Investigadores del centro de investigación RECSM-UPF han desarrollado el nuevo Marco de Error Total (TEM) para los datos de comportamiento online, que permite mejorar la manera en que los científicos sociales utilizan este tipo de big data. La aplicación de esta herramienta innovadora al proyecto internacional TRI-POL, liderado por la UPF, permitió a Oriol Bosch Jover i Melanie Revilla detectar varios errores, mejorar su diseño, ya partir de ahí, establecer un catálogo de recomendaciones prácticas.
Dada la adopción generalizada de Internet, medir lo que la gente hace y consume online es crucial en casi todas las áreas de investigación en ciencias sociales. Por ejemplo, ¿cuáles son las consecuencias negativas de la desinformación y las fake news, y cómo podemos minimizarlas? Gracias a la adopción del big data y los métodos de las ciencias de datos, durante los últimos años se ha popularizado el uso de datos de comportamiento online (otras conocidas como de seguimiento web o rastreo digital) para medir de forma directa y objetiva lo que los ciudadanos hacen cuando están conectados. Por lo general, estos datos se recopilan a partir de una muestra de participantes que voluntariamente se instalan o configuran, en sus dispositivos, tecnologías que rastrean las trazas digitales dejadas, como información sobre las páginas web y las aplicaciones visitadas.
A pesar de las grandes oportunidades que estos datos brindan para estudiar multitud de fenómenos sociales, hasta ahora no se ha prestado suficiente atención a los errores que se producen en la utilización de este método, aceptando de forma acrítica los resultados obtenidos. Esto es problemático, ya que los potenciales errores de estos datos podrían estar distorsionando las conclusiones y decisiones políticas que se toman con la información conseguida.
"Este nuevo marco que hemos diseñado puede ayudar a mejorar la calidad de la investigación producida con datos de comportamiento online, así como fomentar la comprensión de cómo y cuándo se pueden combinar este tipo de datos con las de encuestas."
Para paliar esta carencia, investigadores del Centro de Investigación y Asesoramiento de Metodología de Encuesta (RECSM-UPF), vinculado al Departamento de Ciencias Políticas y Sociales de la Universidad, han diseñado un Marco de Error Total (TEM) para los datos de comportamiento online. Esta herramienta, tradicionalmente aplicada en el diseño de encuestas, permite a cualquier investigador comprender mejor el proceso a seguir para recolectar, procesar y analizar los datos de comportamiento online, dotándolo a la vez de las herramientas necesarias para identificar, prevenir, y luchar contra los distintos errores que pueden sesgar las conclusiones extraídas.
Para validar la utilidad de esta herramienta más allá de la teoría, los investigadores del estudio han utilizado el TEM para diseñar la recolección de datos online de un proyecto internacional pionero coordinado por la Universidad Pompeu Fabra (el TRI-POL), que les ha permitido mejorar la calidad de los datos recolectados y la transferencia con la que comunicar los errores que no se han podido evitar.
Los miembros de RECSM-UPF y autores de la investigación (publicada en la revista de la Royal Statistical Society) Oriol Bosch Jover, investigador predoctoral vinculado a la London School of Economics and Political Science (LSE), y Melanie Revilla, investigadora sénior en el Intitut Barcelona Estudis Internacionals (IBEI), afirman que "este nuevo marco que hemos diseñado puede ayudar a mejorar la calidad de la investigación producida con datos de comportamiento online, así como fomentar la comprensión de cómo y cuándo se pueden combinar este tipo de datos con las de encuestas."
Aplicación del marco TEM a un caso práctico: el proyecto internacional TRI-POL
Los investigadores, para ilustrar cómo el marco TEM puede ayudar a planificar la recopilación de datos de comportamiento online y minimizar los errores, utilizaron un estudio de caso: el proyecto Triangle of Polarisation, Political Trust and Political Communicaton (TRI-POL). Se trata de un proyecto internacional e interuniversitario, liderado por Mariano Torcal, catedrático de Ciencia Política de la UPF y director de RECSM-UPF, del que Oriol Bosch Jover y Melanie Revilla también forman parte.
TRI-POL representa el primer proyecto en el ámbito internacional en combinar datos de comportamiento online y de encuestas de los propios individuos
TRI-POL representa el primer proyecto en el ámbito internacional en combinar datos de comportamiento online y de encuestas de los propios individuos para, entre otros objetivos, comprender si los comportamientos online están relacionados con la polarización afectiva en varios países del sur. Europa y América Latina y de qué manera. Asimismo, el proyecto TRI-POL es pionero en su apertura de acceso y en permitir el uso libre de todos los datos recolectados, incluyendo los de comportamiento online, generalmente de difícil acceso para la mayoría de investigadores. "Mediante el uso del marco TEM, TRIP-POL es el primer proyecto que se ha diseñado reconociendo los errores de los datos de comportamiento online, con estrategias establecidas para minimizar, cuantificar y dar a conocer estos errores. Esto podría ayudar a establecer los estándares de calidad a seguir para futuros proyectos de investigación basados en datos de seguimiento web”, afirman los investigadores.
Errores que detecta el TEM y a que se deben
Los datos de seguimiento web presentan muchas ventajas, entre las cuales, que se trata de datos medidos objetivos, es decir, no es necesario confiar en que el individuo recuerde lo que hizo online; son muy granulares, ya que permiten recabar más información de lo posible con las encuestas, y están recolectados en tiempo real, posibilitando el análisis de choques extermps que los investigadores no planificaban medir.
Sin embargo, los investigadores que utilizan estos datos normalmente deben diseñar sus estrategias de recogida de datos a oscuras: "Los investigadores no pueden reconocer e informar de los errores que encuentran sin una comprensión clara de cuáles son estos errores y cómo identificarlos. Éste es precisamente el vacío que estamos llenando con nuestro marco TEM", afirman Oriol Bosch Jover y Melanie Revilla.
El TEM muestra que la conceptualización de los errores de los datos de comportamiento online es muy similar a lo que encontramos por datos de encuestas: “La muestra de la que obtenemos los datos debe ser una buena representación de la población, y los comportamientos que se observan a partir de las tecnologías de seguimiento deben representar el comportamiento real de los individuos que participen en el estudio. Si esto no ocurre, los datos están sesgados”, aclaran los investigadores.
"Los investigadores no pueden reconocer e informar de los errores que encuentran sin una comprensión clara de cuáles son estos errores y cómo identificarlos. Éste es precisamente el vacío que estamos llenando con nuestro marco TEM"
Ahora bien, los motivos por los que los datos se pueden sesgar son nuevos y hasta ahora desconocidos. Por ejemplo, una etapa clave para cualquier proyecto de seguimiento web es asegurarse de que se realiza un seguimiento de los participantes en todos los dispositivos que utilizan para conectarse. Si esto no se consigue, los investigadores se perderán parte de lo que la gente hace online, dando lugar a posibles sesgos.
Teniendo en cuenta esto, los investigadores deben definir claramente con qué dispositivos es necesario realizar un seguimiento e intentar maximizar su cobertura. Si esto no es posible o está fuera de su control, deberían recoger información auxiliar para evaluar la proporción o los participantes afectados por el llamado “seguimiento insuficiente” (no ser rastreado en todos los dispositivos usados para conectarse) e informarlo lo a medida que pasa por la no respuesta a las encuestas.
Listado de recomendaciones y buenas prácticas
Basándose en estos errores, los autores proponen una serie de recomendaciones y buenas prácticas para cualquier persona que utilice datos de seguimiento web: definir claramente la lista de rastros (por ejemplo, URL) que se utilizarán para crear las variables a analizar; considerar las limitaciones que las tecnologías de seguimiento usadas y cómo éstas pueden introducir sesgos; definir claramente los dispositivos a rastrear e intentar maximizar su cobertura.
Otras recomendaciones son tener en cuenta que los dispositivos rastreados pueden ser utilizados por terceros (por ejemplo, familiares que leen diarios con ideologías completamente opuestas), y por último, desarrollar estrategias para minimizar y corregir los errores que pueden suceder al extraer y transformar los datos (por ejemplo, a la hora de identificar si una noticia contiene o no desinformación), un proceso que muchas veces es hecho por algoritmos complejos.
"Los datos de comportamiento online pueden ser el futuro en investigación en ciencias sociales, pero necesitamos una mayor transparencia y mejores prácticas de diseño, y análisis de los datos, similares a los que se aplican a las encuestas. Hay que trabajar con mucho cuidado y transparencia", concluyen los investigadores.
Trabajo de referencia: Bosch, O.J. & Revilla, M. (2022) “When survey science met webtracking: Presenting an error framework for metered data”. Journal of the Royal Statistical Society: Series A (Statistics in Society).
https://doi.org/10.1111/rssa.12956