Atrás Google Scholar, algoritmo oculto e injusticias. Cristòfol Rovira

Google Scholar, algoritmo oculto e injusticias. Cristòfol Rovira

Cristòfol Rovira, profesor del Departamento de Comunicación de la UPF
16.02.2021

 

La ordenación de los resultados de los buscadores es un procedimiento crítico. Implica la selección de los mejores resultados para situarlos en los primeros lugares. Las implicaciones son cruciales. Quedar el primero implica recibir el doble del tráfico del segundo y diez veces más que el décimo (Beus, 2021). Además el 53% del tráfico de cualquier web proviene de los buscadores (Sterling, 2019). Por tanto la ordenación por relevancia no es una tontería, hay mucho en juego, ya sea en dinero, prestigio o posibilidades de ser conocido. 

Esta ordenación se realiza automáticamente, por medio de un algoritmo secreto. Que sea automático no significa que sea neutro. Los ingenieros que desarrollan los buscadores determinan que algunas características de las páginas intervienen positivamente en la ordenación, que suman puntos para estar antes en los listados. Otros elementos son considerados negativos y por tanto restan puntos. Cada página, en cada listado, se le asigna un cómputo total de puntos para saber en qué posición aparecerá. Este procedimiento tiene como objetivo poner en las primeras posiciones las páginas de mayor calidad y que mejor encajan con la búsqueda realizada. Google consigue este objetivo en la inmensa mayoría de las ocasiones.
 
El problema para los que creamos información para la web es que no sabemos cuáles son estos factores de ordenación. Google mantiene en secreto este algoritmo para evitar dar pistas a quien quiere falsear el ranking, ahorrarse trabajo y poner páginas hechas de mala manera, de baja calidad, en buenas posiciones. Hasta cierto punto esta política puede ser comprensible, pero ¿qué pasa si estos criterios no son equitativos, no son justos y no nos enteramos?
 
En este contexto, Google Scholar, el buscador de documentos académicos de Google, es especialmente interesante. Primero porque su algoritmo de ordenación es más sencillo que el de Google “normal” y luego porque se ha comprobado que el número de citas recibidas es un factor positivo de ordenación muy importante. Esta constatación no es sorprendente, un artículo muy citado, seguro que será un artículo de calidad. 
 
Para llegar a este tipo de conclusiones y descubrir como es el algoritmo de ordenación, se usa la ingeniería inversa como metodología de investigación. Se analiza un volumen considerable de búsquedas, se identifican las características que tienen los documentos que aparecen en las primeras posiciones y de este modo se puede inferir como es el algoritmo.
 
Utilizando este procedimento (Rovira, 2021), hemos detectado que el idioma de los documentos es un factor determinante en Google Scholar cuando las búsquedas tienen resultados en diferentes idiomas. Los documentos escritos en lenguas que no son el inglés aparecen mayoritariamente a partir de la posición 900. Son absolutamente invisibles al usuario final, incluso cuando se trata de artículos que reciben miles de citas y que son referentes en su disciplina. Acceder a la posición 900 implica avanzar 90 páginas en los listados de resultados cuando raramente los usuarios van más allá de la tercera página. Esto ocurre solo en las búsquedas multilingües, cuando compiten documentos escritos en diversos idiomas, como por ejemplo cuando buscamos artículos publicados en un determinado año o en búsquedas por palabras clave que tienen la misma ortografía en diversos idiomas, como marcas comerciales, productos industriales, compuestos químicos, siglas, medicamentos, enfermedades... COVID, sin ir más lejos.
 
Es este punto retomamos la pregunta que nos hacíamos al principio ¿qué ocurre cuando la ordenación automática no es neutra? La opacidad de Google impide saber si este sesgo es accidental o es el resultado de un algoritmo diseñado específicamente para favorecer la bibliografía en inglés. Probablemente sea un descuido, las búsquedas multilingües no deben de ser una preocupación importante para los ingenieros de Google Scholar. Sea o no un error involuntario, este tipo de investigaciones pone en evidencia situaciones anómalas  de un algoritmo oculto que habría que corregir. Hasta que este sesgo no se solucione, investigadores de todo el mundo de habla no inglesa pueden pensar erróneamente que no existen artículos en su lengua al realizar búsquedas con resultados multilingües.
 
Referencias:
 

Beus, J. (2021, 2 febrero). ¿Por qué (casi) todo lo que sabías sobre CTR en Google ya no es cierto? SISTRIX. https://www.sistrix.es/blog/lo-que-sabias-sobre-ctr-y-google/ 

Rovira, C., Codina, L., & Lopezosa, C. (2021). Language Bias in the Google Scholar Ranking Algorithm. Future Internet, 13(2), 31. https://doi.org/10.3390/fi13020031

Sterling, G., & Sterling, G. (2019, 18 septiembre). Organic search responsible for 53% of all site traffic, paid 15% [Study]. Search Engine Land. https://searchengineland.com/organic-search-responsible-for-53-of-all-site-traffic-paid-15-study-322298 

Multimedia

Categorías:

ODS - Objetivos de desarrollo sostenible:

Els ODS a la UPF

Contact