Back Google Scholar, algoritme ocult i injustícies. Cristòfol Rovira

Google Scholar, algoritme ocult i injustícies. Cristòfol Rovira

Cristòfol Rovira, professor del Departament de Comunicació de la UPF

16.02.2021

L'ordenació dels resultats dels cercadors és un procediment crític. Implica la selecció dels millors resultats per situar-los en els primers llocs. Les implicacions són crucials. Quedar el primer implica rebre el doble de tràfic que el segon i deu vegades més que el desè (Beus, 2021). A més el 53% del trànsit de qualsevol web prové dels cercadors (Sterling, 2019). Per tant l'ordenació per rellevància no és una tonteria, hi ha molt en joc, ja sigui en diners, prestigi o possibilitats de ser conegut.

Aquesta ordenació es realitza automàticament, per mitjà d'un algoritme secret. Que sigui automàtic no vol dir que sigui neutre. Els enginyers que desenvolupen els cercadors determinen que algunes característiques de les pàgines intervenen positivament en l'ordenació, que sumen punts per estar abans en els llistats. Altres elements són considerats negatius i per tant resten punts. Cada pàgina, en cada llista, se li assigna un còmput total de punts per saber en quina posició apareixerà. Aquest procediment té com a objectiu posar en les primeres posicions les pàgines de més qualitat i que millor encaixen amb la cerca realitzada. Google aconsegueix aquest objectiu en la immensa majoria de les ocasions.

El problema per als que creem informació per la web és que no sabem quins són aquests factors d'ordenació. Google manté en secret aquest algoritme per evitar donar pistes a qui vol falsejar el rànquing, estalviar-se feina i posar pàgines fetes de mala manera, de baixa qualitat, en bones posicions. Fins a cert punt aquesta política pot ser comprensible, però què passa si aquests criteris no són equitatius, no són justos i no ens n'assabentem?

En aquest context, Google Scholar, el cercador de documents acadèmics de Google, és especialment interessant. Primer perquè el seu algoritme d'ordenació és més senzill que el de Google "normal" i després perquè s'ha comprovat que el nombre de cites rebudes és un factor positiu d'ordenació molt important. Aquesta constatació no és sorprenent, un article molt citat, segur que serà un article de qualitat.

Per arribar a aquest tipus de conclusions i descobrir com és l'algoritme d'ordenació, s'usa l'enginyeria inversa com a metodologia d'investigació. S'analitza un volum considerable de recerques, s'identifiquen les característiques que tenen els documents que apareixen en les primeres posicions i d'aquesta manera es pot inferir com és l'algoritme.

Utilitzant aquest procediment (Rovira, 2021), hem detectat que l'idioma dels documents és un factor determinant a Google Scholar quan les recerques tenen resultats en diferents idiomes. Els documents escrits en llengües que no són l'anglès apareixen majoritàriament a partir de la posició 900. Són absolutament invisibles a l'usuari final, fins i tot quan es tracta d'articles que reben milers de cites i que són referents en la seva disciplina. Accedir a la posició 900 implica avançar 90 pàgines en els llistats de resultats quan rarament els usuaris van més enllà de la tercera pàgina. Això passa només en les recerques multilingües, quan competeixen documents escrits en diversos idiomes, com per exemple quan busquem articles publicats en un determinat any o en recerques per paraules clau que tenen la mateixa ortografia en diversos idiomes, com marques comercials, productes industrials, compostos químics, sigles, medicaments, malalties... o la covid, sense anar més lluny.

Én aquest punt reprenem la pregunta que ens fèiem a el principi: què passa quan l'ordenació automàtica no és neutra? L'opacitat de Google impedeix saber si aquest biaix és accidental o és el resultat d'un algoritme dissenyat específicament per afavorir la bibliografia en anglès. Probablement sigui un descuit, les recerques multilingües no han de ser una preocupació important per als enginyers de Google Scholar. Sigui o no un error involuntari, aquest tipus d'investigacions posa en evidència situacions anòmales d'un algoritme ocult que caldria corregir. Fins que aquest biaix no se solucioni, investigadors de tot el món de parla no anglesa poden pensar erròniament que no hi ha articles en la seva llengua quan realitzen recerques amb resultats multilingües.

Referències:

Beus, J. (2021, 2 febrero). ¿Por qué (casi) todo lo que sabías sobre CTR en Google ya no es cierto? SISTRIX. https://www.sistrix.es/blog/lo-que-sabias-sobre-ctr-y-google/

Rovira, C., Codina, L., & Lopezosa, C. (2021). Language Bias in the Google Scholar Ranking Algorithm. Future Internet, 13(2), 31. https://doi.org/10.3390/fi13020031

Sterling, G., & Sterling, G. (2019, 18 septiembre). Organic search responsible for 53% of all site traffic, paid 15% [Study]. Search Engine Land. https://searchengineland.com/organic-search-responsible-for-53-of-all-site-traffic-paid-15-study-322298

Universitat Pompeu Fabra

Google Scholar, algoritme ocult i injustícies. Cristòfol Rovira

Multimedia

Categories:

SDG - Sustainable Development Goals:

Contact