Vés enrere Google Scholar invisibilitza els documents que no estan en anglès

Google Scholar invisibilitza els documents que no estan en anglès

Afecta articles científics, ponències i comunicacions a congressos, segons una investigació recent publicada a la revista Future Internet, a càrrec de Cristòfol Rovira, Lluís Codina i Carles Lopezosa, investigadors del Departament de Comunicació.

04.02.2021

Imatge inicial

La visibilitat dels articles científics, ponències o comunicacions a congressos està condicionada al fet que siguin trobats fàcilment en els cercadors acadèmics, especialment a Google Scholar. Per a això, en els últims anys s'està aplicant l'optimització dels motors de cerca o SEO en els cercadors acadèmics (ASEO) amb la finalitat d'optimitzar els documents perquè apareguin abans en els llistats de resultats.

Una investigació recent, publicada a Future Internet, ha determinat si l'idioma del document és un factor que intervé en l'algoritme d'ordenació dels resultats de les cerques a Google Scholar. Els autors del treball són Cristòfol RoviraLluís Codina i Carlos Lopezosa, membres del Departament de Comunicació de la UPF.

El Google Scholar relega a posicions que els fan totalment invisibles la immensa majoria (90%) dels documents en idiomes diferents de l'anglès

"Per dur a terme aquesta optimització és necessari avançar en el coneixement de l'algoritme d'ordenació per rellevància de Google Scholar per després, a partir d'aquest coneixement, fer més evidentes les característiques que ja tenen els documents i que encaixen amb els criteris d'ordenació", afirma Rovira, primer autor de l'estudi. Google Scholar, per evitar pràctiques fraudulentes, no explica com és aquest algoritme  i, per tant, aquest tipus d'investigacions esdevenen necessàries.

Per a l'estudi, els autors han aplicat una metodologia d'investigació d'enginyeria inversa basada en l'anàlisi estadística amb el coeficient de correlació de Spearman. S'ha analitzat una mostra de 45 recerques de 1.000 resultats (45.000 documents) de tres tipus: per autor, per paraules clau i per anys.

Es discriminen articles de qualitat amb centenars de cites

Els resultats obtinguts indiquen que quan es fa una cerca a Google Scholar amb resultats en diversos idiomes, la immensa majoria (90%) dels documents en idiomes diferents a l'anglès queden sistemàticament relegats a posicions que els fan totalment invisibles. Aquests documents ocupen gairebé sempre posicions per sobre del lloc 900 encara que siguin articles de qualitat que hagin rebut centenars de cites. Per tant, es pot afirmar que Google Scholar discrimina els documents que no són en llengua anglesa en recerques amb resultats multilingües.

La ignorància d'aquest factor pot estar perjudicant investigadors de tot el món de parla no anglesa

La ignorància d'aquest factor pot estar perjudicant investigadors de tot el món de parla no anglesa, ja que poden creure que no hi ha articles en la llengua materna al dur a terme recerques amb resultats multilingües.

"Això és així singularment en les recerques per any, les recerques amb resultats multilingües més freqüents. No obstant això, també passarà amb algunes paraules clau que es fan servir de la mateixa manera a tot el món, com ara marques comercials, compostos químics, productes industrials, sigles, medicaments, malalties, covid, sense anar més lluny", comenten els autors de l'estudi.

I afegeixen "d'altra banda, a la llum dels resultats, des d'un punt de vista enfocat a l'ASEO, resultarà evident que mentre no es solucioni aquest biaix, les possibilitats de posicionar-se en Google Scholar en les recerques multilingües augmenten de manera extrema si es publica en anglès ".

Gràfica dels resultats de l'estudi

El gràfic de dispersió que es mostra a munt resumeix els resultats de la investigació. Hi ha 45.000 punts, un per document. Els punts grisos representen els documents escrits en anglès, els vermells en altres llengües i els blaus són les mitjanes de les posicions.

El gràfic mostra com els articles escrits en llengües que no són l'anglès apareixen per sobre de la posició 900 en el rànquing de Google Scholar. Això és així encara que siguin documents de qualitat, tinguin centenars de cites rebudes i en el rànquing per nombre de cites ocupin bones posicions.

Els casos més cridaners són els punts vermells situats a l'extrem inferior dret. Corresponen a documents escrits en llengües diferents a l'anglès que tenen un rànquing pel nombre de cites inferior a 100 i un rànquing de Google Scholar superior a 900. Això vol dir que tots ells reben més de mil cites i apareixen a Google Scholar en les mateixes posicions que documents en anglès amb només desenes de cites.

Article de referència:

Cristòfol Rovira, Lluís Codina, Carlos Lopezosa (2021),  "Language Bias in the Google Scholar Ranking Algorithm." Future Internet 13.2 (2021): 31. https://doi.org/10.3390/fi13020031 

Multimèdia

Categories:

ODS - Objectius de desenvolupament sostenible:

Els ODS a la UPF

Contact

Per a més informació

Notícia publicada per:

Oficina de Comunicació