Per què les IA generatives més populars fan errades en català?: la influència del castellà en el seu model d’entrenament n’és una de les principals causes

Un estudi pioner de la UPF insta els responsables de la política lingüística a avaluar l’impacte de les eines d’IA generativa en el futur del català per prendre decisions informades.
26.02.2026

Imatge inicial - Imatge de recurs (CC0).

Un estudi de la Universitat Pompeu Fabra (UPF) adverteix que algunes de les eines d’IA generativa més populars estan contribuint a propagar formes no normatives del català i que la influència del castellà en el seu model d’entrenament n’és una de les principals causes. Els resultats de l’estudi donen un toc d’alerta als responsables de la política lingüística, per tal que avaluïn i tinguin en compte l’impacte d’aquestes tecnologies en el futur de la llengua catalana per prendre decisions informades.

L’estudi explica que els models lingüístics d’aquestes eines d’IA generatives estan esbiaixats, ja que afavoreixen l’ús de les estructures gramaticals i del lèxic de les llengües amb més parlants (anglès, espanyol…), que han constituït la base del seu entrenament. Fins ara, diversos estudis havien constatat la seva preferència per les estructures en anglès, però aquesta recerca de la UPF ha estat pionera a demostrar que també existeix un biaix cap al castellà, que porta els models d’IA generativa a fer un ús no normatiu del català.

Les conclusions de l’estudi s’exposen en l’article “Norma, ús i interferència: biaixos lingüístics en els models de llenguatge en català”, publicat recentment a la revista Linguamática, revista especialitzada de tecnologies del llenguatge. L’investigador principal de l’estudi és Thomas Brochhagen, del grup de recerca Computational Linguistics and Linguistic Theory (COLT) del Departament de Traducció i Ciències del Llenguatge de la UPF, que ha elaborat l’article juntament amb Mireia Almena Rodríguez, també vinculada a COLT. Donada la temàtica de l’estudi, els seus autors l’han publicat en llengua catalana.

Per a la investigadora Mireia Almena, “aquests models d’IA no només reprodueixen el llenguatge, sinó que també influencien la seva evolució i poden tenir un impacte molt més gran en llengües com el català, amb menys volum de contingut escrit en mitjans digitals, que sobre d’altres idiomes amb més parlants i capacitat de producció de textos com l’anglès, l’espanyol o el xinès”. 

Per quina preposició es decanten sis models de llenguatge: per la normativa o per la no normativa?

Els investigadors han analitzat sis models tecnològics -Models de Llenguatge Extensos o LLMs per les seves sigles en anglès-, similars a aquells que empren algunes de les eines d’IA generativa més conegudes com ChatGPT o Gemini. Quatre d’aquests models eren multilingües, o capaços d’escriure en diverses llengües, i dos monolingües especialitzats en català. Cal tenir en compte que, fins i tot els models monolingües, han estat entrenats en altres llengües, ja sigui en etapes inicials del seu desenvolupament (abans d’afinar el seu ús cap a la llengua objectiu), o bé de manera no intencionada, perquè no s’han pogut depurar adequadament les bases de dades que fonamenten el seu aprenentatge. 

Concretament, s’han examinat les preferències d’aquests sis models cap a formes normatives i no normatives del català a partir d’un corpus d’avaluació de 160 oracions, corresponents a vuit estructures gramaticals diferents, que solen plantejar dubtes pel que fa a l’ús de la preposició adequada. Així doncs, entre dues alternatives de preposicions, els investigadors han estudiat si els models de llenguatge triaven o no la normativa. 

Algunes d’aquestes oracions poden donar peu a usos no normatius del català per influència del castellà, per exemple en el cas de l’ús o no de preposició davant d’objecte directe (OD). Per norma general, en castellà es fa servir proposició davant de l’OD (com a la frase “he visto al profesor”). En canvi, en català, la norma general és no fer-ne servir (seguint l’exemple anterior, la frase equivalent en català seria “He vist el professor). D’altres de les oracions examinades poden suscitar formes no normatives del català per altres factors aliens al castellà. Per exemple, es podria utilitzar incorrectament la preposició “de” en lloc de “a” en construir l’oració següent: “No soc gens propens a enfadar-me per bajanades”. Però, si algú fes servir “propens d’enfadar-me”, no seria per influència del castellà, ja que la preposició correcta seria igualment “a” en aquesta llengua (“propenso a”).

La recerca analitza el comportament dels models de llenguatge davant d’ambdós tipus d’oracions, per poder aïllar la influència del castellà d’altres factors que poden conduir a usos no normatius del català.

A l’hora de triar entre una preposició normativa i no normativa, les IA multilingües s’equivoquen en un 55% dels casos per influència del castellà i només en un 4% dels casos per altres motius.

Els resultats mostren que els models multilingües, corresponents a les eines d’IA generatives més populars, són els que utilitzen més formes no normatives del català per influència del castellà.  La probabilitat que es desviïn del català normatiu per aquest motiu és del 55% enfront del 27% dels models monolingües. En canvi, si s’examina la probabilitat mitjana de fer un ús no normatiu en català per altres motius aliens a la influència del castellà, els resultats de models monolingües i plurilingües són similars i, en ambdós casos, se situen entorn del 4%. 

A la vista d’aquests resultats, Thomas Brochhagen (UPF) conclou: “Els resultats de la recerca mostren la importància de verificar les preferències lingüístiques dels models de llenguatge, especialment en llengües minoritàries, per tal de tenir aquesta discussió de manera informada; per elaborar polítiques lingüístiques que tinguin en compte l’impacte de les noves tecnologies; i per actuar en conseqüència”.

Article de referència:

Almena Rodríguez, Mireia & Thomas Brochhagen (2026):  Norma, ús i interferència: biaixos lingüístics en els models de llenguatge en català. Linguamática. Vol. 18 (1). DOI: https://doi.org/10.21814/lm.18.1.497