Vés enrere Com la lingüística computacional ajuda a entendre el funcionament del llenguatge

Com la lingüística computacional ajuda a entendre el funcionament del llenguatge

Un article de Gemma Boleda, professora d’investigació ICREA del Departament de Traducció i Ciències del Llenguatge, en què ha fet una revisió crítica dels treballs existents sobre semàntica distribucional,  i que ha publicat a la revista Annual Review of Linguistics.

25.02.2020

Imatge inicial

La semàntica distribucional obté representacions del significat de les paraules a partir de processar milers de textos i extreure'n generalitzacions mitjançant algoritmes computacionals. Malgrat la popularitat de la semàntica distribucional en camps com lingüística computacional i la ciència cognitiva, el seu impacte en lingüística teòrica fins ara ha estat molt limitat.

El treball de Gemma Boleda, cap del grup de recerca en Lingüística Computacional i Teoria del Llenguatge (COLT) i professora d’investigació ICREA del Departament de Traducció i Ciències del Llenguatge de la UPF, publicat a la revista  Annual Review of Linguistics, aporta un revisió crítica dels abundants treballs disponibles sobre semàntica distribucional, posant especial èmfasi en els resultats que són rellevants per a la lingüística teòrica, concretament en tres àmbits: canvi semàntic, polisèmia i composició, i interfície gramàtica-semàntica.

La recerca de Gemma Boleda té com a objectiu posar en connexió enfocaments teòrics i computacionals per avançar en el coneixement col·lectiu sobre el funcionament del llenguatge. Un dels mètodes que ha investigat extensivament és el de la semàntica distribucional, que permet obtenir representacions de paraules de manera automàtica. S'ha demostrat que aquestes representacions reflecteixen propietats lingüístiques significatives, com ara com són de similars dues paraules: una persona et dirà que "gos" i "cadell" són molt semblants, i en canvi "gos" i "democràcia" no ho són gaire; la semàntica distribucional dirà el mateix, gràcies al fet que indueix propietats lingüístiques a partir de textos escrits per persones. Per això, la semàntica distribucional proporciona representacions radicalment empíriques.

"He defensat que la naturalesa multidimensional i empírica de les representacions són aspectes clau que contribueixen a l'èxit de la semàntica distribucional", explica la autora

La semàntica distribucional permet analitzar l’ús de les paraules i l’evolució del seu significat

La semàntica distribucional proporciona un marc atractiu i complementari a altres mètodes més tradicionals, no només pel fet que és radicalment empírica sinó també pel fet que proporciona representacions multidimensionals: dues paraules es poden assemblar en una dimensió de significat ("pizza" i "pasta" són tipus de menjar), o en una altra ("pizza" i "roda" són rodons). Per representar tots els aspectes de significat, calen representacions multidimensionals. La semàntica distribucional pot capturar els usos comuns de dues paraules,  així com també els seus factors diferencials.

Una de les aplicacions rellevants de la semàntica distribucional a la lingüística teòrica és la detecció de canvis de significat. Si es processen dades lingüístiques d'èpoques diferents, com ara llibres en anglès del 1900, del 1950, i del 1990, es pot fer servir la semàntica distribucional per detectar automàticament el canvi de significat que presenten algunes paraules . Per exemple, la paraula "gay" en anglès a principis del segle passat volia dir "alegre", i progressivament s'ha anat utilitzant més per voler dir "homosexual".

Aspectes de la recerca en semàntica distribucional que contribueixen a la teoria del llenguatge

De l’anàlisi dels treballs estudiats en el seu estudi conclou Boleda que hi ha suficient evidència per a què els sòlids resultats obtinguts en semàntica distribucional es puguin importar directament a la recerca en lingüística teòrica.

"Hi ha almenys quatre aspectes de la recerca en semàntica distribucional que poden contribuir a la teoria lingüística. El primer aspecte és l’exploratori: les representacions distribucionals es poden utilitzar per explorar dades a gran escala, per exemple examinant les relacions de similitud entre paraules. El segon és com a eina per identificar casos de fenòmens lingüístics específics. Per exemple, es poden identificar paraules que han canviat de significat comparant les representacions obtingudes a partir de textos de diferents èpoques. El tercer és com a banc de proves: avaluant diferents hipòtesis lingüístiques en termes distribucionals. El quart, i més difícil, és el descobriment de nous fenòmens lingüístics o tendències teòriques rellevants en les dades", explica en el seu treball l’autora.

Treball de referencia:

Gemma Boleda (2020), “Distributional Semantics and Linguistic Theory”, Annual Review of Linguistics, gener, vol (6), pàgs. 213-234, https://doi.org/10.1146/annurev-linguistics-011619-030303

Multimèdia

Categories:

ODS - Objectius de desenvolupament sostenible:

Els ODS a la UPF

Contact

Per a més informació

Notícia publicada per:

Oficina de Comunicació