Vés enrere ColWordNet incorpora i proposa les combinacions de paraules preferents inherents a la pràctica del llenguatge

ColWordNet incorpora i proposa les combinacions de paraules preferents inherents a la pràctica del llenguatge

Una extensió del recurs lèxic més emprat, WordNet, desenvolupat per membres del Grup de Recerca en Tractament Automàtic del Llenguatge Natural i que presentaran a la Conferència Internacional Coling 2016, a Osaka (Japó) el proper mes de desembre.

28.10.2016

 

En l’àmbit del processament del llenguatge natural, WorNet és el recurs lèxic probablement més conegut. WordNet és una base de dades lèxica en anglès que combina informació lexicogràfica (la que trobem en els diccionaris), com per exemple definicions i sinònims, amb informació semàntica, com per exemple la hiperonímia o terme general i abstracta que pot referir-se a un altre terme més específic i particular, per exemple descapotable i cotxe.

A la pràctica, WordNet és capaç de posar en relació els mots, com ara les paraules gat/felí, ford/cotxe i així successivament. Tots aquests aspectes són molt importants en Intel·ligència Artificial, atès que són crucials en el procés d’ensenyament i aprenentatge d’un sistema automàtic. Tenir en compte tots aquests aspectes de llenguatge fa que un enginy no humà sigui capaç de llegir un text de manera apropiada.

Però a la base de dades de referència WordNet li manca un aspecte molt important que és informació sobre col·locacions o combinacions preferents de paraules, una característica del llenguatge que els humans aprenem inductivament en la pràctica de la parla i que els diccionaris estàndard actuals no tenen pràcticament en compte. Membres del Grup de Recerca en Processament Automàtic del Llenguatge Natural (TALN) han creat una versió ampliada del WordNet, el ColWordNet que incorpora a la base de dades milions de relacions entre lexemes que formen part d'una col·locació.

Les col·locacions són un tipus d’unitat fraseològica, formada per elements que presenten una certa atracció mútua, una preferència combinativa, i tenen un significat transparent i composicional. Luis Espinosa-Anke, primer autor del treball, explica que “les col·locacions són combinacions entre paraules on d'alguna manera podriem dir que l'ús d'una ve condicionat per la presència d'altra”. Per exemple, mentre que en castellà diem “dar un paseo”, en anglès es diu “take a walk” i mai en castellà es parla en termes de “tomar un paseo”.

Aquest aspecte del llenguatge és el que els autors han introduït a la base de dades de referència WordNet, per tal de crear el ColWordNet perquè “no volem que una màquina digui “pluja gran” o “pluja colossal”, sinó volem que es refereixi a la “pluja intensa”, tot i que gran/colossal/intensa són termes molt propers, quasi sinònims, només un d’ells és el correcte quan es combina amb “pluja”” afegeix Espinosa-Anke.

Aquesta fixació existeix en les col·locacions i mesurar-la, en comparació amb altres sintagmes més gramaticalitzats, és una tasca complicada. ColWordNet no només llegeix col·locacions del diccionari McMillan Collocations Dictionary, a més, utilitza una tècnica d’aprenentatge automàtica per descobrir noves relacions col·locacionals entre conceptes del WordNet.

Ha estat una recerca que han dut a terme Luis Espinosa-Anke, Sara Rodríguez, Horacio Saggion, investigadors del TALN, Leo Wanner, cap del grup i investigador ICREA del Departament de Tecnologies de la Informació i les Comunicacions (DTIC), amb José Camacho-Collados de la Universitat Sapienza de Roma (Itàlia), i que presentaran a la 26a. Conferència Internacional sobre Lingüística Computacional (Coling 2016) que se celebrarà de l’11 al 16 de desembre del 2016 a Osaka (Japó).

Aquest treball ha estat parcialment finançat pels projectes europeus MULTISENSOR (FP7), KRISTINA (H2020), HARENES; i els nacionals Programa Unitat d’Excel·lència Maria de Maeztu i MINECO/FEDER; està molt en la línia que impulsa el Programa Estratègic DTIC-MdM de la promoció de la reproductibilitat, atès que els resultats, sempre que es possible, es publiquen en Creative Commons i llicències de tipus obert per tal de fomentar el seu ús.

Treball de referència:

Luis Espinosa-Anke, José Camacho-Collados, Sara Rodríguez-Fernández, Horacio Saggion, Leo Wanner (2016), “Extending WordNet Fine-Grained Collocational Information via Supervised Distributional Learning”, The 26th International Conference on Computational Linguistics (Coling 2016), 11-16 de desembre, Osaka (Japó)

Multimèdia

Categories:

ODS - Objectius de desenvolupament sostenible:

Els ODS a la UPF

Contact