Atrás ColWordNet, incorpora y propone las combinaciones de palabras preferentes inherentes a la práctica del lenguaje

ColWordNet, incorpora y propone las combinaciones de palabras preferentes inherentes a la práctica del lenguaje

Una extensión del recurso léxico más utilizado, WordNet, desarrollado por miembros del Grupo de Investigación en Tratamiento Automático del Lenguaje Natural y que presentarán en la Conferencia Internacional Coling 2016, en Osaka (Japón) el próximo mes de diciembre.

28.10.2016

 

En el ámbito del procesamiento del lenguaje natural, WorNet es el recurso léxico probablemente más conocido. WordNet es una base de datos léxica en inglés que combina información lexicográfica (la que encontramos en los diccionarios), como por ejemplo definiciones y sinónimos, con información semántica, como por ejemplo la hiperonimia o término general y abstracto que puede referirse a otro término más específico y particular, por ejemplo descapotable y coche.

En la práctica, WordNet es capaz de poner en relación las palabras, como las palabras gato / felino, ford / coche y así sucesivamente. Todos estos aspectos son muy importantes en Inteligencia Artificial dado que son cruciales en el proceso de enseñanza y aprendizaje de un sistema automático. Tener en cuenta todos estos aspectos de lenguaje hace que un ingenio no humano sea capaz de leer un texto de manera apropiada.

Pero en la base de datos de referencia WordNet le falta un aspecto muy importante que es información sobre colocaciones o combinaciones preferentes de palabras, una característica del lenguaje que los humanos aprendemos inductivamente en la práctica del habla y que los diccionarios estándar actuales no tienen prácticamente en cuenta. Miembros del Grupo de Investigación en Procesamiento Automático del Lenguaje Natural (TALN) han creado una versión ampliada del WordNet, el ColWordNet que incorpora a la base de datos millones de relaciones entre conceptos o colocaciones.

Las colocaciones son un tipo de unidad fraseológica, formada por elementos que presentan una cierta atracción mutua, una preferencia combinativa, y tienen un significado transparente y composicional. Luis Espinosa-Anke, primer autor del trabajo, explica que "las colocaciones son combinaciones entre palabras que de alguna manera podríamos decir que el uso de una viene condicionado por la presencia de la otra,  ”se obligan unas a otras"". Por ejemplo, mientras que en castellano hablamos de "dar un paseo", en inglés lo mismo se dice "take a walk" y nunca en castellano hablaríamos en términos de "tomar un paseo".

Este aspecto del lenguaje es lo que los autores han introducido en la base de datos de referencia WordNet, a fin de crear el ColWordNet porque "no queremos que una máquina diga" lluvia grande "o" lluvia colosal ", sino queremos que se refiera a la "lluvia intensa", aunque grande / colosal / intensa son términos muy próximos, casi sinónimos, sólo uno de ellos es el correcto cuando se combina con "lluvia" "añade Espinosa-Anke.

Esta fijación existe en las colocaciones y medirla, en comparación con otros sintagmas más gramaticalizados, es una tarea complicada. ColWordNet no sólo lee colocaciones del diccionario McMillan Collocations Dictionary, además utiliza una técnica de aprendizaje automático para descubrir nuevas relaciones colocacionales entre conceptos del WordNet.

Ésta ha sido una investigación que han llevado a cabo Luis Espinosa-Anke, Sara Rodríguez, Horacio Saggion, investigadores del TALN, Leo Wanner, jefe del grupo e investigador ICREA del Departamento de Tecnologías de la Información y las Comunicaciones (DTIC), con José Camacho-Collados de la Universidad Sapienza de Roma (Italia), y que presentarán en la 26ª Conferencia Internacional sobre Lingüística Computacional (Coling 2016) que se celebrará del 11 al 16 de diciembre de 2016 en Osaka (Japón).

Este trabajo, ha sido parcialmente financiado por los proyectos europeos MULTISENSOR (FP7), KRISTINA (H2020), HARENES; y los nacionales Programa Unidad de Excelencia María de Maeztu y MINECO / FEDER. Está muy en la línea que impulsa el Programa Estratégico DTIC-MdM en cuanto a la promoción de la reproducibilidad, dado que los resultados, siempre que sea posible, se publicaran en Creative Commons y licencias de tipo abierto para fomentar su uso.

Trabajo de referencia:

Luis Espinosa-Anke, José Camacho-Collados, Sara Rodríguez-Fernández, Horacio Saggion, Leo Wanner (2016), "Extending WordNet Fine-Grained Collocational Information vía Supervised Distributional Learning", The 26th International Conference on Computational Linguistics (Coling 2016), 11- 16 de diciembre, Osaka (Japón)

Multimedia

Categorías:

ODS - Objetivos de desarrollo sostenible:

Els ODS a la UPF

Contact