Vés enrere Desxifrant la ironia i la semàntica de les emoticones

Desxifrant la ironia i la semàntica de les emoticones

És la línia de recerca en què ha treballat Francesco Barbieri per a la seva tesi doctoral, sota la supervisió d'Horaci Saggion i que s'ha considerat la millor tesi doctoral en el 35è congrés de Societat Espanyola de Processament del Llenguatge Natural 2019, celebrat del 24 al 27 de setembre a la Universitat del País Basc.

01.10.2019

Imatge inicial

La tesi Machine Learning Methods for Understanding Social Media Communication: Modeling Irony and emojis  que va defensar Francesco Barbieri el 25 de gener de l'2018 a la Universitat Pompeu Fabra, estudia des d'una perspectiva computacional dos fenòmens importants per entendre la comunicació a la xarxa social Twitter: la detecció d'ironia i la comprensió de les emoticones o emojis. La tesi va ser dirigida per Horacio Saggion, coordinador del Large Scale Text Understanding Systems Lab i investigador del Grup de Recerca en Tractament del Llenguatge Natural (TALN) del Departament de Tecnologies de la Informació i les Comunicacions (DTIC) de la UPF.

Basant-se en mètodes d'aprenentatge automàtic i d’intel·ligència artificial, la tesi proposa sistemes de classificació per a la identificació de llenguatge figurat com ara la ironia. Aquesta recerca va guanyar el premi com a millor tesi doctoral, en el 35è. congrés de Societat Espanyola de Processament del Llenguatge Natural, celebrat del 24 al 27 de setembre del 2019 a la Universitat del País Basc.

Vam proposar nous sistemes automàtics, basats en algorismes d'aprenentatge automàtic, capaços de reconèixer i interpretar aquests dos fenòmens: ironia i emoticones

Com expliquen Saggion i Barbieri: "vam proposar nous sistemes automàtics, basats en algorismes d'aprenentatge automàtic, capaços de reconèixer i interpretar aquests dos fenòmens. La detecció d'ironia es va abordar com a un problema de classificació binària, on, donat un tweet, la tasca va ser reconèixer si el tweet era irònic o no. Per resoldre aquesta tasca, vam proposar un enfocament d'aprenentatge automàtic en el qual un tweet es representa amb diverses característiques calculades segons la seva longitud i nombre de paraules

Vam poder reconèixer automàticament si un tweet pertanyia a un compte de Twitter satíric o no satíric

També vam provar el nostre enfocament de detecció d'ironia per reconèixer si una publicació de notícies a Twitter era satírica o real, i en diversos idiomes: anglès, espanyol i italià, i vam obtenir resultats significatius. Vam poder reconèixer automàticament si un tweet pertanyia a un compte satíric de Twitter o no", afegeix Barbieri.

A més, la tesi proposa, utilitzant mètodes de semàntica distribucional, un model per estudiar la semàntica dels emojis. Per a això Barbieri ha explorat si el significat i l'ús dels emojis varien d'un idioma a un altre i de quina manera, així com també si aquesta variació es veu afectada segons sigui l'època de l'any (primavera, estiu, tardor o hivern). "Per a això, utilitzem models semàntics distribucionals per representar el significat dels emojis en cada idioma, ubicació i estació, respectivament", comenta el seu autor.

El significat dels emojis pot variar segons idioma i època de l'any

Els resultats posen de manifest que alguns emojis tenen diferents significats en diferents països o èpoques de l'any. Com indica Barbieri, això està en línia amb moltes troballes anteriors que suggerien que els emojis s'usen d'una manera molt subjectiva i que els interpretem de manera diferent.

Per exemple, a Espanya, l’emoticona del trèvol s'usa en un context d'amistat i d’amor, mentre que en altres països s'usa principalment en relació amb la sort i el símbol d'Irlanda

"Els nostres resultats suggereixen que fins i tot encara que la semàntica general de l'emoji sigui similar en diferents idiomes, hem pogut identificar alguns d’ells que no s'usen de la mateixa manera en un idioma o en un altre", aquest fet podria estar relacionat amb les diferències culturals que existeixen entre països, indiquen.

Per exemple, l’emoticona del trèvol ? s'usa en un context d'amistat i d'amor a Espanya, mentre que en altres països s'usa principalment en relació amb la sort i el símbol d'Irlanda. Pel que fa a variacions del significat segons les estacions de l’any, "vam descobrir que fins i tot encara que la majoria dels emojis conserven la seva semàntica, s'identifiquen diferències específiques. Dos exemples són els emojis de regal ? i de pi ?, que a l'hivern es fan servir com emojis relacionats amb el Nadal però que a la primavera i a l'estiu es fan servir per assenyalar un regal d'aniversari i un arbre, respectivament".

Aquest treball de recerca podria ser útil en futurs estudis per comprendre el llenguatge de les xarxes socials. "En el futur, estem planejant realitzar anàlisis més extensos per detectar i interpretar automàticament diferències més fines en la semàntica dels emojis", comenta Barbieri.

Detectar canvis en la semàntica a temps real segons esdeveniments i tendències socials; investigar a fons el significat compositiu dels emojis, o predir les emoticones més probables a aplicar a un text, són alguns dels temes a desenvolupar d'aquesta línia d'investigació. "Aquesta no és una tasca fàcil, ja que hem vist que els emojis s'usen d'una manera molt subjectiva, i tots els fem servir de manera diferent", conclou Barbieri.

Treball de referència:

Francesco Barbieri (2018), Machine Learning Methods for Understanding Social Media Communication: Modeling Irony and emojis,  tesi doctoral dirigida per Horacio Saggion, defensada el 25 de gener a la Universitat Pompeu Fabra. Millor tesi doctoral segons la Societat Espanyola per al Processament del Llenguatge Natural 2019. Publicada al repositori TDX.

Multimèdia

Perfils dels protagonistes:

Horacio Saggion

Categories:

ODS - Objectius de desenvolupament sostenible:

Els ODS a la UPF

Contact

Per a més informació

Notícia publicada per:

Oficina de Comunicació