Desxifrant la ironia i la semàntica de les emoticones
Desxifrant la ironia i la semàntica de les emoticones
És la línia de recerca en què ha treballat Francesco Barbieri per a la seva tesi doctoral, sota la supervisió d'Horaci Saggion i que s'ha considerat la millor tesi doctoral en el 35è congrés de Societat Espanyola de Processament del Llenguatge Natural 2019, celebrat del 24 al 27 de setembre a la Universitat del País Basc.
La tesi Machine Learning Methods for Understanding Social Media Communication: Modeling Irony and emojis que va defensar Francesco Barbieri el 25 de gener de l'2018 a la Universitat Pompeu Fabra, estudia des d'una perspectiva computacional dos fenòmens importants per entendre la comunicació a la xarxa social Twitter: la detecció d'ironia i la comprensió de les emoticones o emojis. La tesi va ser dirigida per Horacio Saggion, coordinador del Large Scale Text Understanding Systems Lab i investigador del Grup de Recerca en Tractament del Llenguatge Natural (TALN) del Departament de Tecnologies de la Informació i les Comunicacions (DTIC) de la UPF.
Basant-se en mètodes d'aprenentatge automàtic i d’intel·ligència artificial, la tesi proposa sistemes de classificació per a la identificació de llenguatge figurat com ara la ironia. Aquesta recerca va guanyar el premi com a millor tesi doctoral, en el 35è. congrés de Societat Espanyola de Processament del Llenguatge Natural, celebrat del 24 al 27 de setembre del 2019 a la Universitat del País Basc.
Vam proposar nous sistemes automàtics, basats en algorismes d'aprenentatge automàtic, capaços de reconèixer i interpretar aquests dos fenòmens: ironia i emoticones
Com expliquen Saggion i Barbieri: "vam proposar nous sistemes automàtics, basats en algorismes d'aprenentatge automàtic, capaços de reconèixer i interpretar aquests dos fenòmens. La detecció d'ironia es va abordar com a un problema de classificació binària, on, donat un tweet, la tasca va ser reconèixer si el tweet era irònic o no. Per resoldre aquesta tasca, vam proposar un enfocament d'aprenentatge automàtic en el qual un tweet es representa amb diverses característiques calculades segons la seva longitud i nombre de paraules
Vam poder reconèixer automàticament si un tweet pertanyia a un compte de Twitter satíric o no satíric
També vam provar el nostre enfocament de detecció d'ironia per reconèixer si una publicació de notícies a Twitter era satírica o real, i en diversos idiomes: anglès, espanyol i italià, i vam obtenir resultats significatius. Vam poder reconèixer automàticament si un tweet pertanyia a un compte satíric de Twitter o no", afegeix Barbieri.
A més, la tesi proposa, utilitzant mètodes de semàntica distribucional, un model per estudiar la semàntica dels emojis. Per a això Barbieri ha explorat si el significat i l'ús dels emojis varien d'un idioma a un altre i de quina manera, així com també si aquesta variació es veu afectada segons sigui l'època de l'any (primavera, estiu, tardor o hivern). "Per a això, utilitzem models semàntics distribucionals per representar el significat dels emojis en cada idioma, ubicació i estació, respectivament", comenta el seu autor.
El significat dels emojis pot variar segons idioma i època de l'any
Els resultats posen de manifest que alguns emojis tenen diferents significats en diferents països o èpoques de l'any. Com indica Barbieri, això està en línia amb moltes troballes anteriors que suggerien que els emojis s'usen d'una manera molt subjectiva i que els interpretem de manera diferent.
Per exemple, a Espanya, l’emoticona del trèvol ? s'usa en un context d'amistat i d’amor, mentre que en altres països s'usa principalment en relació amb la sort i el símbol d'Irlanda
"Els nostres resultats suggereixen que fins i tot encara que la semàntica general de l'emoji sigui similar en diferents idiomes, hem pogut identificar alguns d’ells que no s'usen de la mateixa manera en un idioma o en un altre", aquest fet podria estar relacionat amb les diferències culturals que existeixen entre països, indiquen.
Per exemple, l’emoticona del trèvol ? s'usa en un context d'amistat i d'amor a Espanya, mentre que en altres països s'usa principalment en relació amb la sort i el símbol d'Irlanda. Pel que fa a variacions del significat segons les estacions de l’any, "vam descobrir que fins i tot encara que la majoria dels emojis conserven la seva semàntica, s'identifiquen diferències específiques. Dos exemples són els emojis de regal ? i de pi ?, que a l'hivern es fan servir com emojis relacionats amb el Nadal però que a la primavera i a l'estiu es fan servir per assenyalar un regal d'aniversari i un arbre, respectivament".
Aquest treball de recerca podria ser útil en futurs estudis per comprendre el llenguatge de les xarxes socials. "En el futur, estem planejant realitzar anàlisis més extensos per detectar i interpretar automàticament diferències més fines en la semàntica dels emojis", comenta Barbieri.
Detectar canvis en la semàntica a temps real segons esdeveniments i tendències socials; investigar a fons el significat compositiu dels emojis, o predir les emoticones més probables a aplicar a un text, són alguns dels temes a desenvolupar d'aquesta línia d'investigació. "Aquesta no és una tasca fàcil, ja que hem vist que els emojis s'usen d'una manera molt subjectiva, i tots els fem servir de manera diferent", conclou Barbieri.
Treball de referència:
Francesco Barbieri (2018), Machine Learning Methods for Understanding Social Media Communication: Modeling Irony and emojis, tesi doctoral dirigida per Horacio Saggion, defensada el 25 de gener a la Universitat Pompeu Fabra. Millor tesi doctoral segons la Societat Espanyola per al Processament del Llenguatge Natural 2019. Publicada al repositori TDX.