Catherine Pelachaud: “Els agents virtuals poden servir per recopilar informació de pacients o usuaris, que pot ser útil per als professionals”
Catherine Pelachaud: “Els agents virtuals poden servir per recopilar informació de pacients o usuaris, que pot ser útil per als professionals”
Catherine Pelachaud: “Els agents virtuals poden servir per recopilar informació de pacients o usuaris, que pot ser útil per als professionals”
Catherine Pelachaud és una científica especialitzada en agents virtuals intel·ligents, que poden interactuar amb les persones tant a partir del llenguatge verbal com dels gestos o les expressions facials i corporals. Recentment, va ser una de les ponents convidades al 1r Simposi Internacional de Comunicació Multimodal, celebrat a finals d’abril al campus del Poblenou de la UPF.
Catherine Pelachaud és una de les directores de recerca al Centre Nacional Francès per a la Investigació Científica (CNRS) i forma part de l’Institut dels Sistemes Intel·ligents i de la Robòtica (ISIR), vinculat al CNRS i a la Universitat de la Sorbona. Especialitzada en la interacció entre les persones i les màquines, ha centrat gran part de la seva recerca en els agents virtuals intel·ligents. Doctorada en Computació Gràfica per la Universitat de Pensilvània (1994), va dissenyar el seu primer agent conversacional animal fa més de dues dècades i, des d’aleshores, ha liderat diversos projectes de recerca en aquest camp.
La seva tasca l’ha fet mereixedora de diversos reconeixements, com el premi de recerca en l’àmbit de la intel·ligència artificial que l’ACM -la major associació del món de l’àmbit de la tecnologia informàtica- li va atorgar l’any 2015. L’any següent, la Universitat de Ginebra també li va concedir el títol de doctora honoris causa.
Pelachaud va participar al 1r Simposi Internacional de Comunicació Multimodal,celebrat al campus del Poblenou del 26 al 28 d’abril i organitzat pel grup de recerca GrEPG (Grup d’Estudis de Prosòdia i Gestualitat) del Departament de Traducció i Ciències del Llenguatge de la UPF i la xarxa GEHM (Gestures and Head Movements in Language) de la Universitat de Copenhagen. Durant el simposi, vam tenir l’oportunitat de conversar amb ella.
Durant els darrers mesos, hem sentit molt a parlar d’un d’assistent virtual concret, el xatGPT, per a la generació automàtica de textos. Però vostè està especialitzada en la recerca sobre assistents virtuals que també imiten i reprodueixen els gestos i les expressions corporals de les persones. Per què cal que els assistents virtuals tinguin en compte altres dimensions de la comunicació humana, més enllà del llenguatge verbal i textual?
Perquè aquests agents virtuals són per interactuar amb els usuaris i les persones, quan parlem, utilitzem el llenguatge verbal, però també els gestos, la prosòdia (entonació), l'expressió facial, el moviment del cap… Aquests gestos són molt importants per als parlants, perquè els seus interlocutors els comprenguin bé i perquè es generi empatia. Si parlessis sense moure res, seria molt avorrit i es perdria molta informació. Un gest pot ajudar a afegir alguna informació addicional, per exemple, quan descrius una cosa, pots fer algun senyal icònic. Així doncs, aquestes expressions tenen moltes funcions en una interacció i, per tant, és important que els agents virtuals els tinguin en compte.
Però què significa que un assistent virtual pot reproduir i interpretar les nostres emocions? Com se l’entrena per fer-ho?
La teva pregunta inclou dues qüestions. La primera és aprendre com s’expressen les emocions humans, per exemple, quan una persona, dos interlocutors… s’expressen amb un somriure, un moviment del front o del cos… Ara, tenim les eines per detectar i analitzar aquests senyals. Però la seva adaptació (perquè l’assistent virtual les faci servir) requereix la seva interpretació. Aquesta és la segona qüestió. Com es pot interpretar que un somriure és un senyal de felicitat? Podria no ser-ho, vull dir que, de vegades, emmascarem una emoció. És una qüestió d’interpretació, que pot ser bastant complexa, perquè la interpretació depèn del context d’interacció. Per a l’anàlisi, la detecció… penso que tenim eines que estan funcionant a temps real força bé, però, per a la interpretació, que és molt més dependent del context, encara cal seguir treballant.
Es poden construir models per reproduir expressions humanes a través del mockup data (model d’anàlisi que permet analitzar i testejar estructures o moviments, per exemple a través d’imatges en moviment o gifs animats) o de videoanàlisi. El més important és la comprensió i modelatge de les expressions en un moment concret. No es pot interpretar una expressió del no-res. S'ha de fer en un moment determinat, depenent del que l'usuari estigui dient i com ho estigui dient.
Si la interpretació de les expressions depèn del context, també estarà condicionada per factors culturals. Els assistents virtuals tenen prou en compte les diferències culturals en l’actualitat?
Molts models estan basats en el llenguatge nord-americà. Però també hi ha models que s’han construït al Japó, França, Alemanya, Espanya… Això implica que s’estan generant models que tenen diferències culturals, perquè s’han entrenat amb dades recollides en cadascun d’aquests països. Però no s’han concebut com a models culturals (que es puguin transferir a d’altres països amb què es comparteixen trets culturals). Per exemple, si es construeix un model amb dades recollides a França pot ser que no sigui transferible a Espanya. Això encara no ho sabem fer. Sens dubte, hem d’anar més lluny per adaptar millor els assistents virtuals a cada context cultural.
“Ara, la recerca se centra molt més en la interacció (…). L'agent haurà de gestionar millor el seu torn, és a dir, començar a parlar quan li correspongui; haurà de ser un oient actiu quan tu estàs parlant; mostrar amb la seva actitud si està d’acord o no amb el que dius…”
Vostè va dissenyar el seu primer agent conversacional, Greta, l’any 1999. Com valora l’evolució dels assistents virtuals des de llavors?
Al principi, la recerca estava focalitzada en els gestos que es fan servir per a l’avaluació clínica (també poden servir per al diagnòstic de malalties), com ara els gestos que fem servir quan parlem; la prosòdia (l’entonació), per exemple quan posem l’accent en determinades expressions o frases… Se centrava en aconseguir que l’agent virtual fos capaç de fer servir el llenguatge verbal i no verbal i que associés els gestos a una intenció determinada.
Ara, la recerca se entra molt més en la interacció. Durant la interacció, l'agent haurà de gestionar millor el seu torn, és a dir, començar a parlar quan li correspongui; haurà de ser un oient actiu quan tu estàs parlant; mostrar amb la seva actitud si està d’acord o no amb el que dius…
També s’ha de treballar millor en l’adaptació, per exemple pel que fa a la coherència en els estils del llenguatge de l’agent virtual i del seu interlocutor humà. És a dir, que si un humà fa servir un registre més formal, l’assistent també faci servir un registre més formal (o la inversa). Hi ha diferents tipus d’adaptació de l’agent, que són necessaris en una interacció.
Com han contribuït fins ara les tècniques d’aprenentatge automàtic de la intel·ligència artificial a desenvolupar assistents virtuals i com poden fer-ho en el futur?
Hem treballat i estem treballant molt amb aquests nous instruments i models per elaborar els nostres patrons, per exemple, per a l’anàlisi computacional dels gestos. Tot això es fa a través de l'enfocament de l’aprenentatge automàtic. Quan vols generar una nova frase, el que fas es calcular amb ordinador els gestos que hi estan associats. A partir d’un model que es construeix imatge per imatge, s’arriba a construir una animació molt fluida, on l’assistent sembla expressar-se de forma molt natural i expressiva.
Tot i això, aquests models encara no capten prou bé la semàntica dels gestos (les intencions que es volen expressar amb cadascun d’ells). En aquest sentit, els nous models perden informació respecte als models previs pel que fa a la semàntica del gest. Els models inicials se centraven en la vessant més informativa dels gestos (en la relació entre el gest i la seva intenció). Per tant, ara el repte és generar models d’assistent virtual que captin bé la semàntica del gest i que alhora semblin naturals.
Els assistents virtuals també han fet servir tècniques de reconeixement facial. En què consisteixen aquestes tècniques i com són capaces de captar la nostra expressivitat facial?
Algunes de les tècniques de reconeixement facial funcionen a partir de la detecció d’elements del llenguatge no verbal. Per exemple, el sistema FACS (Facial Action Coding System), definit pel psicòleg Paul Ekman, ha identificat més de 40 unitats d’acció per descriure expressions facials per transmetre emocions, per exemple, un somriure, el moviment que es fa en arrufar les celles… Els models computacionals són entrenats per reconèixer cadascuna d’aquestes unitats d’acció, i poden fer-ne seguiment. També hi ha tècniques basades en la imatge, que poden ser utilitzades per detectar també aquestes unitats d’acció o moviments facials.
"Alguns estudis han demostrat que les entrevistes amb assistents mèdics virtuals proporcionen respostes similars, i en algunes ocasions fins i tot millors, que les que aconsegueixen els professionals humans (…). Però això no vol dir que l’agent sigui un terapeuta. Els agents virtuals poden servir per recopilar informació de pacients o usuaris, que poden ser útils per als professionals”
Els actuals assistents virtuals no són només capaços d’imitar les emocions humanes, sinó també de modificar-les, cosa que té tant un potencial positiu com possibles riscos. Si ens fixem en la part positiva, podria posar algun exemple dels beneficis socials que poden aportar aquests agents virtuals?
Hi ha aplicacions que capten informació de les persones en interactuar-hi i que, d’alguna manera, poden mostrar empatia i comprensió cap als humans. La interacció amb aquests agents virtuals pot facilitar que les persones expressin les seves emocions, cosa que pot ser beneficiós per a les persones que passen per una depressió, per exemple. Alguns estudis han demostrat que les entrevistes amb assistents mèdics virtuals proporcionen respostes similars, i en algunes ocasions fins i tot millors, que les que aconsegueixen els professionals humans. En aquests casos, una de les hipòtesis existents per explicar-ho és que els éssers humans no se senten jutjats per l’agent virtual, front a la vergonya que poden passar quan són atesos per una persona. Però això no vol dir que l’agent sigui un terapeuta. Els agents virtuals poden servir per recopilar informació de pacients o usuaris, que poden ser útils als professionals.
“És una qüestió que ens ha de fer reflexionar sobre molts aspectes ètics, ja que es podria manipular a través dels agents virtuals (…) Tu pots manipular a través dels mitjans, les fake news, les imatges trucades... Però, amb els agents virtuals, s’incrementa el risc perquè la relació amb les persones serà interactiva"
Què pensa dels riscos associats als assistents virtuals que poden incidir sobre el nostre estat emocional?
Sí, sens dubte, hi ha riscos potencials. És una qüestió que ens ha de fer reflexionar sobre molts aspectes ètics, ja que es podria manipular a través dels agents virtuals. De fet, això ja es pot fer amb d’altres eines actuals. Tu pots manipular a través dels mitjans, les fake news, les imatges trucades... Però, amb els agents virtuals, s’incrementa el risc perquè la relació amb les persones serà interactiva. Per exemple, la persona que interlocuta amb l’agent virtual pot tenir la impressió que l’assistent és el seu amic i la màquina pot arribar a acumular un gran coneixement de la persona. Això comporta riscos extrems pel que fa a la manipulació.
I com es poden prevenir aquests riscos?
Encara no hi ha solucions. Algunes persones consideren que els agents s’haurien de presentar: “No soc un humà, soc un agent”. Després, s’haurien de promoure algunes lleis sobre com i on s’han d’utilitzar aquests agents. Però també crec que és molt important que els usuaris humans siguin conscients dels riscos d’utilitzar aquests agents.
Tot i això, també tenen força beneficis, com les aplicacions mèdiques que acabem de mencionar. És molt important. Quan els pacients humans conversen amb l’agent virtual, hi ha una relació mútua que es va construint durant la interacció, perquè els humans proporcionen més informació sobre si mateixos, sobre el seu estat mental, el seu estat emocional... Tot depèn de com es faci servir l’agent, perquè també se’n fan mals usos, com també veiem actualment.
“En aquestes interaccions, els agents virtuals recopilen dades personals i aquestes dades personals també es podrien transferir a una companyia d’assegurances, a un empresari… El que vull dir és que la protecció de dades és realment un tema important (...) També cal avançar en la regulació d’aquest tema”
Pel que fa a la protecció de dades personals, quins riscos implica el desenvolupament d’aquests agents virtuals?
Sí, hi ha un gran risc també en aquest camp. Per exemple, imaginem que tens un agent virtual que es desplaça (virtualment amb tu). Això pot ser positiu, per exemple, si tens alguna forma de depressió, per parlar dels teus problemes, per fer teràpia… Però, en aquestes interaccions, els agents virtuals recopilen dades personals i aquestes dades personals també es podrien transferir a una companyia d’assegurances, a un empresari… El que vull dir és que la protecció de dades és realment un tema important. És absolutament crucial. També cal avançar en la regulació d’aquest tema.
“Hi ha força aplicacions en què els assistents virtuals funcionen com a videotutorials per a l’aprenentatge. També hi ha aplicacions del tipus pregunta-resposta, que es poden aplicar en l’àmbit comercial”
Molts de nosaltres hem sentit a parlar d’Alexa, Siri…, assistents virtuals de veu que ofereixen ajuda i orientació personalitzada. Però amb quines finalitats es poden fer servir assistents virtuals en l’actualitat?
Hi ha moltes aplicacions, les de salut que ja hem mencionat, però també n’hi ha d’educatives, per exemple hi ha força aplicacions en què els assistents virtuals funcionen com a videotutorials per a l’aprenentatge. També hi ha aplicacions del tipus pregunta-resposta, que es poden aplicar en l’àmbit comercial (per resoldre preguntes dels consumidors).
Hi ha jocs educatius, que són aplicacions que utilitzen la tecnologia dels videojocs però amb finalitats formatives. Per exemple, pots tenir jocs educatius que capacitin les persones per parlar davant d’una gran audiència i que poden ser útils per preparar conferències o entrevistes, com la que estem fent ara mateix; o processos selectius, per exemple per millorar en l’exposició del teu treball o el teu rol en un debat amb d’altres persones. Algunes persones són molt tímides... i la tecnologia facilitada per aquests agents virtuals els pot resultat molt útil. Pots manipular l'agent virtual perquè sigui amable, dominant, agressiu... o el que tu vulguis i pots entrenar la persona per interactuar amb cada tipus d'agent.
Sobre aquest tema, fa 10 anys, vam desenvolupar un projecte de la UE amb l’objectiu de fer videojocs que servissin per entrenar les persones joves a fer entrevistes de feina. S’adreçava a joves amb dificultats a l’hora de fer aquestes entrevistes, per ajudar-los a transmetre una millor imatge davant de diferents tipus de reclutadors.
També hi ha agents virtuals que fan servir les empreses en els processos selectius. Què opina sobre l’ús d’agents virtuals en entrevistes i processos de selecció i els riscos que això comporta?
Els riscos depenen de si les decisions les pren l’agent virtual o no. Si l’agent virtual serveix per recollir informació dels candidats, però la decisió (sobre a qui es contracta, supera una fase del procés selectiu…) la pren un humà, poden ser una bona eina. Però si la decisió la pren l’agent virtual, aquest és un tema arriscat. També hi ha algunes eines automàtiques desenvolupades per algunes empreses per filtrar els vídeos que els envien els candidats a un lloc treball. Les empreses demanen vídeos a les persones candidates. Són vídeos on s’han de gravar a elles mateixes responent algunes preguntes. Les eines automàtiques, a partir d’aquests vídeos, d’alguna manera ja fan la classificació dels candidats. Però aquí no hi intervenen els agents virtuals.
En termes generals, com resumiria el que s’ha assolit fins ara en el camp de la intel·ligència artificial, en relació als assistents virtuals, i el que encara resta per fer?
Un dels principals avenços dels darrers temps té a veure amb la representació, dels agents virtuals i és la capacitat de mostrar-los en tres dimensions. Això ha estat una millora enorme, en termes d’imatge. És increïble com de reals poden arribar a ser. En canvi, no poden reproduir de forma tan realista aspectes no verbals del llenguatge. Per tant, ara el problema és que, si tu veus un agent virtual amb un aspecte super realista, també esperes que el seu comportament també ho sigui.
Això té a veure amb el concepte de ‘Vall incòmoda’ (terme que fa referència a la sensació d’incomoditat que les persones poden sentir davant dels robots humanoides que se semblen molt als humans, però que no són prou realistes en molts altres aspectes). Com més semblant és l’aspecte d’un agent virtual al d’una persona, més creixen les nostres expectatives sobre la seva capacitat d’actuar com un humà. Si no és així, ui! I és just aquí on ens trobem ara mateix. Per tant, o s’avança en millorar les habilitats no verbals i comportaments dels agents virtuals d’aspecte molt realista, o si no és millor potser utilizar models anteriors, d’aspecte menys realista, de manera que aspecte i comportament estiguin més equilibrats.
Encara hem d'escalar aquest cim. Necessitem treballar en els aspectes més relacionats amb els moviments dels agents virtuals, perquè adquireixen la capacitat de reaccionar a un somriure, a una mirada…, per poder millorar les seves interaccions amb els humans. Aquest és un aspecte crucial i encara no hi hem arribat. Però hem de fer més que això: també hem d’adaptar-los a les diferències culturals del llenguatge no verbal.
Les màquines poden simular emocions (...). Des d’aquest punt de vista, tenen alguna intel·ligència emocional, però això no són sentiments”
Des del moviment transhumanista, s’ha assegurat que les màquines seran capaces a finals d’aquesta dècada de tenir intel·ligència emocional i que la línia que separa humans i màquines serà cada vegada més fina. Les emocions seran sempre genuïnament humanes?
Els humans, com qualsevol ésser viu, també els animals, podem sentir emocions. Les màquines poden simular emocions. Poden interpretar d’alguna manera l’estat emocional dels usuaris, a partir de determinades expressions facials, verbals o qualitats vocals, i saber com respondre-hi. Des d’aquest punt de vista, tenen alguna intel·ligència emocional, però això no són sentiments. No tenen la capacitat de sentir, sinó que ho estan simulant.