Atrás Catherine Pelachaud: “Los agentes virtuales pueden servir para recopilar información de pacientes o usuarios, que puede ser útil para los profesionales”

Catherine Pelachaud: “Los agentes virtuales pueden servir para recopilar información de pacientes o usuarios, que puede ser útil para los profesionales”

Catherine Pelachaud es una científica especializada en agentes virtuales inteligentes, que pueden interactuar con las personas tanto a partir del lenguaje verbal como de los gestos o las expresiones faciales y corporales. Recientemente, fue una de las ponentes invitadas al I Simposio Internacional de Comunicación Multimodal, celebrado a finales de abril en el campus del Poblenou de la UPF.

12.05.2023

Imatge inicial

Catherine Pelachaud es una de las directoras de investigación en el Centro Nacional Francés para la Investigación Científica (CNRS) y forma parte del Instituto de los Sistemas Inteligentes y de la Robótica (ISIR), vinculado al CNRS y a la Universidad de la Sorbona. Especializada en la interacción entre las personas y las máquinas, ha centrado gran parte de su investigación en los agentes virtuales inteligentes. Doctorada en Computación Gráfica por la Universidad de Pensilvania (1994), diseñó su primer agente conversacional animal hace más de dos décadas y, desde entonces, ha liderado varios proyectos de investigación en este campo.

Su tarea la ha hecho merecedora de varios reconocimientos, como el premio de investigación en el ámbito de la inteligencia artificial que la ACM -la mayor asociación del mundo del ámbito de la tecnología informática- le otorgó en 2015. El año siguiente, la Universidad de Ginebra también le concedió el título de doctora honoris causa.

Pelachaud participó en el I Simposio Internacional de Comunicación Multimodal, celebrado en el campus del Poblenou del 26 al 28 de abril y organizado por el grupo de investigación GrEPG (Grupo de Estudios de Prosodia y Gestualidad) del Departamento de Traducción y Ciencias del Lenguaje de la UPF y la red GEHM (Gestures and Head Movements in Language) de la Universidad de Copenhagen. Durante el simposio, tuvimos la oportunidad de conversar con ella.

Durante los últimos meses, hemos oído mucho a hablar de un asistente virtual concreto, el ChatGPT, para la generación automática de textos. Pero usted está especializada en la investigación sobre asistentes virtuales que también imitan y reproducen los gestos y las expresiones corporales de las personas. ¿Por qué hace falta que los asistentes virtuales tengan en cuenta otras dimensiones de la comunicación humana, más allá del lenguaje verbal y textual?

Porque estos agentes virtuales son para interactuar con los usuarios y las personas, cuando hablamos, utilizamos el lenguaje verbal, pero también los gestos, la prosodia (entonación), la expresión facial, el movimiento de la cabeza… Estos gestos son muy importantes para los hablantes, para que sus interlocutores los comprendan bien y para que se genere empatía. Si hablaras sin mover nada, sería muy aburrido y se perdería mucha información. Un gesto puede ayudar a añadir alguna información adicional, por ejemplo, cuando describes una cosa, puedes hacer alguna señal icónica. Así pues, estas expresiones tienen muchas funciones en una interacción y, por lo tanto, es importante que los agentes virtuales las tengan en cuenta.

¿Pero qué significa que un asistente virtual puede reproducir e interpretar nuestras emociones? ¿Cómo se lo entrena para hacerlo?

Tu pregunta incluye dos cuestiones. La primera es aprender cómo se expresan las emociones humanas, por ejemplo, cuando una persona, dos interlocutores… se expresan con una sonrisa, un movimiento de la frente o del cuerpo… Ahora, tenemos las herramientas para detectar y analizar estas señales. Pero su adaptación (para que el asistente virtual las use) requiere de su interpretación. Esta es la segunda cuestión. ¿Cómo se puede interpretar que una sonrisa es una señal de felicidad? Podría no serlo. Lo que quiero decir es que, a veces, enmascaramos una emoción. Es una cuestión de interpretación, que puede ser bastante compleja, porque la interpretación depende del contexto de interacción. Para el análisis, la detección… pienso que tenemos herramientas que están funcionando a tiempo real bastante bien, pero, para la interpretación, que es mucho más dependiente del contexto, todavía hay que seguir trabajando.

Se pueden construir modelos para reproducir expresiones humanas a través del mockup  data (modelo de análisis que permite analizar y testear estructuras o movimientos, por ejemplo a través de imágenes en movimiento o gifs animados) o de videoanálisis. Lo más importante es la comprensión y modelado de las expresiones en un momento concreto. No se puede interpretar una expresión de la nada. Se tiene que hacer en un momento determinado, dependiendo de lo que el usuario esté diciendo y cómo lo esté diciendo.

Si la interpretación de las expresiones depende del contexto, también estará condicionada por factores culturales. ¿Los asistentes virtuales tienen suficientemente en cuenta las diferencias culturales en la actualidad?

Muchos modelos están basados en el lenguaje norteamericano. Pero también hay modelos que se han construido en Japón, Francia, Alemania, España… Esto implica que se están generando modelos que tienen diferencias culturales, porque se han entrenado con datos recogidos en cada uno de estos países. Pero no se han concebido como modelos culturales (que se puedan transferir a otros países con los que se comparten rasgos culturales). Por ejemplo, si se construye un modelo con datos recogidos en Francia, puede ser que no sea transferible a España. Esto todavía no lo sabemos hacer. Sin duda, tenemos que llegar más lejos para adaptar mejor los asistentes virtuales a cada contexto cultural.

“Ahora, la investigación se centra mucho más en la interacción (…). El agente tendrá que gestionar mejor su turno, es decir, empezar a hablar cuando le corresponda; tendrá que ser un oyente activo cuando tú estés hablando; mostrar con su actitud si está de acuerdo o no con lo que dices…”

Usted diseñó su primer agente conversacional, Greta, en 1999. ¿Cómo valora la evolución de los asistentes virtuales desde entonces?

Al principio, la investigación estaba focalizada en los gestos que se usan para la evaluación clínica (también pueden servir para el diagnóstico de enfermedades), como por ejemplo los gestos que usamos cuando hablamos; la prosodia (la entonación), por ejemplo cuando hacemos hincapié en determinadas expresiones o frases… Se centraba en conseguir que el agente virtual fuera capaz de usar el lenguaje verbal y no verbal y que asociara los gestos a una intención determinada.

Ahora, la investigación entra mucho más en la interacción. Durante la interacción, el agente tendrá que gestionar mejor su turno, es decir, empezar a hablar cuando le corresponda; tendrá que ser un oyente activo cuando tú estés hablando; mostrar con su actitud si está de acuerdo o no con lo que dices…

También se tiene que trabajar mejor en la adaptación, por ejemplo en cuanto a la coherencia de los estilos del lenguaje del agente virtual y de su interlocutor humano. Es decir, que si un humano usa un registro más formal, el asistente también use un registro más formal (o la inversa). Hay diferentes tipos de adaptación del agente, que son necesarios en una interacción.

¿Cómo han contribuido hasta ahora las técnicas de aprendizaje automático de la inteligencia artificial a desarrollar asistentes virtuales y cómo pueden hacerlo en el futuro?

Hemos trabajado y estamos trabajando mucho con estos nuevos instrumentos y modelos para elaborar nuestros patrones, por ejemplo, para el análisis computacional de los gestos. Todo esto se hace a través del enfoque del aprendizaje automático. Cuando quieres generar una nueva frase, lo que haces es calcular con ordenador los gestos que están asociados. A partir de un modelo que se construye imagen por imagen, se llega a construir una animación muy fluida, donde el asistente parece expresarse de forma muy natural y expresiva.

Aun así, estos modelos todavía no captan bastante bien la semántica de los gestos (las intenciones que se quieren expresar con cada uno de ellos). En este sentido, los nuevos modelos pierden información respecto a los modelos previos en cuanto a la semántica del gesto. Los modelos iniciales se centraban en la vertiente más informativa de los gestos (en la relación entre el gesto y su intención). Por lo tanto, ahora el reto es generar modelos de asistente virtual que capten bien la semántica del gesto y que a la vez parezcan naturales.

Los asistentes virtuales también han usado técnicas de reconocimiento facial. ¿En qué consisten estas técnicas y cómo son capaces de captar nuestra expresividad facial?

Algunas de las técnicas de reconocimiento facial funcionan a partir de la detección de elementos del lenguaje no verbal. Por ejemplo, el sistema FACS (Facial Action Coding System), definido por el psicólogo Paul Ekman, ha identificado más de 40 unidades de acción para describir expresiones faciales para transmitir emociones, por ejemplo, una sonrisa, el movimiento que se hace al fruncir el ceño… Los modelos computacionales son entrenados para reconocer cada una de estas unidades de acción, y pueden hacer seguimiento de ellas. También hay técnicas basadas en la imagen, que pueden ser utilizadas para detectar también estas unidades de acción o movimientos faciales.

"Algunos estudios han demostrado que las entrevistas con asistentes médicos virtuales proporcionan respuestas similares, y en algunas ocasiones incluso mejores, que las que consiguen los profesionales humanos (…). Pero esto no quiere decir que el agente sea terapeuta. Los agentes virtuales pueden servir para recopilar información de pacientes o usuarios, que pueden ser útiles para los profesionales”

Los actuales asistentes virtuales no son solo capaces de imitar las emociones humanas, sino también de modificarlas, cosa que tiene tanto un potencial positivo como posibles riesgos. Si nos fijamos en la parte positiva, ¿podría poner algun ejemplo de los beneficios sociales que pueden aportar estos agentes virtuales?

Hay aplicaciones que captan información de las personas al interactuar con ellas y que, de algun modo, pueden mostrar empatía y comprensión hacia los humanos. La interacción con estos agentes virtuales puede facilitar que las personas expresen sus emociones, cosa que puede ser beneficioso para las personas que pasan por una depresión, por ejemplo. Algunos estudios han demostrado que las entrevistas con asistentes médicos virtuales proporcionan respuestas similares, y en algunas ocasiones incluso mejores, que las que consiguen los profesionales humanos. En estos casos, una de las hipótesis existentes para explicarlo es que los seres humanos no se sienten juzgados por el agente virtual, frente a la vergüenza que pueden pasar cuando son atendidos por una persona. Pero esto no quiere decir que el agente sea terapeuta. Los agentes virtuales pueden servir para recopilar información de pacientes o usuarios, que pueden ser útiles para los profesionales.

“Es una cuestión que nos tiene que hacer reflexionar sobre muchos aspectos éticos, puesto que se podría manipular a través de los agentes virtuales (…) Tú puedes manipular a través de los medios, las fake news, las imágenes trucadas... Pero, con los agentes virtuales, se incrementa el riesgo porque la relación con las personas será interactiva"

¿Qué piensa de los riesgos asociados a los asistentes virtuales que pueden incidir sobre nuestro estado emocional?

Sí, sin duda, hay riesgos potenciales. Es una cuestión que nos tiene que hacer reflexionar sobre muchos aspectos éticos, puesto que se podría manipular a través de los agentes virtuales. De hecho, esto ya se puede hacer con otras herramientas actuales. Tú puedes manipular a través de los medios, las fake news, las imágenes trucadas... Pero, con los agentes virtuales, se incrementa el riesgo porque la relación con las personas será interactiva. Por ejemplo, la persona que interlocuta con el agente virtual puede tener la impresión que el asistente es su amigo y la máquina puede llegar a acumular un gran conocimiento de la persona. Esto comporta riesgos extremos en lo que se refiere a la manipulación.

¿Y cómo se pueden prevenir estos riesgos?

Todavía no hay soluciones. Algunas personas consideran que los agentes se tendrían que presentar: “No soy un humano, soy un agente”. Después, se tendrían que promover algunas leyes sobre cómo y dónde se tienen que utilizar estos agentes. Pero también creo que es muy importante que los usuarios humanos sean conscientes de los riesgos de utilizar estos agentes.

Aun así, también tienen bastantes beneficios, como las aplicaciones médicas que acabamos de mencionar. Es muy importante. Cuando los pacientes humanos conversan con el agente virtual, hay una relación mutua que se va construyendo durante la interacción, porque los humanos proporcionan más información sobre sí mismos, sobre su estado mental, su estado emocional... Todo depende de cómo se use el agente, porque también se hacen malos usos, como también vemos actualmente.

“En estas interacciones, los agentes virtuales recopilan datos personales y estos datos personales también se podrían transferir a una compañía de seguros, a un empresario… Lo que quiero decir es que la protección de datos es realmente un tema importante (...) También hay que avanzar en la regulación de este tema”

En cuanto a la protección de datos personales, ¿qué riesgos implica el desarrollo de estos agentes virtuales?

Sí, hay un gran riesgo también en este campo. Por ejemplo, imaginamos que tienes un agente virtual que se desplaza (virtualmente contigo). Esto puede ser positivo, por ejemplo, si tienes alguna forma de depresión, para hablar de tus problemas, para hacer terapia… Pero, en estas interacciones, los agentes virtuales recopilan datos personales y estos datos personales también se podrían transferir a una compañía de seguros, a un empresario…Lo que quiero decir es que la protección de datos es realmente un tema importante. Es absolutamente crucial. También hay que avanzar en la regulación de este tema.

“Hay bastantes aplicaciones en las que los asistentes virtuales funcionan como videotutoriales para el aprendizaje. También hay aplicaciones del tipo pregunta-respuesta, que se pueden aplicar en el ámbito comercial”

Muchos de nosotros hemos oído a hablar de Alexa, Siri…, asistentes virtuales de voz que ofrecen ayuda y orientación personalizada. ¿Pero con qué finalidades se pueden usar asistentes virtuales en la actualidad?

Hay muchas aplicaciones, las de salud que ya hemos mencionado, pero también hay otras educativas, por ejemplo hay bastantes aplicaciones en las que los asistentes virtuales funcionan como videotutoriales para el aprendizaje. También hay aplicaciones del tipo pregunta-respuesta, que se pueden aplicar en el ámbito comercial (para resolver preguntas de los consumidores).

Hay juegos educativos, que son aplicaciones que utilizan la tecnología de los videojuegos pero con finalidades formativas. Por ejemplo, puedes tener juegos educativos que capaciten las personas para hablar ante una gran audiencia y que puedan ser útiles para preparar conferencias o entrevistas, como la que estamos haciendo ahora mismo; o procesos selectivos, por ejemplo para mejorar en la exposición de tu trabajo o tu rol en un debate con otras personas. Algunas personas son muy tímidas... y la tecnología facilitada por estos agentes virtuales les puede resultar muy útil. Puedes manipular al agente virtual para que sea amable, dominante, agresivo... o lo que tú quieras y puedes entrenar a la persona para interactuar con cada tipo de agente.

Sobre este tema, hace 10 años, desarrollamos un proyecto de la UE con el objetivo de hacer videojuegos que sirvieran para entrenar a las personas jóvenes a hacer entrevistas de trabajo. Se dirigía a jóvenes con dificultades a la hora de hacer estas entrevistas, para ayudarlos a transmitir una mejor imagen ante diferentes tipos de reclutadores.

También hay agentes virtuales que usan las empresas en los procesos selectivos. ¿Qué opina sobre el uso de agentes virtuales en entrevistas y procesos de selección y los riesgos que esto supone?

Los riesgos dependen de si las decisiones las toma el agente virtual o no. Si el agente virtual sirve para recoger información de los candidatos, pero la decisión (sobre a quien se contrata, supera una fase del proceso selectivo…) la toma un humano, pueden ser una buena herramienta. Pero si la decisión la toma el agente virtual, este es un tema arriesgado. También hay algunas herramientas automáticas desarrolladas por algunas empresas para filtrar los videos que les envían los candidatos a un puesto de trabajo. Las empresas piden videos a las personas candidatas. Son videos donde se tienen que grabar a ellas mismas respondiendo algunas preguntas. Las herramientas automáticas, a partir de estos videos, de alguna manera ya hacen la clasificación de los candidatos. Pero aquí no intervienen los agentes virtuales.

En términos generales, ¿cómo resumiría lo que se ha logrado hasta ahora en el campo de la inteligencia artificial, en relación a los asistentes virtuales, y lo que todavía queda por hacer?

Uno de los principales adelantos de los últimos tiempos tiene que ver con la representación de los agentes virtuales y es la capacidad de mostrarlos en tres dimensiones. Esto ha supuesto una mejora enorme, en términos de imagen. Es increíble como de reales pueden llegar a ser. En cambio, no pueden reproducir de forma tan realista aspectos no verbales del lenguaje. Por lo tanto, ahora el problema es que, si tú ves un agente virtual con un aspecto super realista, también esperas que su comportamiento también lo sea.

Esto tiene que ver con el concepto de ‘Valle incómoda’ (término que hace referencia a la sensación de incomodidad que las personas pueden sentir ante los robots humanoides que se parecen mucho a los humanos, pero que no son bastante realistas en otros muchos aspectos). Cuanto más parecido es el aspecto de un agente virtual al de una persona, más crecen nuestras expectativas sobre su capacidad de actuar como un humano. Si no es así, ¡uy! Y es justo aquí donde nos encontramos ahora mismo. Por lo tanto, o se avanza para mejorar las habilidades no verbales y comportamientos de los agentes virtuales de aspecto muy realista, o si no quizás es mejor utilizar modelos anteriores, de aspecto menos realista, de forma que aspecto y comportamiento estén más equilibrados.

Todavía tenemos que escalar esta cima. Necesitamos trabajar en los aspectos más relacionados con los movimientos de los agentes virtuales, para que adquieran la capacidad de reaccionar a una sonrisa, a una mirada…, para poder mejorar sus interacciones con los humanos. Este es un aspecto crucial y todavía no lo hemos alcanzado. Pero tenemos que hacer más que esto: también tenemos que adaptarlos a las diferencias culturales del lenguaje no verbal.

Las máquinas pueden simular emociones (...). Desde este punto de vista, tienen alguna inteligencia emocional, pero esto no son sentimientos”

Desde el movimiento transhumanista, se ha asegurado que las máquinas serán capaces a finales de esta década de tener inteligencia emocional y que la línea que separa humanos y máquinas será cada vez más fina. ¿Las emociones serán siempre genuinamente humanas?

Los humanos, como cualquier ser vivo, también los animales, podemos sentir emociones. Las máquinas pueden simular emociones. Pueden interpretar de alguna manera el estado emocional de los usuarios, a partir de determinadas expresiones faciales, verbales o cualidades vocales, y saber cómo responder. Desde este punto de vista, tienen alguna inteligencia emocional, pero esto no son sentimientos. No tienen la capacidad de sentir, sino que lo están simulando.

Multimedia

Categorías:

ODS - Objetivos de desarrollo sostenible:

Els ODS a la UPF

Contact