Atrás Neurocientíficos de la UPF desarrollan una nueva teoría para programar robots con IA generativa con un comportamiento más parecido al humano

Neurocientíficos de la UPF desarrollan una nueva teoría para programar robots con IA generativa con un comportamiento más parecido al humano

El desarrollo de robots cada vez más parecidos a los humanos puede tener aplicaciones en múltiples campos (movilidad, salud, educación…). Según el nuevo principio neurocientífico, las personas y los robots con redes neuronales artificiales que tratan de emular a las humanas no actúan para maximizar sus recompensas, sino para experimentar el máximo de estados posibles.

12.09.2024

Imatge inicial

Neurocientíficos de la UPF han desarrollado un nuevo principio de comportamiento, que puede suponer un gran avance para desarrollar agentes virtuales que se comporten cada vez de forma más parecida a los humanos y sean capaces de interactuar con las personas para ayudarlas a satisfacer sus necesidades en múltiples campos (educación, salud, movilidad…). Estos agentes virtuales se desarrollan a partir de modelos de inteligencia artificial (IA) generativa, cuya vertiente más conocida son las aplicaciones generadoras de texto, video o audio, pero que también se está utilizando para reproducir el comportamiento humano.

Para que los agentes virtuales sean cada vez más parecidos a las personas, es fundamental determinar qué paradigma se ajusta mejor a la conducta humana y tenerlo en cuenta para diseñar los algoritmos y los sistemas de Deep learning con redes neuronales artificiales con los que se crean estos robots. En este sentido, un grupo de investigadores del Center for Brain and Cognition (CBC) de la UPF ha elaborado una nuevo paradigma neurocíentifico sobre el comportamiento humano que desafía la teoría mayoritaria hasta el momento, según la cual las personas actúan para maximizar las recompensas externas. Han definido el nuevo Principio de Ocupación Máxima (MOP por sus siglas en inglés), según la cual las personas tienen motivaciones intrínsecas que las llevar a ocupar el máximo de espacios posibles y a experimentar el mayor número de estados. Las recompensas externas (comida, dinero…) serían un medio para poder seguir viviendo nuevas experiencias, no un objetivo per se. 

El equipo de la UPF ha demostrado el nuevo principio de comportamiento con un agente virtual con redes neuronales artificiales

Si bien el MOP se asemeja a paradigmas ya teorizados en psicología o estudios de conducta, esta es la primera vez que se demuestra en el campo de la neurociencia, a partir de agentes virtuales con redes neuronales artificiales basadas en la estructura del cerebro humano. De hecho, el equipo de investigación ha puesto a prueba y demostrado este nuevo paradigma neurocientífico con un agente virtual, cuyos algoritmos le permitían hacer lo que quisiera, en función de las reacciones de sus redes neuronales artificiales a los estímulos del entorno, salvo por los límites marcados por los tradicionales principios de la robótica de Isaac Asimov (que fundamentalmente prohíben que los robots puedan dañar a los seres humanos).

Los investigadores, del grupo de Neurociencia Teórica y Cognitiva (TCN) del CBC de la UPF, han examinado la conducta de este agente virtual en diversos entornos virtuales donde se le presentaban diversos estímulos (objetos, juguetes…). Este estudio, divulgado recientemente en la revista Nature Communications, les ha permitido constatar que el agente no actuaba para maximizar sus recompensas, sino que fundamentalmente experimentaba, probando el mayor número de acciones y estados posibles (saltar, hacer volteretas, bailar de diferentes formas, tocar y usar los objetos o juguetes virtuales de diferentes formas…). También se desplazaba al máximo de lugares posibles en función de las condiciones y limitaciones del entorno.

Un principio que explica la curiosidad humana

Más allá del mundo de la robótica, los investigadores defienden que el MOP da una explicación más racional y plausible a la curiosidad y variabilidad del comportamiento humano, en función de las condiciones del contexto. Este modelo de comportamiento se pone claramente de manifiesto con la conducta de los bebés, ya que durante los primeros meses de vida no dejan de explorar constantemente su entorno, mover su cuerpo de distintas formas, balbucear para probar diferentes sonidos… Esta curiosidad y capacidad de exploración es fundamental para su proceso de desarrollo y aprendizaje.

En el caso de los adultos, este afán por explorar y probar nuevas experiencias sigue existiendo. Pero, dado los condicionantes del contexto social y económico del mundo en el que vivimos, las personas adultas comprenderían que necesitan medios, recursos y energía (trabajo, dinero, comida…) para poder seguir probando nuevas experiencias o viajar a diferentes lugares.

Rubén Moreno-Bote (UPF): “el Principio de Ocupación Máxima constituye un avance relevante para mejorar los modelos de IA generativa del comportamiento humano, cuyo potencial de futuro es enorme en múltiples campos”

Así pues, si este nuevo principio neurocientífico explica mejor el comportamiento humano, también debería servir para diseñar agentes virtuales que reproduzcan mejor su conducta. Para Rubén Moreno-Bote, director del grupo de investigación en Neurociencia Teórica y Cognitiva (TCN) del CBC de la UPF, “el Principio de Ocupación Máxima constituye un avance relevante para mejor los modelos de IA generativa del comportamiento humano, cuyo potencial de futuro es enorme en múltiples campos”. En el futuro, los agentes no solo podrán interactuar con una persona para identificar y satisfacer sus necesidades concretas (para moverse, aprender, hacer ejercicio físico, organizar la economía doméstica…), sino que también pueden servir para hacer experimentos sociológicos. Por ejemplo, se podrían agrupar a diversos agentes virtuales en un contexto concreto para analizar si colaborarían, competirían, etc. Así pues, también puede tener aplicaciones en el campo de la sociología o la economía, entre otras disciplinas.

Artículo de referencia:

Ramírez-Ruiz, J., Grytskyy, D., Mastrogiuseppe, C. et al. Complex behavior from intrinsic motivation to occupy future action-state path space. Nat Commun 15, 6368 (2024). https://doi.org/10.1038/s41467-024-49711-1

Multimedia

Categorías:

ODS - Objetivos de desarrollo sostenible:

09. Industria, innovación e infraestructura
Els ODS a la UPF

Contact

Para más información

Noticia publicada por:

Oficina de Comunicación