4. Calidoscopio

La IA ha venido para quedarse. El objetivo principal sería desarrollar una IA con beneficios para el mundo y el ser humano

min
Coloma Ballester

Coloma Ballester, coordinadora del grupo Intelligent Multimodal Vision Analysis (IMVA) del Departamento de Tecnologías de la Información y la Comunicación de la UPF

Todo el mundo está de acuerdo: la inteligencia artificial (IA) ha llegado para quedarse. El objetivo principal sería desarrollar una IA con beneficios para el mundo y el ser humano. Esto incluye tanto la expansión del conocimiento humano (implicando la mejora de la comprensión intelectual humana de la realidad mediante el uso de modelos teóricos adecuados que tienen como objetivo emular la inteligencia natural, y cantidades considerables de datos reales) como la mejora del bienestar humano y del planeta.

La IA para contenidos de entretenimiento y medios sostenibles es la razón de ser de EMERALD, un proyecto europeo Horizon de 30 meses, que Josep Blat y yo misma, Coloma Ballester, coordinamos desde la UPF. El Consorcio Interdisciplinario de EMERALD, de siete socios, incluye empresas líderes como la British Broadcasting Corporation (BBC) y Disguise Systems Limited del Reino Unido, Filmlight GMBH de Alemania, MOG Technologies de Portugal, el Trinity College de Dublín en Irlanda, Brainstorm Multimedia y la UPF. Por parte de la Universidad Pompeu Fabra, participan en él el Grupo de Tecnologías Interactivas (GTI) y el grupo Intelligent Multimodal Vision Analysis (IMVA), respectivamente, los dos al Departamento de Tecnologías de la Información y las Comunicaciones. EMERALD tiene como objetivo desarrollar y demostrar herramientas ejemplares para las industrias del entretenimiento digital y los medios de comunicación, a partir de la utilización de tecnologías de IA, Machine/Deep Learning (ML/DL) y Big Data, para automatizar tareas y procesar datos rápidamente, aumentar la eficiencia de la producción, utilizar menos energía y mejorar la calidad del contenido.

Ciertamente, las industrias de los medios digitales representan un componente significativo de la economía global con más del 80% del tráfico de Internet atribuido a contenidos relacionados con video, tanto para el entretenimiento como para el trabajo. La creciente demanda de contenidos ha impulsado a las industrias que sustentan el cine, las retransmisiones, los medios de comunicación en streaming, los juegos y el entretenimiento en directo a innovar en tecnologías que mejoren la eficiencia de la producción y reduzcan los costes para mantenerse competitivas. La IA, y en particular el DL, pueden conseguir una precisión muy alta en varias tareas de producción y postproducción de medios digitales, pero su despliegue en este contexto comporta varios retos. Por un lado, los flujos de trabajo de producción de medios requieren entre el 99 y el 100% de precisión. Por otro lado, implican volúmenes masivos de datos (del orden de muchas decenas de petabytes para grandes empresas) y de cálculo (decenas de miles de unidades de procesamiento CPU/GPU), ya sea en local o en la nube. En consecuencia, la sostenibilidad y el uso de la energía son una preocupación mundial actualmente. A pesar de que la próxima generación de experiencias híbridas de medios físicos y virtuales posibilitadas por el actual Virtual Production (VP), con creadores de contenidos trabajando remotamente y la creación de experiencias distribuidas que replicarán acontecimientos en directo para múltiples audiencias a distancia, podría ayudar a reducir las huellas de carbono mediante la reducción de la energía en el transporte, esto no tendría que ser a expensas de aumentar el consumo en recursos computacionales.

Para resolver estos problemas, estamos: (a) diseñando nuevas herramientas y procesos de automatización basados en ML/DL que se focalizan en un uso más eficiente de los datos incrementando la velocidad y la calidad de la creación de contenidos digitales, permitiendo el control guiado por el usuario y reduciendo las demandas de energía y recursos a gran escala; (b) desarrollando métricas de consumo de energía a nivel granular para cuantificar el consumo de energía y el impacto de los algoritmos y hardware con detalle granular y (c) fomentando la aceptación y la demanda de una inteligencia artificial y producción de medios de entretenimiento que sean sostenibles, explorando como estas técnicas podrían hacer más sostenible la industria de los medios de comunicación.

En el caso del grupo IMVA, estamos desarrollando herramientas basadas en Inteligencia Artificial/DL para el análisis de video deportivo, el matting de video y la estimación de la postura y orientación en tiempo real en escenarios de retransmisión de contenido, streaming y entretenimiento en directo. Por ejemplo, el matting de video, que implica separar los objetos de primer plano de su fondo, de forma que el primer plano se puede combinar con un nuevo fondo, es un proceso central en la producción virtual y la postproducción de medios. Desarrollaremos herramientas de matting utilizando DL para producir resultados de alta calidad para la integración automatizada en tiempo real de presentadores o intérpretes remotos en escenas y escenarios virtuales para medios de difusión/streaming, incluso bajo condiciones y configuraciones de captura no óptimas, que se incorporarán a las herramientas de compañías tales como Brainstorm. Además, una estimación precisa en tiempo real de la orientación del cuerpo y la cabeza de un presentador en la retransmisión virtual desde estudios permitirá la corrección automática de parámetros de cámara y escena, la selección de la cámara más adecuada en escenarios multicámara, o la reorientación del encuadre en escenarios de una sola cámara.

Por otro lado, el grupo GTI creará una herramienta web de extremo a extremo, de código abierto, para generar y editar personajes animados a partir de un solo video/webcam y renderizarlas. Además, el GTI está creando herramientas para generar bases de datos específicamente dirigidas a entrenar redes neuronales específicas para objetivos de animación de personas.