4. Calidoscopi

La IA ha vingut per quedar-s’hi. L'objectiu principal seria desenvolupar una IA amb beneficis per al món i l’ésser humà

min
Coloma Ballester

Coloma Ballester, coordinadora del grup Intelligent Multimodal Vision Analysis (IMVA) del Departament de Tecnologies de la Informació i les Comunicacions de la UPF

Tothom hi està d'acord: la intel·ligència artificial (IA) ha arribat per quedar-s’hi. L'objectiu principal seria desenvolupar una IA amb beneficis per al món i l’ésser humà. Això inclou tant l'expansió del coneixement humà (implicant la millora de la comprensió intel·lectual humana de la realitat mitjançant l'ús de models teòrics adequats que tenen com a objectiu emular la intel·ligència natural i quantitats considerables de dades reals) com la millora del benestar humà i del planeta.

La IA per a continguts d'entreteniment i mitjans sostenibles és la raó de ser d'EMERALD, un projecte europeu Horizon de 30 mesos, que Josep Blat i jo mateixa, Coloma Ballester, coordinem des de la UPF. El Consorci Interdisciplinari d'EMERALD, de set socis, inclou empreses líder com la British Broadcasting Corporation (BBC) i Disguise Systems Limited del Regne Unit, Filmlight GMBH d'Alemanya, MOG Technologies de Portugal, el Trinity College de Dublín a Irlanda, Brainstorm Multimedia i la UPF. Per part de la Universitat Pompeu Fabra, hi participen el Grup de Tecnologies Interactives (GTI) i el grup Intelligent Multimodal Vision Analysis (IMVA), respectivament, tots dos al Departament de Tecnologies de la Informació i les Comunicacions. EMERALD té com a objectiu desenvolupar i demostrar eines exemplars per a les indústries de l'entreteniment digital i els mitjans de comunicació, a partir de la utilització de tecnologies d'IA, Machine/Deep Learning (ML/DL) i Big Data, per tal d’automatitzar tasques i processar dades ràpidament, augmentar l'eficiència de la producció, utilitzar menys energia i millorar la qualitat del contingut.

Certament, les indústries dels mitjans digitals representen un component significatiu de l'economia global amb més del 80% del trànsit d'Internet atribuït a continguts relacionats amb vídeo, tant per a l'entreteniment com per a la feina. La creixent demanda de continguts ha impulsat les indústries que sustenten el cinema, les retransmissions, els mitjans de comunicació en streaming, els jocs i l'entreteniment en directe per innovar en tecnologies que millorin l'eficiència de la producció i redueixin els costos per mantenir-se competitives. La IA, i en particular el DL, poden aconseguir una precisió molt alta en diverses tasques de producció i postproducció de mitjans digitals; però el seu desplegament en aquest context comporta diversos reptes. D'una banda, els fluxos de treball de producció de mitjans requereixen entre el 99 i el 100% de precisió.

D'altra banda, impliquen volums massius de dades (de l'ordre de moltes desenes de petabytes per a grans empreses) i de càlcul (desenes de milers d'unitats de processament CPU/GPU), ja sigui en local o al núvol. En conseqüència, la sostenibilitat i l'ús de l'energia són una preocupació mundial actualment. Això succeeix malgrat que la propera generació d'experiències híbrides de mitjans físics i virtuals possibilitades per l’actual Virtual Production (VP) –amb creadors de continguts treballant remotament i la creació d'experiències distribuïdes que replicaran esdeveniments en directe per a múltiples audiències a distància– podria ajudar a reduir les petjades de carboni mitjançant la reducció de l'energia en el transport. Però això no hauria de ser a costa d'augmentar el consum de recursos computacionals.

Per resoldre aquests problemes, estem: (a) dissenyant noves eines i processos d'automatització basats en ML/DL, que es focalitzen en un ús més eficient de les dades per incrementar la velocitat i la qualitat de la creació de continguts digitals, per permetre el control guiat per l'usuari i per reduir les demandes d'energia i recursos a gran escala; (b) desenvolupant mètriques de consum d'energia a escala granular per tal de quantificar el consum d'energia i l'impacte dels algoritmes i hardware amb detall granular, i (c) fomentant l'acceptació i la demanda d’una intel·ligència artificial i producció de mitjans d'entreteniment que siguin sostenibles, tot explorant com aquestes tècniques podrien fer més sostenible la indústria dels mitjans de comunicació.

En el cas del grup IMVA, estem desenvolupant eines basades en intel·ligència artificial/DL per analitzar el vídeo esportiu, el matting de vídeo i l'estimació de la postura i orientació en temps real en escenaris de retransmissió de contingut, streaming i entreteniment en directe. Per exemple, el matting de vídeo, que implica separar els objectes de primer pla del seu fons, de manera que el primer pla es pot combinar amb un nou fons, és un procés central en la producció virtual i la postproducció de mitjans. Desenvoluparem eines de matting utilitzant DL per produir resultats d'alta qualitat per a la integració automatitzada en temps real de presentadors o intèrprets remots en escenes i escenaris virtuals per a mitjans de difusió/streaming, fins i tot sota condicions i configuracions de captura no òptimes, que s'incorporaran a les eines de companyies tals com Brainstorm. A més, una estimació precisa en temps real de l’orientació del cos i el cap d'un presentador en la retransmissió en estudis virtual permetrà la correcció automàtica de paràmetres de càmera i escena, la selecció de la càmera més adequada en escenaris multicàmera, o la reorientació de l’enquadrament en escenaris d'una sola càmera.

D'altra banda, el grup GTI crearà una eina web d'extrem a extrem, de codi obert, per tal de generar i editar personatges animats a partir d'un sol vídeo/webcam i renderitzar-les. A més, el GTI està creant eines per generar bases de dades específicament dirigides a entrenar xarxes neuronals específiques per a objectius d’animació de persones.