Vés enrere Sergi Jordà: “Veurem canvis radicals, tant en la manera de crear com de consumir música, deguts a la intel·ligència artificial”

Sergi Jordà: “Veurem canvis radicals, tant en la manera de crear com de consumir música, deguts a la intel·ligència artificial”

Sergi Jordà té una dilatada experiència en la investigació sobre música i tecnologia i forma part del Music Technology Group (MTG), grup de recerca amb una experiència de 30 anys en aquest camp. L’MTG ha finalitzat recentment un projecte per analitzar els reptes i oportunitats de la intel·ligència artificial en el món de la música

06.06.2023

Imatge inicial

Sergi Jordà, amb una dilatada experiència en la investigació sobre tecnologia musical, forma part del grup de recerca Music Technology Group (MTG) del Departament de Tecnologies de la Informació i la Comunicació (DTIC) de la UPF. En aquest grup de recerca, dirigeix el laboratori d’Interacció Musical i Multimodal (MMI), especialitzat en tecnologies musicals interactives i les seves aplicacions en àmbits com l’educació o en la creació de música col·lectiva.

En un context d’impacte creixent de la intel·ligència artificial (IA) al món de la creació, i també específicament al sector de la música, l’MTG ha realitzat durant l’últim any el projecte  “Reptes i Oportunitats en tecnologia musical”. Durant aquest projecte, s’ha consultat experts de diferents sectors (artistes i creadors, empresaris, investigadors, juristes…) sobre el possible impacte de la IA i d’altres tecnologies emergents en la creació, distribució, aprenentatge i escolta de música. Les conclusions d’aquest projecte* han estat el punt de partida d’aquesta entrevista.

Durant els darrers mesos, ha crescut el debat social sobre les diferents aplicacions de la intel·ligència artificial, però s’ha parlat menys del seu impacte al món de la música que en d’altres àmbits, com la generació de textos o d’imatges. Com valores l’impacte actual de la intel·ligència artificial en l’àmbit musical i com podria evolucionar de cara al futur?

És cert que, durant els darrers mesos, ha esclatat el debat sobre la intel·ligència artificial, tot i que aquest no és un tema nou, sinó que ve d’una tendència de fa 7 o 8 anys, que ha anat creixent cada cop més ràpid. En el camp de la música, ja preveiem fa un any que això començaria a prendre força. El que sí és cert és que, igual que ha passat amb el XatGPT, fins i tot els experts s’han quedat sorpresos. No ens esperàvem que les coses anessin tan ràpid com en els darrers mesos.

Cada setmana hi ha novetats. En el camp de la música, ja estem arribant al punt en què ens trobàvem fa uns sis mesos amb la generació de text i imatge. El desembre, la generació de música a partir de text,  per entendre’ns, el que es pot fer amb Dall-e o Stable Diffusion en el camp de la imatge, era una cosa molt primitiva. Des del gener, tot i que el sistema encara no és públic, hi ha una demo de Google, MusicLM, per generar música a partir de text. Tu dones una descripció textual, com per exemple “cançó reggae de ritme lent, amb baix, bateria i guitarra elèctrica, i veus relaxades i expressives” i el sistema et fa una cançó. És cert que encara son poques les eines perquè els usuaris les puguin fer servir a casa, però jo crec que trigarem molt poc a tenir-ne moltes.

La meva percepció és que la indústria canviarà moltíssim, veurem canvis radicals, tant en la manera de crear com de consumir música, deguts a la intel·ligència artificial.

En aquest context, el grup de recerca sobre tecnologia musical del qual formes part (MTG) va començar l’any passat un projecte per diagnosticar els reptes i oportunitats que planteja la intel·ligència artificial en aquest àmbit. Quins han estat els seus principals objectius?

Vam començar aquest projecte amb la intenció de tenir certs criteris, de no fer una recerca només guiada per les possibilitats tècniques, sinó més orientada a criteris socials, humans, artístics...  El projecte va tenir diverses fases. Primer, vam demanar a 80 experts, a través de formularis amb diferents tipus de preguntes, la seva opinió sobre diferents àmbits relacionats amb la música,  com la generació, l’escolta, l’educació... Després, vam processar tota aquesta informació i vam seleccionar uns quants d’aquests experts per mantenir-hi entrevistes per videoconferència.  Finalment, com a tercera fase, el desembre passat, vam organitzar dues taula rodones, una primera dedicada a la creació amb intel·ligència artificial i una altra a l’escolta amb intel·ligència artificial.

Amb aquestes diferents fases, volíem tenir una visió més clara del que estava passant, cap a on podíem anar i què podríem fer i donar-ho a conèixer a tothom.

 “La indústria tal com l’entenem, la indústria musical, té 100 anys, però la música en té més de 40.000. Per tant, el costat positiu és que, passi el que passi, penso que la música seguirà existint!

Aquest projecte de diagnosi ha finalitzat recentment. A quines conclusions heu arribat pel que fa a les principals oportunitats que planteja la intel·ligència artificial en l’àmbit musical?

La intel·ligència artificial pot ser una eina per promoure i per incentivar la creativitat  o pot ser també, i aquest és el costat fosc, una eina per suplantar la creativitat. Evidentment, els dos aspectes són molt oposats. Però, igual que hi vam veure les possibilitats, jo crec que també cal parlar dels problemes, dels riscos amb què ens trobarem.

És molt difícil saber cap a on tirarà la indústria i els canvis que es produiran en els propers anys. Però, amb alguna cosa, soc optimista. Amb la indústria, no sé ben bé què passarà, però la indústria tampoc no ha estat eterna. La indústria tal com l’entenem, la indústria musical, té 100 anys, però la música en té més de 40.000. Per tant, el costat positiu és que, passi el que passi, penso que la música seguirà existint!

“Si la intel·ligència artificial aprèn de la gran quantitat de música popular dominant, en farà més del mateix estil i, per tant, la producció serà cada cop més homogènia”

Quins són els principals riscos que pot comportar la intel·ligència artificial al món de la música?

Els riscos de la intel·ligència artificial al món de la música són enormes, en dos grans aspectes: riscos per als creadors i riscos per a la mateixa música.

Els riscos per als creadors signifiquen que els creadors artesans, els que no tenen un gran nom o que viuen d’encàrrecs, veuran molt més difícil la supervivència. És més fàcil encarregar una música pitjant un botó que no pagant algú perquè te la faci.

Hi ha d’altres riscos per a la música en si mateixa. Donat que la intel·ligència artificial tendeix a produir allò que ha après, la tendència és més aviat a fer "más de lo mismo". Això quin impacte pot tenir? Si la intel·ligència artificial aprèn de la gran quantitat de música popular dominant, en farà més del mateix estil i, per tant, la producció tendirà a ser cada cop més homogènia.

“La democratització d’eines tecnològiques ha produït que, en els darrers temps, més gent pugui fer música i la intel·ligència artificial podria ser la darrera eina per això”

Però si la intel·ligència artificial tendeix a reproduir els estils musicals ja existents, per què considereu que pot potenciar la creativitat? De quina manera pot contribuir a fer-ho?

La democratització d’eines tecnològiques ha produït que, en els darrers temps, més gent pugui fer música i la intel·ligència artificial podria ser la darrera eina per això. És a dir, pot facilitar que tothom, enlloc de ser merament consumidor, sigui creador, no necessàriament creador per viure d’això, sinó per fer coses amb les seves idees. En aquest sentit, la intel·ligència artificial pot ser una eina molt valuosa.  

Així doncs, tendim cap a un escenari en què músics i màquines crearan música conjuntament?

De fet, com a eina promotora de la creativitat, la intel·ligència artificial podria  certament promoure la creació col·lectiva i, per col·lectiva, podem entendre la que es fa entre diferents persones, que podrien estan tan colocalitzades com distribuïdes, amb un sistema supervisat per intel·ligència artificial, o evidentment entre persones i màquines. És a dir, totes les possibilitats que s’obren en aquest sentit són enormes, i plantegen reptes superinteressants.

M’agradaria pensar, per exemple, en aplicacions perquè els nens o els no tant nens -perquè tothom- poguessin fer música amb gestos, amb gestualitat, que poguessin dirigir una orquestra, que poguessin crear una simfonia ballant o dirigint, fent veure que dirigeixen. Això seria una cosa que a mi m’encantaria.

La intel·ligència artificial podria recuperar una mica el concepte de música popular previ a la indústria. La indústria de la música, tal com l’entenem avui, no és un concepte “de tota la vida”, sinó que comença cap el 1930 amb la venda d’enregistraments, el que va suposar un gran canvi en la producció i la forma amb què es consumia música. Abans d’això, “música popular” era sobretot música feta no para el pueblo sinó por el pueblo. I la intel·ligència artificial podria tenir un impacte en recuperar aquesta creativitat popular.

 “La intel·ligència artificial podria recuperar una mica el concepte de música popular previ a la indústria”

El grup de recerca del qual formes part, l’MTG, porta més de 30 anys investigant sobre les relacions entre música i tecnologia. De quina manera el bagatge acumulat per l’MGT l’ajuda ara a entomar els reptes que implica la intel·ligència artificial en aquest àmbit? 

Al llarg d’aquestes tres dècades, hem treballant en molts aspectes. Vam començar treballant en síntesi, anàlisi i processament del so, en eines per a la creació... També hem treballat durant més de 20 anys en un camp molt ampli denominat music information retrieval, que ha tingut moltes aplicacions en la identificació de cançons, en la separació de pistes... És una tecnologia que s’utilitza sobretot en sistemes de recomanació.Però el cas és que, des de fa uns 6 anys, en tots els àmbits relacionats amb la tecnologia musical, igual que en gairebé totes les enginyeries i la ciència, s’utilitzen tècniques d’intel·ligència artificial. Independentment de l’àrea en què treballis, en sistemes d’educació, en sistemes de reconeixement musical..., el 100% o el 90% de les tècniques utilitzades són d’intel·ligència artificial, més en particular, de les denominades xarxes neuronals i d’aprenentatge profund.

Quines finalitats tenen les recerques sobre música i tecnologia en què esteu aplicant tècniques d’intel·ligència artificial?

Per exemple, estem treballant en projectes d’educació musical amb intel·ligència artificial, per crear eines que ajudin els instrumentistes a millorar la seva tècnica amb la seva pràctica diària. També en eines que facilitin les seves actuacions en directe, que els complementin, que els donin idees... Per exemple, estem fent un projecte amb el Raül Refree, amb què estem desenvolupant bateries intel·ligents, de manera que puguin acompanyar d’altres músics. Això és una possibilitat per a algú que no pot tenir un bateria.

Durant molt de temps, també hem estat els experts mundials de síntesi de veu cantada. Igual que parlem per telèfon amb contestadors automàtics que ens diuen coses, però els contestadors no canten, els sistemes de síntesi de veu cantada es converteixen en cantants virtuals.  Un altre camp en què treballem són els sistemes de recomanació i identificació musicals. Realment, la intel·ligència artificial està present en gairebé tots els projectes en què treballem actualment.

Les vostres recerques sobre l’aplicació de tecnologies musicals en diferents àmbits tenen una perspectiva interdisciplinària. A quines àrees de coneixement corresponen els experts amb qui col·laboreu més habitualment?

Treballem amb educadors, treballem amb experts en neurociència, hem fet treballs amb professionals de la musicoteràpia o amb professionals sanitaris per investigar les possibilitats de la música en el tractament de l’Alzheimer. En particular, el benestar és un aspecte que ens interessa molt.  Escoltar música està demostrat que va molt bé per a moltes coses.  En aquest sentit, una idea de futur seria desenvolupar escoltes terapèutiques i escoltar músiques personalitzades, o que haguessin estat fetes per a la nostra escolta en un precís instant.

Com treballeu per transferir el coneixement i les conclusions dels vostres projectes de recerca a la indústria de la tecnologia musical?

El nostre grup de recerca està especialment interessat en la transferència de tecnologia. Des del nostre grup, han sorgit alguns projectes de start-ups o spin-offs de tecnologia musical. Una d’elles és Voctrolabs (adquirida a finals de 2022 per la start-up Voicemod), una spin-off que va sorgir d’una tecnologia de síntesi de veu cantada que es va desenvolupar inicialment amb Yamaha. Des d’aquest projecte, es va arribar a produir un personatge virtual d’animé, Hatsune Miku, que es va fer famosíssima al Japó. Una altra spin-off que va néixer del grup de recerca va ser Reactable que, durant més d’una dècada, es va dedicar al desenvolupament d’aplicacions de música electrònica.

Alhora, ens interessa que les empreses vinguin a nosaltres a demanar-nos col·laboracions, i també a la inversa. Desenvolupem API (aplicacions d’interfície que fan d’intermediàries entre dos sistemes de tecnologia musical) que poden ser utilitzades per la indústria musical i tenim diferents models de llicència. Ens interessen totes les possibilitats d’interacció amb la indústria.

“Igual que, quan en la moda va sorgir el prêt-à-porter , la roba feta a mà va adquirir un valor especial, és possible que les màquines facin de tot i que ‘el dissenyat per humans’ es converteixi en una etiqueta de prestigi o de luxe. ‘Això ho ha dissenyat un humà’! “

La indústria musical cada vegada produirà més música amb intel·ligència artificial, segons les conclusions del projecte de diagnosi que acabeu de finalitzar. La música generada per màquines podrà provocar-nos les mateixes emocions, sentiments... que la feta per humans?

Hi ha gent que pensa la intel·ligència artificial no ens emocionarà mai com un humà. Jo aquí tinc el meus dubtes, encara que personalment, jo soc dels qui plora escoltant música i, sovint, és escoltant música cantada, perquè és realment la més essencial. Encara es nota en la música actual quan les veus són 100% humanes, quan un instrument és tocat per un humà..., però, pel que fa a la producció i la composició, el 90% de la música produïda actualment té moltes màquines darrere.

En aquest sentit, penso que la música composada 100% artificialment pot ser tant o més emocionant que el 90% de la música produïda per humans. El 10% restant el reservo per a l’excepció, per als casos en què aquestes veus ens poden emocionar més, com em passa a mi...Però, si parlem de la música de consum, jo diria que la intel·ligència artificial ho té molt fàcil per arribar a emocionar igual. Per tant, la gent que diu no, mai ens emocionarem davant d’una màquina, crec que s’està equivocant i que, d’aquí a poc, això no tindrà cap importància. És a dir, no ens preocuparà si això ho ha fet una màquina o no i ho consumirem igual.

Igual que, quan en la moda va sorgir el prêt-à-porter, la roba feta a mà va adquirir un valor especial, és possible que les màquines facin de tot i que el “dissenyat per humans” es converteixi en una etiqueta de prestigi o de luxe. “Això ho ha dissenyat un humà!” Però jo crec que la tendència que vindrà és que ens adaptarem i consumirem música produïda per intel·ligència artificial sense cap prejudici.

Entre els reptes que planteja la intel·ligència artificial a la indústria musical, també està la necessitat de repensar el concepte actual de drets d’autor. Què cal tenir en compte per fer-ho?

Aquest és un debat que no té una ràpida solució. Vam preguntar sobre el tema a molts usuaris i a molts experts a través de l’enquesta que vam fer, però no hi ha una resposta senzilla ni única. El que és evident és que la legislació haurà d’adaptar-se a la intel·ligència artificial. Els drets d’autor no han estat sempre a la història. És un concepte relativament nou que té 150 anys i haurà de canviar.

En els darrers dos mesos, aquest tema ja ha generat controvèrsia. Per exemple, a l’abril, es van fer nous videoclips d’artistes de hip hop clonant-los les veus sense demanar-los al permís. Però, si no es queixen les grans empreses, n’hi haurà poc impacte. De fet, les grans empreses com Warner ja es comencen a queixar pel fet que hi hagi sistemes d’intel·ligència artificial que s’estiguin entrenant amb música que és propietat seva. Quan les majors s’estiguin  començant a queixar per aquest tema indica que realment estan en joc moltes coses.

“Els centres de recerca i les universitats públiques han de trobar llocs on poder aportar, han de trobar escletxes, perquè la recerca tingui sentit i no estigui dominada o monopolitzada per les 3 o 4 grans empreses d’IA que tenim en aquest moment”

Més enllà de l’impacte de la intel·ligència artificial en la indústria musical i el concepte de drets d’autor, quines dificultats us sorgeixen a l’hora d’investigar en aquest àmbit?

Un  dels problemes de l’estat actual de la intel·ligència artificial és que requereix datasets immensos que no estan a l’abast de tothom. Quan dic tothom, no em refereixo a un usuari normal. No estan a l’abast de la majoria de centres de recerca, perquè aquests datasets no són públics i no tenim dret a utilitzar-los. Una altra qüestió, menys evident, és que es requereix d’una potència de càlcul inimaginable per treballar aquestes dades. Resulta difícil imaginar l’energia que consumeixen els projectes que estan traient endavant Google o OpenAI.

La recerca actual en intel·ligència artificial requereix, en suma, de volums de dades i d’una potència de càlcul que estan més enllà de les possibilitats de la majoria d’universitats del món. Per tant, els centres de recerca i les universitats publiques han de trobar llocs on poder aportar, han de trobar escletxes, perquè la recerca tingui sentit i no estigui dominada o monopolitzada per les 3 o 4 grans empreses d’IA que tenim en aquest moment.

També cal tenir en compte que, si bé amb la intel·ligència artificial s’aconsegueixen resultats millors, des del punt de vista estrictament científic, també té inconvenients. La intel·ligència artificial tendeix a explicar poc els resultats, tendeix a ser més opaca en quant a la recerca. La intel·ligència artificial es preocupa de l’output. El procés intermedi és una mica... una caixa negra.

“Farem un concert on la intel·ligència artificial serà el leitmotiv de tots els artistes”

Properament, el grup de recerca sobre tecnologia musical (MTG) UPF participarà al + RAIN Film Fest, el primer festival europeu de cinema amb intel·ligència artificial que se celebrarà al campus del Poblenou de la UPF el 14 de juny. Quin paper hi jugarà la música? 

El +Rain Film Fest, que tindrà lloc en aquest campus del Poblenou el proper 14 de juny, el dia anterior al Sónar, inclou diverses seccions, totes relacionades amb la creació i la intel·ligència artificial. Hi haurà una primera part de debat sobre aquest tema, RESEARCH, sobre la creació amb intel·ligència artificial. Hi haurà un festival de pel·lícules específicament realitzades amb IA i hi haurà una darrera part, el LIVE, on hi haurà concerts amb diferents artistes del Japó, del Regne Unit, locals... que treballen amb la intel·ligència artificial de diferents maneres. Farem un concert on la intel·ligència artificial serà el leitmotiv de tots els artistes.

 

*Les conclusions del projecte “Reptes i Oportunitats en tecnologia musical” s’exposen en l’article “Com conviurà la IA amb la música humana? El futur ha arribat” de Karma Peiró.

Multimèdia

Categories:

ODS - Objectius de desenvolupament sostenible:

Els ODS a la UPF

Contact

Per a més informació

Notícia publicada per:

Oficina de Comunicació