Vés enrere Jordi Pons guanya el Premio Jóvenes Informáticos, atorgat per Investigación Sociedad Científica Informática de España – Fundación BBVA

Jordi Pons guanya el Premio Jóvenes Informáticos, atorgat per Investigación Sociedad Científica Informática de España – Fundación BBVA

Per les seves aportacions en la recerca que va dur a terme per a la seva tesi doctoral sobre music information retrieval, defensada a la UPF el 15 de novembre del 2019 i dirigida per Xavier Serra i Casals. El guardó premia la creativitat, originalitat i l'excel·lència d'aquests investigadors en els primers anys de la professió i pretén servir d'estímul perquè continuïn amb la seva tasca investigadora.

03.06.2020

Imatge inicial

Jordi Pons, actualment Research Scientist a Dolby Laboratories, i que abans va ser investigador doctoral del Grup de Recerca en Tecnologia Musical (MTG) del Departament de Tecnologies de la Informació i les Comunicacions (DTIC) de la UPF, rep un dels guardons Premio Jóvenes Informáticos a la 20a. edició dels Premios de Investigación Sociedad Científica Informática de España (SCIE) – Fundación BBVA 2020, "per les seves aportacions en l'àmbit de la music information retrieval, amb especial èmfasi a la utilització d'arquitectures d'aprenentatge profund en l'etiquetatge dels senyals de so i música, amb què ha obtingut un gran nombre de citacions científiques", segons va manifestar el jurat dels Premis,  reunit en videoconferència el passat 26 de maig.

L’etiquetatge automàtic d’àudio i de música pot augmentar les possibilitats de reutilització de moltes de les bases de dades d’àudio que romanen pràcticament sense etiquetar

En la seva tesi defensada el 15 de novembre a la UPF, Pons aborda la tasca de l’etiquetatge automàtic d’àudio i de música des de la perspectiva de l’aprenentatge profund. L’etiquetatge automàtic d’àudio i de música pot augmentar les possibilitats de reutilització de moltes de les bases de dades d’àudio que romanen pràcticament sense etiquetar.

En aquest context, Pons, en el seu treball, abordava les següents qüestions científiques:

  • Quines arquitectures d’aprenentatge profund són les més adients per a senyals d’àudio (musicals).
  • En quins escenaris és viable que els models d’aprenentatge profund processin directament formes d’ona.
  • Quantes dades es necessiten per dur a terme estudis d’investigació en aprenentatge profund.

Per tal de respondre a la primera pregunta, Pons proposa utilitzar xarxes neuronals convolucionals motivades musicalment i avalua diverses arquitectures d’aprenentatge profund per a àudio a un baix cost computacional. "Al llarg de les nostres investigacions, trobem que els coneixements previs que tenim sobre la música i l’àudio ens poden ajudar a millorar l’eficiència, la interpretabilitat i el rendiment dels models d’aprenentatge basats en espectrogrames", explica Pons.

Els models d’aprenentatge profund que processen formes d’ona (com el SampleCNN) poden aconseguir millors resultats que els que processen espectrogrames

Per a respondre les altres preguntes, continua explicant Pons: "estudiem com el SampleCNN, un model d’aprenentatge profund que processa formes d’ona, funciona quan disposem de quantitats variables de dades d’entrenament — des de 25k cançons fins a 1,2M cançons. En aquest estudi, comparem el SampleCNN amb una arquitectura basada en espectrogrames que està motivada musicalment".

Els resultats experimentals que es van obtenir indiquen que, en escenaris on es disposa de suficients dades, els models d’aprenentatge profund que processen formes d’ona (com el SampleCNN) poden aconseguir millors resultats que els que processen espectrogrames.

L’aprenentatge per transferència de coneixement i les xarxes prototipades són estratègies útils quan les dades d’entrenament no són abundants

Per últim, per tal d’intentar saber quantes dades es necessiten per dur a terme estudis d’investigació en aprenentatge profund, es va investigar també si una regularització severa de l’espai de solucions, les xarxes prototipades, l’aprenentatge per transferència de coneixement, o la seva combinació, poden permetre als models d’aprenentatge profund obtenir més bons resultats en escenaris on no hi ha gaires dades d’entrenament.

Els resultats que es van obtenir dels experiments van indicar que l’aprenentatge per transferència de coneixement i les xarxes prototipades són estratègies útils quan les dades d’entrenament no són abundants.

La modalitat Investigadors Joves Informàtics dels Premios de Investigación Sociedad Científica Informática de España (SCIE) – Fundación BBVA, s'adreça a distingir treballs doctorals innovadors i rellevants. Es busca amb ella reconèixer a aquells investigadors que contribueixen a el relleu generacional en aquesta disciplina cientificotècnica i al seu estudi, enfortiment i divulgació. Premia la creativitat, originalitat i l'excel·lència d'aquests investigadors en els primers anys de la professió i pretén servir d'estímul perquè continuïn amb la seva tasca investigadora.

Treball de referència:

Jordi Pons (2019), Deep neural networks for music and audio tagging, tesi doctoral inèdita defensada el 15 de novembre a la Universitat Pompeu Fabra, i dirigida per Xavier Serra i Casals. Premi Investigadors Joves Informàtics atorgat en la 20a. edició dels Premios de Investigación Sociedad Científica Informática de España (SCIE) – Fundación BBVA https://www.tdx.cat/handle/10803/668036#page=1

Multimèdia

Perfils dels protagonistes:

Jordi Pons

Categories:

ODS - Objectius de desenvolupament sostenible:

Els ODS a la UPF

Contact

Per a més informació

Notícia publicada per:

Oficina de Comunicació