Vés enrere

Xarxes neuronals artificials caracteritzen peces musicals

Xarxes neuronals artificials caracteritzen peces musicals

Sergio Oramas, membre del Grup de Recerca en Tecnologia Musical, utilitza la tècnica de l'aprenentatge profund o deep learning per anotar el gènere musical de grans col·leccions d'àlbums. Un treball que va guanyar un premi a ISMIR 2017 (Suzhou, Xina) i que és part de la tesi doctoral que defensarà el 29 de novembre a la UPF, a la qual assistirà Brian Whitman, un dels principals artífexs d’Spotify.

21.11.2017

En grans col·leccions de música, com poden ser Spotify o Pandora, conèixer el gènere d'una peça musical és imprescindible per classificar-la, identificar-la a través de cercadors i també per fer recomanacions als usuaris. Això no es podria resoldre manualment, ja que requeriria molt de temps i esforç humà.

Sergio Oramas, membre del Grup de Recerca en Tecnologia Musical (MTG) al Departament de Tecnologies de la Informació i les Comunicacions (DTIC) de la UPF, és el primer autor d'un article que resol el problema de com saber automàticament quin és el gènere musical d'un àlbum. El treball l'ha realitzat en col·laboració amb Pandora, una de les grans empreses del sector de la música en streaming que ja està utilitzant algunes de les troballes publicades en la seva recerca.

L’article que descriu el seu treball va ser presentat per Sergio Oramas, Francesco Barbieri i Xavier Serra, investigadors del DTIC, i Oriol Nieto (NYU-Steinhardt, USA) a la conferència ISMIR 2017 (Suzhou, Xina), el congrés més important del món, a nivell acadèmic i empresarial, en l’àmbit de l'anàlisi computacional d'informació musical. La presentació va guanyar el premi a la millor comunicació oral, elegit per votació entre els 300 participants a l'ISMIR 2017.  

La recerca es va dur a terme a través d'una innovadora aproximació metodològica, la tècnica del deep learning o aprenentatge profund, un concepte propi de la intel·ligència artificial que se serveix de xarxes neuronals artificials per analitzar la informació continguda en l'àudio, la imatge i la informació textual associada a un gran volum d'informació d'àlbums musicals. "En aquest treball vaig utilitzar els àudios de les cançons, les portades dels àlbums i les ressenyes escrites pels usuaris que van comprar les obres a Amazon", afirma Oramas.

Detectar diversos gèneres alhora en una mateixa peça musical

"En l'article, demostro que les tècniques de deep learning permeten millorar els resultats obtinguts fins ara amb altres tècniques, tant utilitzant cada tipus de dades per separat (àudio, imatges i text), com combinant-les", ha explicat Oramas. I afegeix que "una altra de les aportacions de l'estudi és que el sistema és capaç de detectar diversos gèneres al mateix temps per a un mateix àlbum. Això s'acosta més a la realitat, ja que un àlbum o cançó pot ser, per exemple, pop, però alhora pot tenir elements de jazz, una veu tipus soul i també percussió techno. El nostre sistema és capaç de detectar tots els gèneres al mateix temps, i no hi ha gaire sistemes publicats que siguin capaços de fer-ho, i menys encara combinant diferents tipus de dades".

Aquest treball és part de la tesi doctoral Knowledge Extraction and Representation Learning for Music Recommendation and Classification, que Sergio Oramas defensarà el proper 29 de novembre i que ha realitzat sota la supervisió de Xavier Serra. Formaran part del tribunal de la seva tesi, Brian Whitman,cofundador de The Echo Nest, i un dels principals investigadors d'Spotify, i Markus Schedl, expert de referència en el camp de la recomanació musical de la Universitat Johannes Kepler de Linz (Àustria).  

Treballs de referència: 

Categories: