"Deep learning", una tècnica en auge que contribueix també a la tecnologia musical
"Deep learning", una tècnica en auge que contribueix també a la tecnologia musical
Jordi Pons i Xavier Serra, investigadors del Grup de Recerca en Tecnologia Musical, proposen un model basat en aquesta tècnica per a la recerca d’informació musical. Un treball que ha estat premiat com a millor article al congrés IEEE CBMI 2016.
L’aprenentatge profund (en anglès, deep learning) és una tècnica d’extracció, transformació i classificació de característiques basades en dades. Són algorismes que funcionen en un sistema per capes, simulant el funcionament bàsic de les sinapsis neuronals, que ha estat aplicat a moltes àrees d'investigació, com ara la intel·ligència artificial. Actualment, la tècnica ha agafat gran rellevància i és emprada en sistemes de reconeixement de veu, d’imatges, de visió artificial, etc.
Un dels àmbits en què l’aprenentatge profund encara té molt de camp per recórrer és el de la recerca en informació musical. Una breu revisió dels avenços amb aquestes tècniques en aquest àmbit revela que aquest tipus d’algorismes han aconseguit resultats competitius en un període curt de temps. A més, donat que avui dia el nombre d'enregistraments d'àudio que tenim a l’abast és enorme i que està en constant creixement, la combinació de deep learning amb grans quantitats de dades té molt potencial per aconseguir millors models que permetin estructurar automàticament llibreries d’àudio.
Un treball de Jordi Pons i Xavier Serra, del Grup de Recerca en Tecnologia Musical (MTG) del Departament de Tecnologies de la Informació i les Comunicacions (DTIC) de la UPF, amb participació de Thomas Lidy, provinent de la Universitat de Tecnologia de Viena (Àustria), ha tingut en compte aquest enfocament i presenta solucions basades en l’aprenentatge profund per a la classificació musical en un treball que ha estat premiat com a millor article al congrés IEEE 14th International Workshop on Content-based Multimedia Indexing (CBMI 2016), celebrat a Bucarest (Romania) el 16 de juny.
Com Jordi Pons, primer autor del treball, comenta: “la qüestió és que les empreses tecnològiques estan fent fortes inversions en deep learning, tot i que encara no se sap molt bé perquè funciona o què aprèn el sistema”. I continua explicant: “la nostra principal contribució ha consistit en proposar unes arquitectures deep learning pensades per a representar conceptes musicals, concretament, nosaltres treballem en àudio musical, de tal manera que, en el nostre context, hem pogut aportar certa intuïció de què aprenen aquestes xarxes”.
Els autors han fet la seva proposta classificant enregistraments d’àudio de música de ball, una font musical altament rítmica que permet avaluar si les arquitectures proposades en el treball estan aprenent característiques freqüencials i/o temporals. A més, l’article mostra una representació que redueix el cost computacional, la qual cosa fa que els models proposats per Pons i Serra siguin molt eficients i hagin suscitat un gran interès entre els experts.
Treball de referència:
Pons, J., Lidy T., i Serra X. (2016), “Experimenting with Musically Motivated Convolutional Neural Networks”, IEEE 14th International Workshop on Content-based Multimedia Indexing (CBMI 2016), Bucarest (Romania), 16 de juny. Best Paper Award.