Vés enrere Es presenten les darreres novetats en processament de senyals d’àudio i en informació musical

Es presenten les darreres novetats en processament de senyals d’àudio i en informació musical

Al 2019 IEEE International Conference on Acoustics, Speech and Signal Processing que se celebrarà del 12 al 17 de maig a Brighton (Regne Unit), amb una àmplia participació dels membres del Grup de Recerca en Tecnologia Musical: Audio Signal Processing Lab  i Music Information Research Lab.   

10.05.2019

Imatge inicial

El Grup de Recerca en Tecnologia Musical (MTG), del Departament de Tecnologia de la Informació i les Comunicacions (DTIC) de la UPF,  participa en la 2019 IEEE International Conference on Acoustics, Speech and Signal Processing que tindrà lloc del 12 al 17 de maig a Brighton (Regne Unit), amb els treballs més recents duts a terme a l’Audio Signal Processing Lab, liderat per Xavier Serra; i al Music Information Research Lab, liderat per Emilia Gómez.

Superant les limitacions de l’aprenentatge profund

Jordi Pons, Xavier Serra (2019), “Randomly weighted CNNs for (music) audio classification”; Jordi Pons, Joan Serrà, Xavier Serra (2019), “Training neural audio classifiers with few data

Establint un paral·lelisme amb la neurologia, les xarxes neuronals de la intel·ligència artificial permeten generar sistemes que imiten el funcionament del cervell en la forma en què aquest classifica la informació rebuda, per exemple, identificant objectes en funció dels trets que contenen. La seva forma d'aprenentatge contempla la retroalimentació; en successives voltes reben el grau d'encert dels seus dictàmens i realitzen les correccions oportunes. Un sistema de prova i error de l'estil que fem servir els humans en fer una tasca nova.

El concepte d'aprenentatge profund o deep learning fa referència al fet que les xarxes neuronals tenen una estructura basada en nombroses capes. Les xarxes neuronals profundes han significat un canvi de paradigma en el camp de la classificació automàtica dels sons. Tot i que han aconseguit millorar significativament els resultats dels models proposats en anterioritat, els seus principals desavantatges són que necessiten moltes dades d'entrenament i que requereixen d'una gran infraestructura computacional.

“En els dos estudis que presentarem al congrés intentem comprendre millor aquests dos desavantatges, i ens preguntem: Podem entrenar xarxes neuronals profundes amb menys dades?,  Podem comparar de manera acurada diverses arquitectures de xarxes neuronals tot i limitar els nostres experiments a una infraestructura computacional petita? En els nostres articles mostrem que és possible entrenar models competents amb molt poques dades i que també és possible comparar diverses arquitectures de xarxes neuronals tot i disposar de pocs recursos computacionals”, explica Xavier Serra.

Mètodes automàtics que mitiguen el soroll de les etiquetes d’àudio

Eduardo Fonseca, Manoj Plakal, Daniel P.W Ellis,  Frederic Font, Xavier Favory, Xavier Serra (2019), “Learning Sound Event Classifiers from Web Audio with Noisy Labels

Per a la classificació d’esdeveniments sonors, a mesura que s’utilitzen col·leccions de so més grans, les incorreccions (o soroll) en les anotacions esdevenen inevitables. “En aquest treball caracteritzem el soroll de les etiquetes i proposem mètodes automàtics per a mitigar-ne els efectes”, explica Fonseca. Per dur-ho a terme i per promoure la investigació en anotacions potencialment incorrectes en la classificació d'esdeveniments sonors, els autors presenten FSDnoisy18k, una col·lecció amb 42.5 hores de so que incorpora sons de 20 categories diferents amb etiquetes potencialment incorrectes.

Mètodes d’intel·ligència artificial per separar fonts sonores

Olga Slizovskaia, Leo Kim, Gloria Haro, Emilia Gómez (2019), “End-to-End Sound Source Separation Conditioned On Instrument Labels

En aquesta comunicació els autors mostren com separar les fonts sonores en senyals musicals amb un nombre de fonts variable emprant un models d’aprenentatge profund. En particular, els autors allarguen el model de xarxa Wave-U-Net a un nombre variable de fonts i a més, proposen la integració en la xarxa neuronal d’etiquetes que indiquen presència o absència de cada tipus d’instrument amb la qual cosa s’ajuda a millorar la separació. “Aquest enfocament podria aplicar-se també a la separació de fons en el domini audiovisual  i la separació de fonts a partir d’una partitura musical”, explica Emilia Gómez.

Clonació de timbres de veu cantada

Merlijn Blaauw, Jordi Bonada,  Ryunosuke Daido (2019), “Data Efficient Voice Cloning for Neural Singing Synthesis

En aquell treball els autors investiguen la “clonació” de timbres de veu cantada a partir d’un nombre relativament petit de gravacions. “Emprant bases de dades en anglès, japonès, català i castellà, demostrem que amb 2-3 minuts de gravació podem obtenir els mateixos resultats que els que obtenien abans amb una hora de dades”, expliquen els autors. “També investiguem el cas concret del cant coral, en què crear una gran quantitat de veus de manera eficient és especialment atractiu”, afegeixen. Alguns exemples a: https://mtg.github.io/singing-synthesis-demos/voice-cloning/

Mètode d’extracció de la veu a partir d’una barreja musical

Pritish Chandna, Merlijn Blaauw, Jordi Bonada, Emilia Gómez (2019), “A Vocoder Based Method For Singing Voice Extraction

Aquest article presenta un nou mètode per extreure d’una barreja musical la pista de veu. La mescla musical consisteix en una cançó i una pista d’acompanyament  que pot integrar diversos instruments. Els autors estimen els paràmetres del cantant amb els quals sintetitzen la pista vocal, sense cap interferència de la pista de suport. “Avaluem el nostre sistema a través de mètriques objectives de qualitat d’àudio i interferències de fonts de fons i mitjançant una avaluació subjectiva comparativa. Utilitzem sistemes de separació de fonts de codi obert basats en mètodes de factorització matricial no negatius (NMFs) i en mètodes d'aprenentatge profund, com a punts de referència per al nostre sistema i discutim aplicacions futures per a aquest algorisme”, expliquen els autors.

A l’Audio Signal Processing Lab, liderat per Xavier Serra, treballen per avançar en la comprensió dels senyals de so i música i abordar problemes pràctics, treballem en una varietat de temes complementaris que cobreixen la creació de col·leccions de so i música, el desenvolupament de processos de processament de senyals orientats a tasques i mètodes d'aprenentatge automàtic i l'ús de tecnologies semàntiques per estructurar conceptes de so i música.

El Music Information Research Lab, liderat per Emilia Gómez, treballa en la descripció de so i música, recuperació d'informació musical, síntesi de veu, separació de fonts d'àudio, processament de música i d'àudio. Actualment, centrats sobretot en la recerca de la síntesi i transformació de la veu, la separació de fonts i la generació automàtica de paisatges sonors.

Multimèdia

Categories:

ODS - Objectius de desenvolupament sostenible:

Els ODS a la UPF

Contact

Per a més informació

Notícia publicada per:

Oficina de Comunicació