Vés enrere FSDnoisy18k, un recurs d’accés obert desenvolupat pel MTG amb la col·laboració de Google AI

FSDnoisy18k, un recurs d’accés obert desenvolupat pel MTG amb la col·laboració de Google AI

Una col·lecció de dades d’accés obert per a la investigació en el reconeixement i classificació d’esdeveniments sonors, un camp de recerca en què treballa el Grup de Recerca en Tecnologia Musical i que té múltiples aplicacions, des de la descripció automàtica de continguts multimèdia fins al desenvolupament d'aplicacions en l’àrea de la salut.
14.01.2019

 

Anteriorment, el Grup de Recerca en Tecnologia Musical (MTG) del Departament de Tecnologies de la Informació i les Comunicacions (DTIC) de la UPF, a través de Freesound, i Google Sound Understanding Team, creadors de AudioSet Ontology, havien unit esforços per estimular la recerca en el reconeixement d'esdeveniments sonors.

El reconeixement i classificació de tot tipus de sons quotidians és un camp de recerca emergent en el qual treballa el Grup de Recerca en Tecnologia Musical (MTG) i que té aplicacions a múltiples àmbits, des de la descripció automàtica de continguts multimèdia fins al desenvolupament d'aplicacions en l’àrea de la salut.

El problema és que a mesura que el conjunt de dades sonores es fa més gran, el soroll en les etiquetes esdevé inevitable. Fins ara, s’ha fet poca recerca en l’impacte d’aquests errors

En la classificació d'esdeveniments sonors, la creació de conjunts de dades consisteix en dues etapes: l'adquisició de dades - per exemple, recuperant dades de llocs com Freesound o YouTube, o realitzant noves gravacions - i la curació de dades - organització, neteja i el més important, l’etiquetatge.

El problema és que a mesura que el conjunt de dades sonores es fa més gran, el soroll en les etiquetes  - és a dir l’ús incorrecte de les etiquetes - esdevé inevitable. Fins ara, s’ha fet poca recerca en l’impacte d’aquests errors.

Membres del MTG en col·laboració amb Sound Understanding Team a Google AI (Artificial Intelligence) han desenvolupat una col·lecció de dades que facilita la recerca en la classificació de grans volums de dades sonores quan les etiquetes presenten soroll. Els autors del treball expliquen que “alguns llocs web subministren un gran volum d’àudio i metadades aportades pels usuaris, però inferir etiquetes d’aquestes metadades porta a la introducció d’errors causats per la introducció de dades poc fiables i limitacions en el mapatge”.

Un mètode d’avaluació per mesurar l’impacte del soroll en les etiquetes i mitigar-ne el seu efecte per a un conjunt de dades sonores etiquetades

D’aquí que hagin desenvolupat FSDnoisy18k, un recurs d’accés obert per a la cerca de soroll d’etiquetes amb el qual “caracteritzem el soroll de l'etiqueta empíricament i proporcionem un sistema de referència”, diuen els autors.

La col·lecció de dades conté 42,5 hores d’àudio provinents de Freesound - un altre projecte del MTG -,  distribuïdes en 20 classes de so. El conjunt de dades està etiquetat individualment i consta d'una petita quantitat de dades etiquetades manualment i una gran quantitat de dades de so obtingudes del món real amb un alt percentatge de soroll.

“En aquest mateix treball presentem un mètode d’avaluació per mesurar l’impacte del soroll en les etiquetes i mitigar-ne el seu efecte per a un conjunt de dades sonores etiquetades”. Amb això, és la primera vegada que aquesta metodologia s’utilitza en la classificació de sons. 

FSDnoisy18k obre la porta a l'avaluació d'una varietat de mesures contra el soroll inherent en l’etiquetatge de sons i la seva classificació, així com també a diversos enfocaments d'aprenentatge semi-supervisats.

Treball de referència:

Eduardo Fonseca, Manoj Plakal, Daniel P. W. Ellis, Frederic Font, Xavier Favory, Xavier Serra (2019), “Learning Sound Event Classifiers from Web Audio with Noisy Labels”, arXiv preprint arXiv:1901.01189.

Multimèdia

Categories:

ODS - Objectius de desenvolupament sostenible:

Els ODS a la UPF

Contact