Notícies Notícies

Torna a la pàgina principal
Vés enrere

El Grup de Recerca en Tecnologia Musical llança el Freesound Datasets i guanya el Google Faculty Research Award

El Grup de Recerca en Tecnologia Musical llança el Freesound Datasets i guanya el Google Faculty Research Award

Atorgat per impulsar la recerca en el reconeixement d’esdeveniments sonors,  gràcies a la creació en obert d’un conjunt de dades d’àudio a través de Freesound i Google Machine Perception Team, i el projecte Freesound Datasets.

11.04.2018

Reconèixer tot tipus de sons quotidians és un camp de recerca emergent amb aplicacions en múltiples àmbits, des de la descripció automàtica de continguts multimèdia fins al desenvolupament d'aplicacions en l’àrea de la salut. El Grup de Recerca en Tecnologia Musical (MTG) del Departament de Tecnologies de la Informació i les Comunicacions (DTIC) de la UPF, a través de Freesound, i Google Machine Perception Team, creadors de AudioSet Ontology, uneixen esforços per estimular la recerca en el reconeixement d'esdeveniments sonors. Per això han creat un conjunt de dades d'àudio en obert i han organitzat una competició internacional d'aprenentatge automàtic. El MTG ha estat guardonat per segona vegada (la primera el 2007) amb el premi de Google Faculty Research Award per recolzar aquesta iniciativa. La Universitat Pompeu Fabra enguany ha estat l’única universitat espanyola en aconseguir aquest guardó.

MTG ha llançat la plataforma Freesound Datasets

En Intel·ligència Artificial, les necessitats actuals d'aprenentatge automàtic requereixen quantitats substancials de dades d'àudio suficientment fiables. No obstant això, els conjunts de dades d’àudio disponibles pateixen deficiències que limiten la recerca en el reconeixement de so: la mida i la disponibilitat. Per solucionar això, el MTG ha llançat la plataforma Freesound Datasets. L'objectiu d'aquesta plataforma és la creació col·laborativa de col·leccions d'àudio en accés obert, etiquetades per humans i basades en el contingut de Freesound, sota els principis de transparència, accés obert, caràcter dinàmic dels conjunts de dades i sostenibilitat.

La plataforma Freesound Datasets permet crear i explorar conjunts de dades, datasets, construïts amb contingut Freesound i contribuir-hi proporcionant anotacions.  Freesound Datasets també promou el debat sobre els conjunts de dades i permet descarregar les actualitzacions que van sorgint en el temps. Tots els conjunts de dades creats a través de la plataforma estan en accés obert sota llicència Creative Commons.

FSD, el primer conjunt de dades

El primer conjunt de dades creat a través de Freesound Datasets és el FSD, un conjunt de dades generalistes de grans dimensions, que inclou sons de Freesound etiquetats amb les etiquetes AudioSet Ontology de Google. Una de les característiques de Freesound és l'heterogeneïtat dels seus sons, aportats per milers d'usuaris a tot el món. “Volíem que el nostre primer conjunt de dades reflectís això, i per aquest motiu vam decidir utilitzar AudioSet Ontology, una col·lecció jeràrquica de més de 600 classes sonores de sons quotidians, per anotar sons al FSD. Per tant, FSD presenta un gran vocabulari de sons quotidians, que abasta des de sons humans i animals fins a música i els sons fets per les coses”, manifesta l’equip que ha desenvolupat la plataforma, integrat per Xavier Favory, Eduardo Fonseca, Frederic Font i Jordi Pons, amb aportacions d'Andrés Ferraro i Alastair Porter i la supervisió de Xavier Serra, coordinador del MTG.

FSD creixerà amb la participació dels usuaris en el procés d'etiquetatge. L'objectiu actual és tenir 100 mostres verificades per categoria (en les categories on aquesta quantitat està disponible). Aquest procés de crowdsourcing es realitza a través de la plataforma Freesound Datasets. “El nostre objectiu és proporcionar a la comunitat de recerca un dels conjunts de dades d'àudio més grans i distribuïbles de manera gratuïta per al reconeixement de so i les tasques relacionades”, afirmen els seus creadors.

Resultats de la col·laboració del MTG amb Google

L'equip de Freesound del MTG ha estat guardonat amb el Google Faculty Research Award per recolzar el projecte Freesound Datasets i la creació de FSD. El primer resultat d'aquesta col·laboració és l'organització del Freesound General Purpose Audio Tagging Challenge, en el qual els participants construiran sistemes capaços de reconèixer 41 categories de diferents sons quotidians. El conjunt de dades utilitzat per a la competició és un petit subconjunt de FSD.

“En el futur tenim previst organitzar noves competicions amb els pròxims llançaments de FSD. Creiem que, crear conjunts de dades utilitzant enfocaments oberts i col·laboratius com els esmentats anteriorment i fomentar la recerca en el reconeixement d'esdeveniments sonors organitzant competicions d’aprenentatge automàtic,  tindrà un impacte significatiu en la nostra comunitat de recerca”, afirmen els membres de l’equip desenvolupador.

Categories: