Atrás FSDnoisy18k, un recurso de acceso abierto desarrollado por MTG con la colaboración de Google AI

FSDnoisy18k, un recurso de acceso abierto desarrollado por MTG con la colaboración de Google AI

Una col·lecció de dades d’accés obert per a la investigació en el reconeixement i classificació d’esdeveniments sonors, un camp de recerca en què treballa el Grup de Recerca en Tecnologia Musical i que té múltiples aplicacions, des de la descripció automàtica de continguts multimèdia fins al desenvolupament d'aplicacions en l’àrea de la salut.
14.01.2019

 

Anteriormente, el Grupo de Investigación en Tecnología Musical (MTG) del Departamento de Tecnologías de la Información y las Comunicaciones (DTIC) de la UPF, a través de Freesound, y Google Sound Understanding Team, creadores de AudioSet Ontology, habían unido esfuerzos para estimular la investigación en el reconocimiento de eventos sonoros.

El reconocimiento y clasificación de todo tipo de sonidos cotidianos es un campo de investigación emergente en el que trabaja el Grupo de Investigación en Tecnología Musical (MTG) y que tiene aplicaciones en múltiples ámbitos, desde la descripción automática de contenidos multimedia hasta el desarrollo de aplicaciones en el área de la salud.

En la clasificación de eventos sonoros, la creación de conjuntos de datos consiste en dos etapas: la adquisición de datos - por ejemplo, recuperando datos de sitios como Freesound o YouTube, o realizando nuevas grabaciones - y la curación de datos - organización, limpieza y lo más importante, el etiquetado.

El problema es que a medida que el conjunto de datos sonoros se hace más grande, el ruido en las etiquetas deviene inevitable

El problema es que a medida que el conjunto de datos sonoros se hace más grande, el ruido en las etiquetas - es decir el uso incorrecto de las etiquetas - deviene inevitable. Hasta ahora, se ha hecho poca investigación en el impacto de estos errores.

Miembros del MTG en colaboración con Sound Understanding Team en Google AI (Artificial Intelligence) han desarrollado una colección de datos que facilita la investigación en la clasificación de grandes volúmenes de datos sonoros cuando las etiquetas presentan ruido. Los autores del trabajo explican que "algunos sitios web suministran un gran volumen de audio y metadatos aportados por los usuarios, pero inferir etiquetas de estos metadatos lleva a la introducción de errores causados por la introducción de datos poco fiables y limitaciones en el mapeo".

Un método de evaluación para medir el impacto del ruido en las etiquetas y mitigar su efecto para un conjunto de datos sonoros etiquetados

De ahí que hayan desarrollado FSDnoisy18k, un recurso de acceso abierto para la búsqueda de ruido de etiquetas con el que "caracterizamos el ruido de la etiqueta empíricamente y proporcionamos un sistema de referencia", dicen los autores.

La colección de datos contiene 42,5 horas de audio provenientes de Freesound - otro proyecto del MTG -, distribuidas en 20 clases de sonido. El conjunto de datos está etiquetado individual y consta de una pequeña cantidad de datos etiquetados manualmente y una gran cantidad de datos de sonido obtenidos del mundo real con un alto porcentaje de ruido.

"En este mismo trabajo presentamos un método de evaluación para medir el impacto del ruido en las etiquetas y mitigar su efecto para un conjunto de datos sonoros etiquetados". Con ello, es la primera vez que esta metodología se utiliza en la clasificación de sonidos.

FSDnoisy18k abre la puerta a la evaluación de una variedad de medidas contra el ruido inherente en el etiquetado de sonidos y su clasificación, así como también a varios enfoques de aprendizaje semi-supervisados.


Trabajo de referencia:

Eduardo Fonseca, Manoj Plakal, Daniel P. W. Ellis, Frederic Font, Xavier Favory, Xavier Serra (2019), “Learning Sound Event Classifiers from Web Audio with Noisy Labels”, arXiv preprint arXiv:1901.01189.

 

Multimedia

Categorías:

ODS - Objetivos de desarrollo sostenible:

Els ODS a la UPF

Contact