Atrás Jordi Pons gana el Premio Jóvenes Informáticos, otorgado por Investigación Sociedad Científica Informática de España - Fundación BBVA

Jordi Pons gana el Premio Jóvenes Informáticos, otorgado por Investigación Sociedad Científica Informática de España - Fundación BBVA

Por sus aportaciones en la investigación que llevó a cabo para su tesis doctoral sobre music information retrieval, defendida en la UPF el 15 de noviembre de 2019 y dirigida por Xavier Serra i Casals. El galardón premia la creatividad, originalidad y la excelencia de estos investigadores en los primeros años de la profesión y pretende servir de estímulo para que continúen con su labor investigadora.

03.06.2020

Imatge inicial

Jordi Pons, actualmente Research Scientist en Dolby Laboratories, y que antes fue investigador doctoral del Grupo de Investigación en Tecnología Musical (MTG) del Departamento de Tecnologías de la Información y las Comunicaciones (DTIC) de la UPF, ha recibido uno de los galardones Premio Jóvenes Informáticos en la 20ª edición de los Premios de Investigación Sociedad Científica Informática de España (SCIE) - Fundación BBVA 2020, "por sus aportaciones en el ámbito de la music information retrieval, con especial énfasis en la utilización de arquitecturas de aprendizaje profundo en el etiquetado de las señales de sonido y música, con lo que ha obtenido un gran número de citas científicas", según manifestó el jurado de los Premios, reunido en videoconferencia el pasado 26 de mayo.

El etiquetado automático de audio y de música puede aumentar las posibilidades de reutilización de muchas de las bases de datos de audio que permanecen prácticamente sin etiquetar

En su tesis defendida el 15 de noviembre en la UPF, Pons aborda la tarea del etiquetado automático de audio y de música desde la perspectiva del aprendizaje profundo. El etiquetado automático de audio y de música puede aumentar las posibilidades de reutilización de muchas de las bases de datos de audio que permanecen prácticamente sin etiquetar.

En este contexto, Pons, en su trabajo abordaba las siguientes cuestiones científicas:

  • Qué arquitecturas de aprendizaje profundo son las más adecuadas para señales de audio (musicales).
  • En qué escenarios es viable que los modelos de aprendizaje profundo procesen directamente formas de onda.
  • Cuántas datos se necesitan para llevar a cabo estudios de investigación en aprendizaje profundo.

Para responder a la primera pregunta, Pons propone utilizar redes neuronales convolucionales motivadas musicalmente y evalúa diversas arquitecturas de aprendizaje profundo para audio a un bajo coste computacional. "A lo largo de nuestras investigaciones, encontramos que los conocimientos previos que tenemos sobre la música y el audio pueden ayudar a mejorar la eficiencia, la interpretabilidad y el rendimiento de los modelos de aprendizaje basados en espectrogramas", explica Pons.

Los modelos de aprendizaje profundo que procesan formas de onda (como el SampleCNN) pueden conseguir mejores resultados que los que procesan espectrogramas

Para responder a las otras preguntas, continúa explicando Pons: "estudiamos como el SampleCNN, un modelo de aprendizaje profundo que procesa formas de onda, funciona cuando disponemos de cantidades variables de datos de entrenamiento - desde 25k canciones hasta 1,2 M de canciones. En este estudio, comparamos el SampleCNN con una arquitectura basada en espectrogramas que está motivada musicalmente".

Los resultados experimentales que se obtuvieron indican que, en escenarios donde se dispone de suficientes datos, los modelos de aprendizaje profundo que procesan formas de onda (como el SampleCNN) pueden conseguir mejores resultados que los que procesan espectrogramas.

El aprendizaje por transferencia de conocimiento y las redes prototipado son estrategias útiles cuando los datos de entrenamiento no son abundantes

Por último, para intentar saber cuántas datos se necesitan para llevar a cabo estudios de investigación en aprendizaje profundo, se investigó también si una regularización severa del espacio de soluciones, las redes prototipado, el aprendizaje por transferencia de conocimiento, o su combinación, pueden permitir a los modelos de aprendizaje profundo obtener mejores resultados en escenarios donde no hay muchos datos de entrenamiento.

Los resultados que se obtuvieron de los experimentos indicaron que el aprendizaje por transferencia de conocimiento y las redes prototipado son estrategias útiles cuando los datos de entrenamiento no son abundantes.

La modalidad Investigadores Jóvenes Informáticos de los Premios de Investigación Sociedad Científica Informática de España (SCIE) - Fundación BBVA, busca distinguir trabajos doctorales innovadores y relevantes. Se busca con ello reconocer a aquellos investigadores que contribuyen al relevo generacional en esta disciplina científico-técnica y su estudio, fortalecimiento y divulgación. Esta iniciativa premia la creatividad, originalidad y la excelencia de estos investigadores en los primeros años de la profesión y pretende servir de estímulo para que continúen con su labor investigadora.

Trabajo de referencia:

Jordi Pons (2019), Deep neural networks for music and audio tagging, tesis doctoral inédita defendida el 15 de noviembre en la Universidad Pompeu Fabra, y dirigida por Xavier Serra i Casals. Premio Investigadores Jóvenes Informáticos otorgado en la 20ª edición de los Premios de Investigación Sociedad Científica Informática de España (SCIE) - Fundación BBVA https://www.tdx.cat/handle/10803/668036#page=1

Multimedia

Perfiles de los protagonistas:

Jordi Pons

Categorías:

ODS - Objetivos de desarrollo sostenible:

Els ODS a la UPF

Contact

Para más información

Noticia publicada por:

Oficina de Comunicación