Latest news Latest news

Return to Full Page
Back

Artificial neural networks characterize musical pieces

Artificial neural networks characterize musical pieces

Sergio Oramas, member of the Music Technology Group, uses deep learning features to anotate music genre of large collections of albums. His work won the Best Oral Presention Award at ISMIR 2017 (Suzhou, China) and is part of the doctoral thesis that will defend on November 29th.

 

22.11.2017

Source: Universitat Pompeu Fabra

[Spanish version only]

Ante grandes colecciones de música, como pueden ser Spotify o Pandora, conocer el género de una pieza musical es imprescindible para clasificarla, identificarla a través de buscadores y también para hacer recomendaciones a los usuarios. Esto no se podría resolver manualmente, ya que requeriría muchísimo tiempo y esfuerzo humano.

Sergio Oramas, miembro del Grupo de Investigación en Tecnología Musical (MTG), en el Departamento de Tecnologías de la Información y las Comunicaciones (DTIC) de la UPF, es el primer autor de un artículo que resuelve el problema de cómo saber automáticamente cuál es el género musical de un álbum. El trabajo lo ha realizado en colaboración con Pandora, una de las grandes empresas del sector de la música en streaming que ya está utilizando varios de los hallazgos publicados en su investigación.

El artículo que describe su trabajo fue presentado por Sergio OramasFrancesco Barbieri y Xavier Serra, investigadores del DTIC y Oriol Nieto (NYU-Steinhardt, USA) a la conferencia ISMIR 2017 (Suzhou, China), el congreso más importante del mundo, a nivel académico y empresarial, en el campo del análisis computacional de información musical. La presentación ganó el premio a  la mejor comunicación oral,  elegido por votación entre los 300 participantes en ISMIR 2017.  

La investigación se llevó a cabo a través de una innovadora aproximación metodológica, la técnica del deep learning o aprendizaje profundo, un concepto propio de la inteligencia artificial que utiliza redes neuronales artificiales para analizar la información contenida en el audio, la imagen y la información textual asociada a un gran volumen de información de álbumes musicales. “En el trabajo utilicé los audio de las canciones, las portada de los álbumes y las reseñas escritas por los usuarios que compraron las obras en Amazon”, afirma Oramas.

Detectar varios géneros a la vez en una misma pieza musical

“En el artículo,  demuestro que las técnicas de deep learning  permiten mejorar los resultados que se obtenían hasta ahora con otras técnicas, tanto utilizando cada tipo de datos por separado (audio, imágenes y texto), como combinándolos”, ha explicado Oramas. Y añade: “otra de las aportaciones del estudio es que el sistema es capaz de detectar varios géneros al mismo tiempo para un mismo álbum. Esto se acerca más a la realidad, ya que un álbum o canción puede ser por ejemplo pop, pero a la vez puede tener elementos de jazz, una voz tipo soul y percusión techno. Nuestro sistema es capaz de detectar todos los géneros al mismo tiempo, y no hay muchos sistemas publicados capaces de hacerlo, y menos aún combinando distintos tipos de datos”.

Este trabajo es parte de la tesis doctoral Knowledge Extraction and Representation Learning for Music Recommendation and Classification, que Sergio Oramas defenderá el próximo 29 de noviembre y que ha realizado bajo la supervisión de Xavier Serra. Formaran parte del tribunal de su tesis, Brian Whitman, cofundador de The Echo Nest, y uno de los principales investigadores de Spotify, y Markus Schedl, experto de referencia en el campo de la recomendación musical de la Universidad Johannes Kepler de Linz (Austria) .   

Trabajos de referencia:

 

 

Categories: