Vés enrere Investigadors de la UPF dissenyen un sintetitzador de cant basat en xarxes neuronals d’última generació

Investigadors de la UPF dissenyen un sintetitzador de cant basat en xarxes neuronals d’última generació

El sistema proposat és capaç de modelar cant amb poques gravacions i incorpora un algoritme que permet crear cant sintètic ràpidament, fet que el converteix en un sistema molt competitiu en termes de qualitat sonora i eficiència.

09.06.2017

 

Fins ara, els millors sintetitzadors de cant estaven basats en mostres o en models estadístics. Els primers es caracteritzen per ajuntar petits fragments de gravacions, com si formessin un gran trencaclosques, però tenen problemes a l’hora de generar un cant fluid sense discontinuïtats. Els models estadístics, per la seva banda, es basen en un curós anàlisi estadístic de les característiques sonores de les gravacions. Són capaços de generar cant fluid sense discontinuïtats, però tenen problemes per generar detalls i matisos.

Jordi Bonada i Merlijn Blaauw, investigadors del Music Information Research Lab (MIRLab) vinculat al Grup de Recerca en Tecnologia Musical (MTG) de la UPF, han desenvolupat un sistema innovador que utilitza xarxes neuronals d’última generació especialitzades en senyals acústics. Aquest nou model permet unir millor els dos aspectes principals dels sintetitzadors de cant tradicionals, i és capaç de generar cant fluid amb detalls i matisos, i sense discontinuïtats.

A més a més, trencant la tendència general en xarxes neuronals de requerir moltes hores de gravació per crear models de veu, el sistema proposat és capaç de modelar cant amb poques gravacions, 15 minuts en castellà i 35 en anglès. Incorpora també un algoritme que permet crear cant sintètic al voltant de 20 vegades més ràpid que a temps real, el que el converteix en un sistema clarament competitiu en termes de qualitat sonora i eficiència.

L’avaluació i validació del nou sistema s’ha realitzat a través d’un experiment d’escolta amb 18 oients. El resultat ha estat que el nou mètode és clarament preferit a altres sistemes existents basats en mostres i en síntesis estadístiques paramètriques.

Els dos investigadors, Bonada i Blaauw, presentaran el sintetitzador en el proper congrés internacional Interspeech 2017, que se celebrarà del 20 al 24 d’agost a Estocolm (Suècia). La trobada vol proporcionar un enfocament ampli al voltant dels problemes de comunicació en relació a la parla.

Demostracions del seu funcionament

Treball de referència: Bonada i Blaauw; A neural parametric singing synthesizer; arxiv.org

Multimèdia

Categories:

ODS - Objectius de desenvolupament sostenible:

Els ODS a la UPF

Contact