Vés enrere Catotron, el primer sistema de síntesi de veu lliure i obert, basat en xarxes neuronals

Catotron, el primer sistema de síntesi de veu lliure i obert, basat en xarxes neuronals

Desenvolupat per la cooperativa Col·lectivaT amb la participació de Mireia Farrús, cap del Laboratori de Parla Expressiva en el grup de recerca TALN i gràcies al finançament del Departament de Cultura de la Generalitat de Catalunya.

06.11.2020

Imatge inicial

Els últims anys, les tecnologies de síntesi de la parla han avançat molt gràcies a les tècniques d’aprenentatge profund. "El canvi més important ha estat la capacitat d'entrenar el sistema de síntesi de la parla amb xarxes neuronals.

Catotron és el primer sistema de síntesi de veu en català basat en xarxes neuronals. L'ha desenvolupat la cooperativa Col·lectivaT amb la participació de membres del grup de recerca Natural Language Processing (TALN) del Departament de Tecnologies de la Informació i les Comunicacions (DTIC) de la UPF i la col·laboració de membres de la UPC.

L'objectiu del projecte ha estat entrenar models de sistema de la parla en català amb xarxes neuronals i publicar-ho amb llicències de codi obert

Avui en dia, els codificadors de veu s’utilitzen amb els sistemes de síntesi de la parla també entrenats amb xarxes neuronals. Malauradament, per entrenar aquests sistemes, és imprescindible tenir recursos molt importants com dades o potència computacional. És per això que, llevat dels sistemes de parla en anglès, no hi havia cap model publicat amb llicències obertes.

El projecte "Síntesi de la parla contra la bretxa digital" va ser finançat pel Departament de Cultura de la Generalitat de Catalunya i gràcies al finançament els investigadors han pogut entrenar els models de sistema de la parla en català amb xarxes neuronals i publicar-ho amb llicències de codi obert.

Un treball recent de Mireia Farrús, fins agost 2020 cap del Laboratori de Parla Expressiva del TALN, conjuntament amb Baybars Külebi (Col·lectivaT), Alp Öktem, doctor per la UPF (Col·lectivaT), Alex Peiró-Lilja (UPF) i Santiago Pascual (UPC), ha presentat el sistema a la conferència internacional Interspeech2020, celebrat del 25 al 29 d'octubre des de Xangai (Xina) i dut a terme de manera virtual.

Tecnologies de codi modificades per al català

Les tecnologies de codi que han emprat els desenvolupadors de Catotron són els repositoris de Tacotron2 i WaveGlow, de l’empresa de NVIDIA publicats amb llicències obertes a github. "Un dels resultats més importants aconseguits en aquest projecte ha estat el codi: el nostre fork de Tacotron2, que està modificat per al català, imprescindible per fer servir els models de català", expliquen els autors del treball.  

"A més, hem desenvolupat un segon repositori catotron-cpu, que és executable amb els processadors més comuns, els CPUs. Aquesta versió de Catotron és una alternativa més lleugera i més eficient que altres ja existents", han afegit.

Entrenament de models i utilitat del projecte per als usuaris

Per entrenar els models de català els investigadors van aprofitar les dades obertes ja publicades. Les veus resultants de l’Ona i en Pau estan entrenades amb les dades de Festcat, un projecte de la Generalitat realitzat pels investigadors de la UPC.

A més, "Durant les nostres proves també vam fer experiments amb el conjunt de dades del ParlamentParla, i vam produir un model de la parla d’Artur Mas, que era la persona amb més hores registrades d’aquest conjunt de dades, i vam aprofitar aquesta prova per fer una estimació del volum i de la qualitat de dades necessàries per entrenar un model", expliquen els desenvolupadors de Col·lectiva, líders del projecte.

Amb les eines publicades a la web del projecte, és a dir el codi i els models, ja és possible adaptar la veu mitjançant l’aprenentatge per transferència (transfer learning) a partir dels models publicats i enregistraments d’un/a locutor/a. "El nostre exemple de catotron-transfer-learning.ipynb explica els passos necessaris de com fer-ho". És a disposició del públic una prova de síntesi de la parla a la qual es pot accedir a través d'una demo que es troba a la web http://catotron.collectivat.cat/, en què introduint un text escrit, el sistema el retorna en forma de text parlat.

Treball de referència:

Baybars Külebi, Alp Öktem, Alex Peiró-Lilja, Santiago Pascual i Mireia Farrús (2020), "Catotron: A neural text-to-speech System in Catalan",  Interspeech2020, 25 al 29 d'octubre organitzat a Xangai (Xina) i dut a terme de manera virtual. https://cloud.laklak.eu/s/PTJNAK8ZcX5ZFZX

 

Multimèdia

Categories:

ODS - Objectius de desenvolupament sostenible:

Els ODS a la UPF

Contact

Per a més informació

Notícia publicada per:

Oficina de Comunicació