Curs 2015-16

Processament de la Parla

Titulació: Codi: Tipus:
Grau en Enginyeria Informàtica 21480 Optativa
Grau en Enginyeria Telemàtica 21762 Optativa
Grau en Enginyeria en Sistemes Audiovisuals 21610 Obligatòria 2n curs

 

Crèdits ECTS: 4 Dedicació: 100 hores Trimestre: 3r

 

Departament: Dept. de Tecnologies de la Informació i les Comunicacions
Coordinador: Emilia Gómez
Professorat:

Emilia Gómez, Mireia Farrús, Janine Kleinhand

Idioma:

Català o castellà (explicacions), anglès (material)

Horari:
Campus: Campus de la Comunicació - Poblenou

 

Presentació de l'assignatura

Aquest és un curs intermig al processament digital dels senyals sonors, pensat per a estudiants d'Enginyeria en Sistemes Audiovisuals.

Ens centrarem en l'estudi de les principals tècniques d’anàlisi, descripció, síntesi i processament de senyals de veu.

 

Prerequisits

El curs està construït sobre la base d'assignatures prèvies de la titulació, principalment Enginyeria Acústica i Senyals i Sistemes (segon curs, Enginyeria en Sistemes Audiovisuals).

 

Competències

Competències a treballar a l'assignatura segons l'indicat en el pla d'estudis del grau:

Competències transversalsCompetències específiques

Instrumentals

G1. Capacitat d'anàlisi i síntesi

G2. Capacitat d'organització i planificació

G3. Capacitat per aplicar els coneixements a l'anàlisi de situacions i la resolució de problemes

G4. Habilitat en la cerca i la gestió de la informació

G5. Habilitat en la presa de decisions

Capacitat de comunicar-se en context acadèmic de forma oral i escrita en català, castellà i anglès

 

Interpersonals

G8. Capacitat de treball en equip.

Capacitat de treball en contextos internacionals i interdisciplinaris.

 

Sistèmiques

G11. Capacitat d'aplicar amb flexibilitat i creativitat els coneixements adquirits i d'adaptar-los a contextos i situacions noves

G12. Capacitat per progressar en els processos de formació i aprenentatge de manera autònoma i contínua

Competències Específiques de Formació Bàsica

B4 - INF. Capacitat per analitzar funcions de variable complexa.

B7 - INF. Conèixer les transformades de Fourier per a senyals analògics i digitals i els elements bàsics de la teoria del mostreig de senyals

B8 - INF. Capacitat per resoldre sistemes lineals i invariants i les funcions i transformades relacionades.

B7 -T. Comprendre i utilitzar els principis de la probabilitat, els

B4 - A. Capacitat per analitzar funcions de variable complexa.

B7 - A. Conèixer les transformades de Fourier per a senyals analògics i digitals. Conèixer els elements bàsics de la teoria del mostreig de senyals. Capacitat per resoldre sistemes lineals i invariants i les funcions i transformades relacionades.

B9 - A. Adquirir els coneixements bàsics de la física de la propagació del so i la seva relació amb els mètodes de processament de l'assenyalis àudio.

 

Competències de tecnologia específica: Sistemes Audiovisuals

AU1. Capacitat de construir, explotar i gestionar serveis i aplicacions de telecomunicacions, enteses aquestes com a sistemes de captació, tractament analògic i digital, codificació, transport, representació, processament, emmagatzematge, reproducció, gestió i presentació de serveis audiovisuals i informació multimèdia.

AU3. Capacitat de seleccionar un sistema, component o procés de l'àmbit del so i imatge per complir les especificacions requerides.

AU4. Adquirir el coneixement de les tècniques de processament d'àudio necessàries per al desenvolupament de sistemes de processament acústic.

AU5. Coneixement de les tècniques de tractament del senyal utilitzades en l'anàlisi, síntesi, codificació i reconeixement del parla. Desenvolupament d'aplicacions informàtiques per al tractament del parla.

AU6. Coneixements de les tècniques de tractament de senyals d'àudio i música. Desenvolupament d'aplicacions informàtiques basades en el processament de música.

AU22. Entendre i conèixer els principis matemàtics en els quals es basen els sistemes de codificació d'àudio i música. Entendre i conèixer els avantatges i inconvenients de cadascun d'aquests sistemes de codificació d'àudio i música

 

Avaluació

L’avaluació es fa per a cada una de les tres activitats que constitueixen l’assignatura: classes de teoria (T), seminaris (S) i laboratoris (L). Essent:

 Algunes característiquesMomentRecuperable
Proves escrites

Examen final (70% de T): L'examen final avalua tota la matèria de l'assignatura. Inclou preguntes associades a les pràctiques.

 Final de trimestre

Si

Productes escrits

Control de coneixements (30% de T): control de coneixements al mig del trimestre. Inclou preguntes associades a les pràctiques.

 Meitat de trimestre

No

Exercicis de seminari (S)

Al llarg del trimestre

No

Proves d'execució

Laboratoris (L): l'avaluació dels laboratoris amb l'entrega de les memòries de pràctiques (35% de L) (de forma individual o en parelles) i una entrevista de pràctiques al llarg del trimestre (5% de L).

 Al llarg del trimestre

 No

Requeriments mínims:

• T: l'avaluació de la teoria. Es requereix un mínim de 5/10 a la nota de Teoria per a aprovar l'assignatura

• L: Es requereix un mínim de 5/10 a la nota de Laboratoris per a aprovar l'assignatura.

La nota final s'obté fent la mitjana ponderada de la següent manera:

Nota Final = 0,6*T + 0,3*L + 0,1*S

 

Continguts

En aquesta assignatura es vol que l'alumne desenvolupi una metodologia per a analitzar, reconèixer i sintetitzar senyals de veu (principalment de parla) utilitzant tècniques de processament del senyal. Més concretament es pretén que l'estudiant adquereixi competències teòriques i pràctiques relacionades amb:

• Fonaments acústics, fisiològics i perceptuals de la veu.

• Fonaments de l'anàlisi digital de senyals de veu.

• Mètodes de modelat i processament de senyals de veu.

• Ús de programari de processament de veu.

• Implementació, amb un llenguatge de programació, d'algorismes de processament del senyal pel processament de la veu.

Aquests conceptes s'estructuren en els següents Blocs de Contingut:

Bloc 1. Introducció:

• Cadena de generació/percepció de la parla.

• Fonaments acústics del so.

• Aplicacions del processament digital de la parla.

Bloc 2. Fonaments:

• Fonaments acústics de la veu: mecanismes de producció de la veu, parla vs cant, classificació dels sons de la parla, representació fonètica.

• Fonamens perceptuals: alçada, intensitat i timbre.

Bloc 3. Anàlisi espectral de senyals de veu.

• Anàlisi espectral de senyals de veu: STFT, espectrograma, anàlisi multiresolució.

• Extracció de paràmetres: energia, ZCR, ST - ACF, pitch.

Bloc 4. Models de veu: models basats en la percepció.

• Models físics vs espectrals vs basats en formants.

• Fonaments de percepció de la parla.

• Models espectrals.

• Transformació espectral de senyals de veu.

Bloc 5. Models basats en la producció de la parla. Anàlisi Linear Predictiu (LPC).

Bloc 6. Síntesi Text - Parla (Text-To-Speech Synthesis).

Bloc 7. Reconeixement de parla (Automatic Speech Recognition) i de locutor (Speaker Recognition).

• Anàlisi cepstrum.

• Models Ocults de Markov.

 

Metodologia

El procés habitual d’aprenentatge per cada un dels temes està compost per una sessió de teoria, un seminari i una part d’una sessió de laboratori. Cada bloc comença amb una sessió de teoria en la que es presenten certs fonaments teorico-pràctics. Aquesta activitat es realitza en grup gran. L’estudiant ha de complementar aquesta activitat amb una lectura detinguda dels seus propis apunts i del material addicional que el professor hagi proporcionat.

Posteriorment es realitzarà un seminari centrat en la resolució d’exercicis o problemes per posar en pràctica els conceptes i tècniques presenta des a la sessió de teoria. L’objectiu és que l’estudiant consolidi els fonaments per tal que posteriorment pugi resoldre problemes de major complexitat. Aquesta activitat es realitza en grups petits de seminari on tots els estudiant han de participar activament en la resolució dels problemes.

El següent pas en el procés d’aprenentatge és el laboratori o sessió de pràctiques. En ell es proposen uns problemes pràctics que requereixen un disseny previ de la solució a implementar i que han d’integrar diferents conceptes i tècniques. Aquesta activitat es pot realitzar per parelles, i es pressuposa que continua fora de l’aula.

 Sessions presencialsHores d’estudi
TemesGrup gran (2h)Grup petit (1h)Grup mitjà (2h)

1. Introducció

2. Fonaments

2

1

 

5

3. Anàlisi espectral 1 1  1 8
4. Models perceptuals 1   1 7
5. Models producció 1 1 1 7
6. Text-To-Speech Synthesis 1 1   7 (control de coneixements)
7.Anàlisi cepstral 1 1 1 7
8. Reconeixement 2 2 1 8
Recapitulació   1   8

Preparació de l'examen final

 

 

 

7

Total:

18

8

10

64

Total: 100

Teoria: 18 hores (9 sessions de 2 hores).

• Teoria 1: Introducció.

• Teoria 2: Producció i classificació de sons de parla.

• Teoria 3: Anàlisi espectral.

• Teoria 4: Models de la parla.

• Teoria 5: Models basats en la producció de veu (LPC).

• Teoria 6: Síntesi de la Parla: Text - To - Speech.

• Teoria 7: Reconeixement de parla: Anàlisi cepstrum, Sistemes de reconeixement automàtic.

• Teoria 8: Reconeixement de parla

• Teoria 9: Reconeixement de locutor

 

Seminaris: 8 sessions de 1 hora.

• Seminari 1: Acústica de la veu.

• Seminari 2: Anàlisi espectral.

• Seminari 3: LPC.

• Seminari 4: Control de coneixements.

• Seminari 5: Cepstrum.

• Seminari 6: Reconeixement de la parla.

• Seminari 7: Transformacions de la parla.

• Seminari 8: Revisió de coneixements.

 

Laboratoris: 5 sessions de 2 hores.

• Laboratori 1: Enregistrament i anàlisi espectral de veu.

• Laboratori 2: Model espectral.

• Laboratori 3: Anàlisi i síntesi de veu.

• Laboratori 4: Anàlisi Cepstrum.

• Laboratori 5: Reconeixement de la Parla.

 

Recursos

Bibliografia bàsica

• Quatieri, T. F. 2001. Discrete - Time Speech Signal Processing: Principles and Practice. Prentice Hall.

• Rabiner, L. R. and R. W. Schafer. 2007 . Introduction to Digital Speech Processing. Foundations and Trends in Signals Processing, Vol. 1, Nos. 1 - 2, 2007

 

Bibliografia complementària

• Rabiner, L. R. and Schafer, R. W. 1978. Digital Signal Processing of Speech Signals. Prentice Hall.

• O'Shaughnessy, D. 1999. Speech communications: human and machine. Wiley, John & Sons.

• Rabiner, L. R. and B. H. Juang. 1993. Fundamentals of Speech Recognition. Prentice Hall.

• Park, Sung-won. Linear Predictive Speech Processing.

• Park, Sung-won. Discrete Wavelet Transform.

• Spanias, Andreas. 1994. "Speech Coding: A Tutorial Review". Proceedings of the IEEE.

• Pan, Davis. 1995. "A Tutorial on MPEG/Audio Compression". IEEE Multimedia Journal.

• Rabiner, Lawrence. 1989. "A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition". Proceedings of the IEEE.

 

Material docent de l’assignatura

• Per a cada sessió de teoria hi ha disponible uns apunts a la Web de l’assignatura.

• Per a cada sessió de seminari hi ha disponible una col·lecció d’activitats a la Web de l’assignatura.

• Per a cada sessió de pràctiques hi ha disponible el enunciat de la pràctica a la Web de l’assignatura.

 

Programari

• PRAAT http://www.fon.hum.uva.nl/praat/

• Octave http://www.gnu.org/software/octave/

• MATLAB