Fonaments de Processament del Llenguatge Natural

13305 – UPF - Lingüística 2003-2004

 

 

Avaluació de sistemes

 

Poder avaluar el funcionament dels diferents sistemes de Processament del Llenguatge Natural és una de les àrees d’estudi actualment (si voleu més informació podeu començar per aquí). És important saber el grau de confiança que poden oferir segons la tasca que tenen, i també per tal de poder comparar entre diferents sistemes (i tècniques) que tenen el mateix objectiu.

 

Avui ens ocuparem de les mesures d’avaluació dels sistemes d’assignació automàtica d’etiquetes morfosintàctiques. El mètode per avaluar els sistemes basats en regles i els que són estadístics o híbrids, no pot ser el mateix. Penseu, que els sistemes estadístics depenen de com s’ha fet l’entrenament i quin material es dóna per fer la prova. Per mesurar el funcionament correcte d'aquests sistemes s'usa la següent metodologia. Es confegeix un corpus inicial del qual es parteix en dues parts:

 

- la part que s'usarà per fer l'entrenament (per fer que el sistema aprengui o computi les probabilitats) i

-          la part que usarem solament per al test o la prova de funcionament. És important tenir dades de les que estem segurs que el sistema no ha vist mai, per mesurar la seva capacitat de treballar amb material nou de forma correcta. 

 

Els sistemes buscant al diccionari totes les possibilitats de cada paraula que troben al text. Quan hi ha més d’una etiqueta n’han de triar una. El que avaluem és l’encert en triar una etiqueta entre varies.

 

Els sistemes basats en regles, no necessiten d’aquest protocol, perquè en principi el seu funcionament dependrà del coneixement expressat en les regles.

 

Mesures d’avaluació

 

Per avaluar i poder comparar els diferents sistemes s'usen mesures estadístiques estàndard com la taxa d’error, la d’encert (“accuracy”), la precisió (“precision”) i la cobertura (“recall”). Totes es calculen usant una taula de contingències com aquesta que es pot llegir de la següent forma.

 

Pel que fa a la relació de cada etiqueta amb cada paraula,

1) l'etiqueta ha estat assignada?

2) l'etiqueta que sí ha estat assignada, era correcte? sí ► ‘cas a’, no ► ‘cas b’

3) l'etiqueta que no ha estat assignada, havia d'haver estat assignada?  sí ► ‘cas c’, no ► ‘cas d’

 

 

 

 

 

 

correcte

 

 

si

no

assignada

si

a

b

no

c

d

 

 

Ara per calcular les diferents mesures s’apliquen les següents fórmules:

 

 

x    taxa d'error = (b+c)/(a+b+c+d)

 

Quan la resposta a 2 és 'no', el cas 'b', i quan la resposta a 3) és sí, el cas 'c', són considerats errors. Per fer el càlcul es divideix els errors entre el nombre de vegades que ha actuat.

 

x    taxa d’encert = (a+d)/(a+b+c+d)

 

x    Precisió  = a/(a+b)

 

Mesura si en assignar una etiqueta l'ha encertat

 

x    Cobertura  a/(a+c)

 

Mesura si ha assignat una etiqueta a tots aquells que l'havien de tenir

 

 

La precisió i la cobertura són característiques complementàries, però donaran el mateix quan el sistema no pot assignar més d’una etiqueta per paraula, ni pot deixar cap paraula per etiquetar.

 

Per millorar la precisió es pot fer que el sistema sigui molt prudent a l’hora d’assignar una etiqueta, de tal manera que prefereix no fer abans no equivocar-se. Però potser deixa molts elements sense etiquetar, és a dir, perd cobertura. Per millorar la cobertura podem relaxar l’etiquetador i forçar que tota paraula acabi tenint una etiqueta, però correm el risc d’equivocar-nos, es clar, i baixar la precisió. El secret és cercar l’equilibri...

 

 

Exercicis

 

Avaluarem els sistemes d'assignació automàtica de categories, altrament dit ‘PoS tagger’ per al castellà

 

a.      Prepara un corpus de proves (test) amb un text d’unes 50 paraules. Pots agafar un paràgraf d’una notícia del diari.                    

b.      Pensa com voldries etiquetar el text correctament. Pensa en etiquetes com per exemple:

                        N – nom

                        A – adjectiu

                        V – verb

            Si vols tenir certa inspiració consulta en aquest quadre simplificat l’etiquetari PAROLE.

c.      Per a cada paraula, fes una llista de totes les etiquetes que podria tenir al diccionari, i després decideix quina li correspon en el text que estàs etiquetant. Aquest serà el model amb el qual hauràs de comparar el resultats del etiquetadors que vulguis provar.

d.      Tria dos (***o més si vols) etiquetadors per comparar el resultat. Estudia l’etiquetari dels etiquetadors que vulguis provar i estableix quina etiqueta o etiquetes de les seves correspondran a les teves. 

e.      Fes que etiquetin el text (la versió sense etiquetar, es clar) i compara els resultats de cada un amb el text que tu has etiquetat manualment. Per a cada un, fes un recompte de:

x    els cops que l’etiqueta assignada és correcte (= a)

x    els cops que l’etiqueta assignada és incorrecte (= b)

x    els cops que creus que no ha assignat una etiqueta possible i que ha fet malament en no fer-ho (= c)

x    els cops que no ha assignat una etiqueta possible i que ha fet bé en no fer-ho  (= d)

f.        Usa aquestes dades per confegir una taula de càlcul (amb EXCEL, per exemple) per tal d’obtenir les diferents mesures per avaluar el rendiment de cada sistema i fer una comparació entre els diferents sistemes avaluats

g.      ***Mira de fer gràfics per tal de veure les diferències de forma evident.

 

 

Preguntes

 

1.      Envia’m un document on justifiquis quin sistema dels triats et sembla millor , en relació a quines de les mesures i el perquè.

 

Sistemes per triar:

 

Alguns sistemes disponibles a internet (n’hi ha més ...):

 

 

http://clic.ub.edu Heu d’entrar a demos, Morfològic i Etiquetador

Les etiquetes estan explicades. Diu que introduïu una frase, però podeu entrar tot el text. Fixeu-vos que podeu veure quantes etiquetes té cada paraula a l’opció Lematitzador.

 

http://garraf.epsevg.upc.es/freeling/demo.php. Heu de triar la llengua i l’output: “PoS Tagging”.

 

 

http://www.connexor.com/demo/tagger/

Les etiquetes són fàcils d’entendre ja que no tenen molta informació. Fixa’t que aquest sistema basat en regles deixa alguns elements sense desambiguar.

http://protos.dis.ulpgc.es/investigacion/desambigua/desambigua.htm

De la Universidad de Gran Canaria.

 

http://brangaene.upf.es/plncorpus/index3.htm

Eines de processament de l'IULA, de la Universitat Pompeu Fabra

 

 

 

 

RECORDEU:

 

Els exercicis s’hauran de lliurar en un fitxer adjunt per correu_e i el termini és les 23:59 del dia assenyalat. El nom del fitxer ha de ser:

 

            COGNOM_INICIALNOM_[Nom del exercici].extensió, per exemple:

 

            SERRA_J_practica1.doc

 

            En cas de dificultats, els alumnes podran utilitzar l’hora de tutoria del curs per resoldre-les amb el professor.