Poder avaluar el funcionament dels diferents sistemes de Processament del
Llenguatge Natural és una de les àrees d’estudi actualment (si voleu més
informació podeu començar per aquí). És important
saber el grau de confiança que poden oferir segons la tasca que tenen, i també
per tal de poder comparar entre diferents sistemes (i tècniques) que tenen el
mateix objectiu.
Avui ens ocuparem de les mesures d’avaluació dels sistemes d’assignació
automàtica d’etiquetes morfosintàctiques. El mètode per avaluar els sistemes
basats en regles i els que són estadístics o híbrids, no pot ser el mateix.
Penseu, que els sistemes estadístics depenen de com s’ha fet l’entrenament i
quin material es dóna per fer la prova. Per mesurar el funcionament correcte
d'aquests sistemes s'usa la següent metodologia. Es confegeix un corpus inicial
del qual es parteix en dues parts:
- la part que s'usarà per fer l'entrenament
(per fer que el sistema aprengui o computi les probabilitats) i
-
la part que usarem solament per al test o la prova de funcionament. És
important tenir dades de les que estem segurs que el sistema no ha vist mai,
per mesurar la seva capacitat de treballar amb material nou de forma correcta.
Els sistemes buscant al diccionari totes les possibilitats de cada paraula
que troben al text. Quan hi ha més d’una etiqueta n’han de triar una. El que
avaluem és l’encert en triar una etiqueta entre varies.
Els sistemes basats en regles, no necessiten d’aquest protocol, perquè en
principi el seu funcionament dependrà del coneixement expressat en les regles.
Per avaluar i poder comparar els diferents sistemes s'usen mesures
estadístiques estàndard com la taxa d’error, la d’encert (“accuracy”), la
precisió (“precision”) i la cobertura (“recall”). Totes es calculen usant una
taula de contingències com aquesta que es pot llegir de la següent forma.
Pel que fa a la relació de cada etiqueta amb
cada paraula,
1) l'etiqueta ha estat assignada?
2) l'etiqueta que sí ha estat assignada, era
correcte? sí ► ‘cas a’, no ► ‘cas b’
3) l'etiqueta que no ha estat assignada,
havia d'haver estat assignada? sí
► ‘cas c’, no ► ‘cas d’
|
|
|
correcte |
|
|
|
|
si |
no |
|
assignada |
si |
a |
b |
|
no |
c |
d |
|
Ara per calcular les diferents mesures s’apliquen les següents fórmules:
x taxa d'error =
(b+c)/(a+b+c+d)
Quan la resposta a 2 és 'no', el cas 'b', i quan la resposta a 3) és sí, el
cas 'c', són considerats errors. Per fer el càlcul es divideix els errors entre
el nombre de vegades que ha actuat.
x taxa d’encert =
(a+d)/(a+b+c+d)
x Precisió = a/(a+b)
Mesura si en assignar una etiqueta l'ha encertat
x Cobertura a/(a+c)
Mesura si ha assignat una etiqueta a tots aquells que l'havien de tenir
La precisió i la cobertura són característiques complementàries, però
donaran el mateix quan el sistema no pot assignar més d’una etiqueta per
paraula, ni pot deixar cap paraula per etiquetar.
Per millorar la precisió es pot fer que el sistema sigui molt prudent a
l’hora d’assignar una etiqueta, de tal manera que prefereix no fer abans no
equivocar-se. Però potser deixa molts elements sense etiquetar, és a dir, perd
cobertura. Per millorar la cobertura podem relaxar l’etiquetador i forçar que
tota paraula acabi tenint una etiqueta, però correm el risc d’equivocar-nos, es
clar, i baixar la precisió. El secret és cercar l’equilibri...
Avaluarem els sistemes d'assignació
automàtica de categories, altrament dit ‘PoS tagger’ per al castellà
a. Prepara un corpus de
proves (test) amb un text d’unes 50 paraules. Pots agafar un paràgraf d’una
notícia del diari.
b. Pensa com voldries
etiquetar el text correctament. Pensa en etiquetes com per exemple:
N – nom
A – adjectiu
V – verb
Si vols tenir certa inspiració
consulta en aquest quadre simplificat l’etiquetari PAROLE.
c. Per a cada paraula,
fes una llista de totes les etiquetes que podria tenir al diccionari, i després
decideix quina li correspon en el text que estàs etiquetant. Aquest serà el
model amb el qual hauràs de comparar el resultats del etiquetadors que vulguis
provar.
d. Tria dos (***o més si
vols) etiquetadors per comparar el resultat. Estudia l’etiquetari dels
etiquetadors que vulguis provar i estableix quina etiqueta o etiquetes de les
seves correspondran a les teves.
e. Fes que etiquetin el
text (la versió sense etiquetar, es clar) i compara els resultats de cada un
amb el text que tu has etiquetat manualment. Per a cada un, fes un recompte de:
x els cops que
l’etiqueta assignada és correcte (= a)
x els cops que
l’etiqueta assignada és incorrecte (= b)
x els cops que creus
que no ha assignat una etiqueta possible i que ha fet malament en no fer-ho (=
c)
x els cops que no ha
assignat una etiqueta possible i que ha fet bé en no fer-ho (= d)
f.
Usa aquestes dades per confegir una taula de càlcul (amb EXCEL, per
exemple) per tal d’obtenir les diferents mesures per avaluar el rendiment de
cada sistema i fer una comparació entre els diferents sistemes avaluats
g. ***Mira de fer
gràfics per tal de veure les diferències de forma evident.
1. Envia’m un document
on justifiquis quin sistema dels triats et sembla millor , en relació a quines
de les mesures i el perquè.
Alguns sistemes disponibles a internet (n’hi ha més ...):
http://clic.ub.edu Heu d’entrar a demos,
Morfològic i Etiquetador
Les etiquetes estan explicades. Diu que introduïu una frase, però podeu
entrar tot el text. Fixeu-vos que podeu veure quantes etiquetes té cada paraula
a l’opció Lematitzador.
http://garraf.epsevg.upc.es/freeling/demo.php.
Heu de triar la llengua i l’output: “PoS Tagging”.
http://www.connexor.com/demo/tagger/
Les etiquetes són fàcils d’entendre ja que no tenen molta informació.
Fixa’t que aquest sistema basat en regles deixa alguns elements sense
desambiguar.
http://protos.dis.ulpgc.es/investigacion/desambigua/desambigua.htm
De la Universidad de Gran Canaria.
http://brangaene.upf.es/plncorpus/index3.htm
Eines de processament de l'IULA, de la Universitat Pompeu Fabra
RECORDEU:
Els
exercicis s’hauran de lliurar en un fitxer adjunt per correu_e i el termini és
les 23:59 del dia assenyalat. El nom del fitxer ha de ser:
COGNOM_INICIALNOM_[Nom del
exercici].extensió, per exemple:
SERRA_J_practica1.doc
En
cas de dificultats, els alumnes podran utilitzar l’hora de tutoria del curs per
resoldre-les amb el professor.