Vés enrere Informatización y estudio del corpus PAAU (junio 1992)

Informatización y estudio del corpus PAAU (junio 1992)

Informatización y estudio del corpus PAAU (junio 1992)
IP: Paz Battaner. PB93-0392.

Corpus PAAU 1992

El Corpus PAAU, juny, 1992 (Corpus 92) és un corpus petit, de 350.000 paraules, representatiu d'un discurs escrit inexpert. Conté les respostes als exàmens de les Proves d'Accés a la Universitat -prova coneguda com a Selectivitat- de la convocatòria de juny de 1992. Els textos procedeixen de sis universitats espanyoles repartides per tot el territori nacional (Universitat de Barcelona, Complutense de Madrid, Múrcia, Oviedo, Salamanca i Sevilla), i inclouen totes les matèries que són objecte d'avaluació en aquests exàmens. El Corpus 92 es va elaborar per estudiar el text acadèmic, generalment manuscrit, que els estudiants espanyols practiquen immediatament abans d'entrar a la universitat i, en concret, per documentar el nivell de redacció dels estudiants de secundària en la seva llengua materna en l'àmbit acadèmic, i, a partir d'aquest coneixement, per proposar un ensenyament efectiu. El seu plantejament deriva d'un projecte anterior, "El texto escrito con fines específicos (discurso académico y comercial)" (DGICYT PS88-0026), desenvolupat a la Universitat de Barcelona. Els primers objectius pretenien principalment obtenir dades fiables i prou representatives per conèixer el nivell de llengua escrita acadèmica a l'entrada dels estudis universitaris. Malgrat això, la informatització de les dades ha fet que el Corpus 92 hagi tingut interès per a altres recerques lingüístiques.

Resultats de la investigació:

 1. Disponibilitat dels materials del Corpus 92 en tres subcorpus -Ciències, Comunes i Humanitats-, cadascuna en quatre versions digitalitzades.
 2. Anàlisi del domini real de la llengua escrita amb finalitats acadèmiques per part dels estudiants preuniversitaris, en els nivells següents:
  • Ortogràfic: estudi dels errors grafemàtics i de puntuació (en especial, l'ús de la coma, on es concentra la major part d'errors dels estudiants).
  • Lèxic: caracterització del vocabulari usat pels estudiants als diversos subcorpus, tant en aspecte general (comparació del vocabulari usat en diverses matèries) com particulars (per exemple, caracterització de l'ús dels adjectius i dels verbs més freqüents).
  • Sintàctic: descripció d'algunes estructures sintàctiques que plantegen dificultats especials als estudiants (per exemple, els verbs de règim).
  • Discursiu: organització general del discurs, amb atenció especial als paràgrafs inicials i finals, i a la progressió informativa, i mircroestructures específiques de cada matèria (per exemple, plantejament d'hipòtesis o clàusules de relatiu amb relació al desenvolupament informatiu).
 3. Propostes d'aplicació didàctica dels resultats de la descripció, atès que es demostra que els resultats tenen una complexitat major que la que permet la mera observació impressionista del professor a l'aula.

Convé destacar, així mateix, que els materials que componen el Corpus 92 s'han cedit al CREA de la RAE, a Microsoft (EUA) i a investigadors particulars. A més, ha estat objecte d'anàlisi en tres tesis doctorals que s'han defensat en aquest períodes. Són les corresponents a C. López, M. Pujol i E. Atienza. Així mateix, l'any 1998 es van organitzar i coordinar les "VI Jornades sobre Corpus Lingüístics. Corpus per a l'ensenyament", amb la participació dels professors G. Aston, P. Battaner, T. McEnery i F. Roussel.

Les ponències d'aquestes jornades s'han publicat a les Edicions de l'IULA, Sèrie Activitats; 6: P. Battaner i C. López ( ed. VI Jornada de Corpus Lingüístics: corpus lingüístics i ensenyament de llengües. Barcelona: Institut Universitari de Lingüística Aplicada, 1998.

Tot i que el projecte va deixar de rebre finançament oficial el 1997, cinc investigadors han continuat treballant en els materials. Succintament, els resultats de la investigació posterior són els següents:

 • Creació d'una base de dades textual que permet consultes complexes dels materials d'ús públic.
 • Estudi d'altres aspectes lingüístics de les dades disponibles. Gràcies a això, es disposa actualment d'una caracterització global del tipus de text objecte d'anàlisi.
 • Publicació del llibre Enseñar y aprender: la redacción de exámenes. Madrid: Antonio Machado Libros, 2002.
 • Publicació del llibre S. Torner, P. Battaner (ed.). El corpus PAAU 1992. Estudios descriptivos, textos y vocabulario. Barcelona: Institut Universitari de Lingüística Aplicada, DOCUMENTA UNIVERSITARIA, 2005 (Edicions de l'IULA, Sèrie Monografies; 9). Al llibre es presenten les descripcions fetes sobre el corpus etiquetat per permetre altres aplicacions possibles, especialment les que els docents vulguin fer sobre el tipus de discurs acadèmic amb què acaben els estudiants en finalitzar el batxillerat o altres estudis secundaris.

Investigadors principals

Dr. Paz Battaner
Finançat pel Ministeri d'Educació (PB93-0392)