Atrás Informatización y estudio del corpus PAAU (junio 1992)

Informatización y estudio del corpus PAAU (junio 1992)

Informatización y estudio del corpus PAAU (junio 1992)
IP: Paz Battaner. PB93-0392.

 

Corpus PAAU 1992

El Corpus PAAU, junio, 1992 (Corpus 92) es un corpus pequeño, de 350.000 palabras, representativo de un discurso escrito inexperto. Contiene las respuestas a los exámenes de las Pruebas de Acceso a la Universidad -prueba conocida como Selectividad- de la convocatoria de junio de 1992. Los textos proceden de seis universidades españolas repartidas por todo el territorio nacional (Universidad de Barcelona, Complutense de Madrid, Murcia, Oviedo, Salamanca y Sevilla), y comprenden todas las materias que son objeto de evaluación en estos exámenes. El Corpus 92 se elaboró para estudiar el texto académico, generalmente manuscrito, que los estudiantes españoles practican inmediatamente antes de entrar en la Universidad y en concreto para documentar el nivel de redacción de los estudiantes de Secundaria en su lengua materna en ámbito académico y partir de este conocimiento para proponer una enseñanza efectiva. Su planteamiento deriva de un proyecto anterior, "El texto escrito con fines específicos (discurso académico y comercial)" (DGICYT PS88-0026), desarrollado en la UB. Los primeros objetivos atendían principalmente a tener datos fiables y suficientemente representativos como para conocer el nivel de lengua escrita académica a la entrada de los estudios universitarios. Sin embargo, la informatización de los datos ha hecho que el Corpus 92 haya tenido interés para otras investigaciones lingüísticas.

Resultados de la investigación:

  1. Disponibilidad de los materiales del Corpus 92 en tres subcorpus -Ciencias, Comunes y Humanidades-, cada una de ellos en cuatro versiones digitalizadas.
  2. Análisis del dominio real de la lengua escrita con fines académicos por parte de los estudiantes preuniversitarios, en los niveles:
    • Ortográfico: estudio de los errores grafemáticos y de puntuación (en especial, el uso de la coma, donde se concentra la mayor parte de errores de los estudiantes);
    • Léxico: caracterización del vocabulario usado por los estudiantes en los distintos subcorpus, tanto en aspecto generales (comparación del vocabulario usado en distintas materias) como particulares (por ejemplo, caracterización del uso de los adjetivos y de los verbos más frecuentes).
    • Sintáctico: descripción de algunas estructuras sintácticas que plantean especiales dificultades a los estudiantes (por ejemplo, los verbos de régimen).
    • Discursivo: organización general del discurso, con atención especial a los párrafos iniciales y finales y a la progresión informativa, y microestructuras específicas de cada materia (por ejemplo, planteamiento de hipótesis o cláusulas de relativo en relación con el desarrollo informativo).
  3. Propuestas de aplicación didáctica de los resultados de la descripción, pues se demuestra que éstos tienen una complejidad mayor que la que permite la mera observación impresionista del profesor en el aula.

Conviene destacar, así mismo, que los materiales que componen el Corpus 92 se han cedido al CREA de la RAE, a Microsoft (E.E.U.U.) y a investigadores particulares. Además, ha sido objeto de análisis en tres tesis doctorales que se han defendido en este período, las correspondientes a C. López, M. Pujol y E. Atienza. Así mismo, se organizaron y coordinaron en 1998 las "VI Jornades sobre Corpus Lingüístics. Corpus per a l'ensenyament", con la participación de los profesores G. Aston, P. Battaner, T. McEnery y F. Roussel.

Las ponencias de estas jornadas se han publicado en las Edicions de l'IULA, Sèrie Activitats; 6: P. Battaner i C. López ( ed. VI Jornada de Corpus Lingüístics: corpus lingüístics i ensenyament de llengües. Barcelona: Institut Universitari de Lingüística Aplicada, 1998.

Aunque el proyecto dejó de recibir subvención oficial en 1997, cinco investigadores han continuado trabajando en los materiales. Sucintamente, los resultados de la investigación posterior son los siguientes:

  • Creación de una base de datos textuales que permite consultas complejas de los materiales, de uso público.
  • Estudio de otros aspectos lingüísticos de los datos que ya hay. Gracias a ello, se dispone en la actualidad de una caracterización global del tipo de texto objeto de análisis.
  • Publicación del libro Enseñar y aprender: la redacción de exámenes. Madrid: Antonio Machado Libros, 2002.
  • Publicación del libro S. Torner, P. Battaner (ed.). El corpus PAAU 1992. Estudios descriptivos, textos y vocabulario. Barcelona: Institut Universitari de Lingüística Aplicada, DOCUMENTA UNIVERSITARIA, 2005 (Edicions de l'IULA, Sèrie Monografies; 9). En él se presentan las descripciones hechas sobre el corpus ya etiquetado para posibilitar otras aplicaciones posibles, especialmente las que los docentes quieran hacer sobre el tipo de discurso académico con el que acaban los estudiantes al finalizar el Bachillerato u otros estudios secundarios.

Investigadores principales

Dr. Paz Battaner
Financiado por el Ministerio de Educación (PB93-0392)