Per la necessitat d'actualització constant de les dades, la metodologia de treball de l'Observatori de Neologia té com a base l'activitat de buidatge de textos per a l'extracció de nous neologismes. L'Observatori compatibilitza aquesta activitat amb els treballs d'anàlisi i de difusió dels neologismes.

 

Buidatge

El buidatge consisteix en la detecció de neologismes i creació d’un corpus de neologismes per al català i per al castellà, a partir del buidatge de textos (fonts de buidatge). Aquesta detecció es fa manualment i, seminautomàticament, amb l'eina Buscaneo. La fitxa de buidatge incorpora informació lingüística i pragmàtica dels neologismes.

Definició de neologisme

El criteri amb què treballa l’Observatori de Neologia per establir la neologicitat dels mots és el criteri lexicogràfic: es considera neologisme qualsevol paraula que no apareix en el corpus lexicogràfic d’exclusió.

S'apliquen diverses restriccions al criteri lexicogràfic: d'una banda, es consideren neologismes, encara que es documentin al corpus d’exclusió, les paraules amb marques de neologicitat. D'altra banda, no es consideren neologismes, encara que no es documentin al corpus d’exclusió, diversos tipus d'unitats com els augmentatius, diminutius i superlatius, els adverbis en -ment, etc. Actualment l'OBNEO treballa en l'aplicació de filtres que complementin el criteri lexicogràfic i que permetin distingir unitats més o menys neològiques dins del conjunt d'unitats considerades neològiques des del punt de vista lexicogràfic.

Corpus lexicogràfic d’exclusió

El corpus lexicogràfic d'exclusió és el conjunt de diccionaris utilitzats per determinar si les unitats són neològiques des d'un punt de vista lexicogràfic.

Per al català, actualment es consideren obres de referència:

  • Institut d'Estudis Catalans. Diccionari de la llengua catalana [DIEC2]. Barcelona: Enciclopèdia Catalana, Edicions 62, 2007.
  • Gran diccionari de la llengua catalana [GDLC]. Barcelona: Enciclopèdia Catalana, 1998.

Fins a l'aparició d'aquests diccionaris, es consideraven obres d'exclusió:

  • Institut d'Estudis Catalans. Diccionari de la llengua catalana [DIEC]Barcelona, Palma de Mallorca, València: Edicions 3 i 4, Edicions 62, Editorial Moll, Enciclopèdia Catalana, Publicacions de l'Abadia de Montserrat, 1995.
  • Diccionari General de la Llengua Catalana [DGLC] de Pompeu Fabra. Barcelona: Llibreria Catalònia, 1932.
  • Diccionari de la llengua catalana [DLC3]. 3a ed. Barcelona: Enciclopèdia Catalana, 1993.
  • Gran Enciclopèdia Catalana [GEC2]2a ed. Barcelona: Enciclopèdia Catalana, 1992.

Per al castellà, es consideren obres de consulta:

  • Diccionario de la Lengua Española [DRAE]. 23a. ed. Madrid: Espasa Calpe, 2015.
  • Diccionario de uso del español de América y España [VOXUSO]. Barcelona: Spes Editorial SL, 2003.

Fins a l'aparició d'aquests diccionaris, es consideraven obres d'exclusió:

  • LEMA. Diccionario de la Lengua Española. Barcelona: SPES editorial SL, 2001.
  • Real Academia Española. Diccionario de la lengua española [DRAE]. 21a. ed. Madrid: Espasa Calpe, 1992.
  • Real Academia Española. Diccionario manual e ilustrado de la lengua española [MRAE]. 4a ed. Madrid: Espasa-Calpe, 1989.

 

Fonts de buidatge

Actualment, l'Observatori de Neologia fa tres tipus de buidatge segons les fonts de treball: buidatge de diaris, buidatge de textos orals i buidatge de revistes.

  • Buidatge de diaris
Per al català
ARA.cat El Punt AVUI
Ara
des de 2010
El Punt Avui
des de 2011
La Vanguardia
El Periódico
des de 1998
La Vanguardia
des de 2011
El País  
El País
des de 2016
 
Per al castellà
El País La Vanguardia
El País
des de 1989
La Vanguardia
des de 1989
 
El Periódico
des de 2015
 

Anteriorment també han estat fonts de buidatge per al català: Avui, Diari de Barcelona, Nou Diari, El Punt de Girona, El Temps i Diari de Mallorca.

El nombre de diaris que es buiden anualment ha variat al llarg dels anys; actualment són aproximadament 150 entre totes dues llengües.

  • Buidatge de textos orals

    Des de l'any 1999 es treballa també amb textos orals de la ràdio en català i castellà. Alguns dels espais buidats són, en català: El matí de Catalunya Ràdio [Catalunya Radio], L'ofici de viure [Catalunya Ràdio], El món a RAC1 [Rac1], La tarda [La Xarxa], etc. I en castellà: Hoy por hoy [Cadena Ser], La ventana [Cadena Ser], Tolerancia cero [Radio 5], La Mañana [COPE], etc.

  • Buidatge de revistes
    Des de l'any 2000 es treballa també amb textos no necessàriament revisats per serveis de correcció lingüística; algunes de les fonts de buidatge són les següents: Barcelovers, Presència, Sabor..., TeletodoTime Out Barcelona, etc.

La descripció detallada de la metodologia està disponible en format PDF en la publicació Metodologia del treball en neologia: criteris, materials i processos. Barcelona, IULA, 2004.