Per la necessitat d'actualització constant de les dades, la metodologia de treball de l'Observatori de Neologia té com a base l'activitat de buidatge de textos per a l'extracció de nous neologismes. L'Observatori compatibilitza aquesta activitat amb els treballs d'anàlisi i de difusió dels neologismes.
Buidatge
El buidatge consisteix en la detecció de neologismes i creació d’un corpus de neologismes per al català i per al castellà, a partir del buidatge de textos (fonts de buidatge). Aquesta detecció es fa manualment i, seminautomàticament, amb l'eina Buscaneo. La fitxa de buidatge incorpora informació lingüística i pragmàtica dels neologismes.
Definició de neologisme
El criteri amb què treballa l’Observatori de Neologia per establir la neologicitat dels mots és el criteri lexicogràfic: es considera neologisme qualsevol paraula que no apareix en el corpus lexicogràfic d’exclusió.
S'apliquen diverses restriccions al criteri lexicogràfic: d'una banda, es consideren neologismes, encara que es documentin al corpus d’exclusió, les paraules amb marques de neologicitat. D'altra banda, no es consideren neologismes, encara que no es documentin al corpus d’exclusió, diversos tipus d'unitats com els augmentatius, diminutius i superlatius, els adverbis en -ment, etc. Actualment l'OBNEO treballa en l'aplicació de filtres que complementin el criteri lexicogràfic i que permetin distingir unitats més o menys neològiques dins del conjunt d'unitats considerades neològiques des del punt de vista lexicogràfic.
Corpus lexicogràfic d’exclusió
El corpus lexicogràfic d'exclusió és el conjunt de diccionaris utilitzats per determinar si les unitats són neològiques des d'un punt de vista lexicogràfic.
Per al català, actualment es consideren obres de referència:
- Institut d'Estudis Catalans. Diccionari de la llengua catalana [DIEC2]. Barcelona: Enciclopèdia Catalana, Edicions 62, 2007.
- Gran diccionari de la llengua catalana [GDLC]. Barcelona: Enciclopèdia Catalana, 1998.
Fins a l'aparició d'aquests diccionaris, es consideraven obres d'exclusió:
- Institut d'Estudis Catalans. Diccionari de la llengua catalana [DIEC]. Barcelona, Palma de Mallorca, València: Edicions 3 i 4, Edicions 62, Editorial Moll, Enciclopèdia Catalana, Publicacions de l'Abadia de Montserrat, 1995.
- Diccionari General de la Llengua Catalana [DGLC] de Pompeu Fabra. Barcelona: Llibreria Catalònia, 1932.
- Diccionari de la llengua catalana [DLC3]. 3a ed. Barcelona: Enciclopèdia Catalana, 1993.
- Gran Enciclopèdia Catalana [GEC2]. 2a ed. Barcelona: Enciclopèdia Catalana, 1992.
Per al castellà, es consideren obres de consulta:
- Diccionario de la Lengua Española [DRAE]. 23a. ed. Madrid: Espasa Calpe, 2015.
- Diccionario de uso del español de América y España [VOXUSO]. Barcelona: Spes Editorial SL, 2003.
Fins a l'aparició d'aquests diccionaris, es consideraven obres d'exclusió:
- LEMA. Diccionario de la Lengua Española. Barcelona: SPES editorial SL, 2001.
- Real Academia Española. Diccionario de la lengua española [DRAE]. 21a. ed. Madrid: Espasa Calpe, 1992.
- Real Academia Española. Diccionario manual e ilustrado de la lengua española [MRAE]. 4a ed. Madrid: Espasa-Calpe, 1989.
Fonts de buidatge
Actualment, l'Observatori de Neologia fa tres tipus de buidatge segons les fonts de treball: buidatge de diaris, buidatge de textos orals i buidatge de revistes.
- Buidatge de diaris
Per al català | |||
![]() |
![]() |
||
Ara des de 2010 |
El Punt Avui des de 2011 |
||
![]() |
![]() |
||
El Periódico des de 1998 |
La Vanguardia des de 2011 |
||
![]() |
|||
El País des de 2016 |
Per al castellà | |||
![]() |
![]() |
||
El País des de 1989 |
La Vanguardia des de 1989 |
||
El Periódico des de 2015 |
Anteriorment també han estat fonts de buidatge per al català: Avui, Diari de Barcelona, Nou Diari, El Punt de Girona, El Temps i Diari de Mallorca.
El nombre de diaris que es buiden anualment ha variat al llarg dels anys; actualment són aproximadament 150 entre totes dues llengües.
- Buidatge de textos orals
Des de l'any 1999 es treballa també amb textos orals de la ràdio en català i castellà. Alguns dels espais buidats són, en català: El matí de Catalunya Ràdio [Catalunya Radio], L'ofici de viure [Catalunya Ràdio], El món a RAC1 [Rac1], La tarda [La Xarxa], etc. I en castellà: Hoy por hoy [Cadena Ser], La ventana [Cadena Ser], Tolerancia cero [Radio 5], La Mañana [COPE], etc.
- Buidatge de revistes
Des de l'any 2000 es treballa també amb textos no necessàriament revisats per serveis de correcció lingüística; algunes de les fonts de buidatge són les següents: Barcelovers, Presència, Sabor..., Teletodo, Time Out Barcelona, etc.
La descripció detallada de la metodologia està disponible en format PDF en la publicació Metodologia del treball en neologia: criteris, materials i processos. Barcelona, IULA, 2004.