Panorámica y tendencias en topic maps

Autores: José Antonio Moreiro; Sonia Sánchez Cuadrado; Jorge Morato (Universidad Carlos III de Madrid)

Citación recomendada: J.A. Moreiro; S. Sánchez Cuadrado; J. Morato. Panorámica y tendencias en topic maps [en linea]. "Hipertext.net", núm. 1, 2003. <http://www.hipertext.net>

Sumario

  1. Introducción
  2. Elementos principales
    2.1. Topics
      2.1.1. Names
      2.1.2. Occurrences
      2.1.3. Associations
  3. Perspectivas de los TM
    3.1. Adaptación a distintos perfiles de usuarios
    3.2. Recuperación de información con TM en la web
      3.2.1. Navegabilidad e inferencia
      3.2.2. Visualización
      3.2.3. Recuperación
    3.3. Relación con otros recursos para representar el conocimiento
    3.4. Creación de TM
      3.4.1. Fusión de recursos y templates
      3.4.2. Consistencia y validación del resultado
  4. Conclusiones
  5. Bibliografía
  6. Anexos
    6.1. Organizaciones relacionadas
    6.2. Enlaces a documentación sobre TM
    6.3. Estandares y recomendaciones en TM
    6.4. Estandares relacionados
    6.5. Demos y shareware

Resumen

Los Topic Maps son un estándar que se está implantando en el web y que posibilita la navegación conceptual. Se presenta una panorámica de los Topic Maps que refleje los distintos aspectos de su interés. Estos son, por un lado los que representan alguna novedad en su implantación en el web, como la navegación conceptual o la inferencia, por otro lado, los que concentran una gran actividad investigadora en este estándar, como las reglas de consistencia, validación o las propiedades que permitan la inferencia.

Palabras clave

Topic Maps, Web semántica, inferencia.

 

1. Introducción

Nos proponemos analizar en este informe las ventajas y líneas de investigación que ha abierto el nuevo estándar Topic Maps (TM). Un TM tiene como finalidad normalizar los elementos y la notación utilizada para estructurar la información mediante la construcción de una red de enlaces semánticos que relacionen diferentes recursos informativos.

TM tiene su origen en el grupo de Davenport, un foro destinado a productores de libros electrónicos que surgió a principios de la década de los 90. En 1993 se propuso la creación de una norma cuyo principal objetivo fuera posibilitar la fusión de índices impresos. Posteriormente evolucionó hacia otras estructuras (como tesauros), hasta llegar a ser una herramienta considerada en la web para la organización, representación y gestión del conocimiento. La primera versión oficial del estándar ISO/IEC data del año 2000.

En la práctica, la implementación de los TM se diseñó para arquitectura SGML con notación de HyTime, la DTD del estándar ISO/IEC 13250:2000 se ha mantenido en HyTime. No obstante, esta notación ha caído en desuso tras la aparición de XML. En este caso, las causas del desplazamiento de la notación de HyTime se deben a la creación de una DTD para crear Topic Maps en XML, denominada XTM, y al auge que ha obtenido XML. En cualquier caso, actualmente se pueden encontrar ejemplos de ambos lenguajes en la Web (ver sección de demos al final del artículo).

Dada la novedad del estándar TM y su, todavía, escasa implantación en el web, se ha considerado oportuno revisar, en primer lugar, sus elementos principales, para luego centrarnos en su análisis y perspectivas futuras. En el presente documento se ha optado por mantener los términos originales en inglés para eliminar ambigüedades en los ejemplos de XML.

 

2. Elementos principales

Los elementos principales de los Topic Maps son los topics , las occurrences y las associations. Aunque hablando con rigor, occurrences y associations representan sólo una parte del topic. Esto se puede ver mejor con un ejemplo.

Una persona para identificarse sin ambigüedad no solo tiene que decir su nombre, si no que también se le suelen pedir otros datos como el DNI o los nombres de los padres. Análogamente, si tengo un topic que sea "Blanca" para definirlo sin confusión puedo asociarlo a otros datos o documentos como que se trata de una "persona" (topic type), con "DNI 0000000"(occurrence), hijo de "x" y de "y"(associations). En las próximas líneas, vamos a definir los elementos fundamentales del Topic Maps.

 

2.1. Topics

Un topics es el elemento principal de un TM, es el término que expresa determinado concepto o idea (o subject , como se denomina en el estándar). Ejemplos de topics pueden ser "Europa", "persona", "idea" o "continente".

Los topics se pueden asociar con otros topics denominados topic types , p.e "Europa" puede tener un topic type que sea "continente". Los topic types definen relaciones clase-instancia, para las relaciones superclase-subclase se debe de crear una association específica.

Ejemplo definición de Topic type

1000020000000210000000BF87D26594

Los topics tienen tres características principales: su denominación (names), sus apariciones (occurrences) y su rol en las asociaciones (role associations). Dos topics con características equivalentes se consideran semánticamente idénticos. A continuación se describen estas características:

 

2.1.1. Names

Un topic puede tener varias denominaciones, pero debe estar representado por una forma base (base name). El base name es un elemento obligatorio y representa la forma usual de hacer mención al topic. Es complementario del identificador interno (id). Los base name deben de ser únicos en un dominio determinado bajo un scope dado.

Un aspecto interesante cuando se fusionan dos TM es el procedimiento con los distintos base names de los topics que hacen mención a un mismo subject (concepto). En este caso habría que normalizar los base names de alguna manera, para esto se recurre a los public subject , que es un recurso que identifica al subject de forma no ambigua.

Además el topic puede tener otras denominaciones (alternative names), como el display name , que es la forma en la que se mostrará al usuario, y el sort name , que es como se ordenará alfabéticamente cuando se saque un listado.

Ejemplo definición de Topic en XML

100002000000021000000069A6E8D92D


2.1.2. Occurrences

Ocurrences son enlaces a recursos informativos, p.e. una página web. Son elementos opcionales que son relevantes a un topic dado, es decir un topic puede tener cero o muchas occurrences. Los recursos informativos pueden ser de muchos tipos, puede ser una cita de un texto, una definición, una ley, un artículo, etc. Cada uno de los diferentes tipos documentales puede ser agrupado mediante Occurrence roles (p.e. diccionario, página web, imagen, etc). Hay que hacer notar que la mayoría de estas occurrences suelen ser externas al TM, siendo una situación análoga a la que siempre ha existido entre un tesauro y la indización documental realizada con ese tesauro.

Ejemplo definición de Occurrence

1000020000000204000000E53F991E0B

Existen dos tipos de ocurrences : resourceRef que es un enlace a un recurso externo de información; y resourceData que es algún dato no externo que se facilita (p.e. en el siguiente ejemplo, la definición es un resource Data). Notese que a cada ocurrence le corresponde un solo enlace.

100002000000021C000000F5671777AA

Cuando se diseña un TM se suele aconsejar que el número de occurrences se limite a unos pocos recursos muy relevantes.

 

2.1.3. Associations

La association es un enlace que establece una relación entre dos o más topics. Una forma de verlo es tomar una frase y considerar los sustantivos de esas frases como topics empleando los términos de unión entre los topics para denominar la asociación. Por ejemplo:

"la trementina se obtiene de la resina"

"el pino silvestre se denomina pino albar"

"la resina está en los pinos"

"las flores masculinas se localizan en las ramas bajas"

"En Cádiz encontramos pinsapos"

"las piñas están formadas por piñones"

Las associations se pueden agrupar por Association type. De este modo se puede agrupar "se encuentra en" y "se localiza en" como una association type de "ubicación".

Existen otros elementos que disminuyen la ambigüedad, así por Association roles hacemos referencia al rol que desempeña determinado topic en una association. En la frase "En Cádiz encontramos pinsapos" tenemos que "Cádiz" desempeña un rol de lugar y el término "pinsapo" designa un tipo de árbol.

Ejemplo de Association roles : En una asocciation , los topics se denominan miembros y los miembros representan roles, por ejemplo de la frase "Pedro da clase a José en la academia" se puede obtener la siguiente representación ternaria:

100002000000012D0000006BEDBFE91D

Sin añadir más información no podré saber quién es el profesor y quién el alumno. Esta información se puede expresar mediante roles:

100002000000012D00000078BFF376E9

Como anteriormente, los roles "alumno", "lugar" y "profesor" deberán ser definidos como topics , al igual que "José", "Pedro" y "da clase"

La forma de expresarlo en XML es la siguiente:

100002000000021000000167091FD1B9

3. Perspectivas de los TM

En la siguiente sección se analizaran brevemente distintos aspectos de los TM, bien por ser una propuesta de alguna forma novedosa, bien por representar una de las vías sobre TM en las que se concentra más esfuerzo. En concreto nos centraremos en los siguientes elementos:

  • Adaptación a distintos perfiles de usuarios

  • Recuperación de información mediante TM en el web: navegabilidad e inferencia, visualización y recuperación

  • Relación con otros recursos para representar el conocimiento (KR)

  • Creación de TM: métodos de creación de nuevos TM y consistencia del resultado

3.1. Adaptación a distintos perfiles de usuarios

Un TM ofrece la posibilidad de adaptarse a diferentes perfiles de usuarios. El modo de llevarlo a cabo es considerando dos tipos de filtrados. Por un lado, a través del scope que filtra diferentes topics y themes (temas) para una determinada comunidad. Por otro, las facets que se encargan de filtrar recursos informativos, por ejemplo, ofrecer a determinado usuario sólo los recursos informativos que estén en español.

Scopes y Themes Los scopes y los themes representan el ámbito en el que las afirmaciones realizadas sobre algún name , occurrence o association de un topic tienen coherencia y validez. Un theme es la forma en que se denomina un determinado scope.

Ejemplos de scopes en XML

1000020000000234000001ACB65DDD13

En resumen, los scopes son el medio para filtrar topics.

Facets Las facets proporcionan un mecanismo para asignar pares de propiedad-valor a los recursos de información, por ejemplo, considerar solamente documentos en un idioma dado o con una aplicación determinada (experimental, práctica...).

3.2. Recuperación de información con TM en la web

3.2.1. Navegabilidad e inferencia

La navegación tradicional en la web se realiza mediante hiperenlaces que asocian unos recursos informativos a otros, es decir se realiza entre occurrences. Uno de los principales beneficios de los TM reside en la navegabilidad, con TM se puede navegar mediante hiperenlaces entre topics que no tengan un recurso asociado.

No obstante, la navegabilidad entre topics (o occurrences) relacionados no tiene un sentido lógico, dicho de otro modo, por si misma la asociación que se establece entre Cádiz y Pinsapos en la frase "en Cádiz se encuentran Pinsapos" sólo afirma que Cádiz está relacionado con los Pinsapos y los Pinsapos con Cádiz, y que desde cualquiera de los dos elementos se puede acceder ("navegar") hacia el otro.

Otro aspecto interesante de la utilización de TM en la Web es la inferencia. Es decir los mecanismos por los que podemos obtener una información no explicita en el TM.

Las inferencias que se pueden realizar a partir de un conjunto de asociaciones están marcadas por las propiedades que tienen las association type implicadas. Aunque en la literatura se mencionan distintas propiedades como la reflexiva, conectiva, etc. (Rath, 1999) en esta sección nos centraremos en la transitiva y simétrica por ser las más empleadas para inferencia y creación de TM. A continuación se analizan estas propiedades someramente:

Simetría La frase "el pino silvestre se denomina también pino albar" se podría haber escrito "el pino albar se denomina también pino silvestre" sin modificar su semántica. Frecuentemente las relaciones simétricas establecen una relación entre dos rol types idénticos o similares (p.e. en el ejemplo, el rol type de "pino albar" y de "pino silvestre" podría ser en ambos casos árbol). Las sinonimias son un ejemplo de association type que tiene esta propiedad.

Transitividad Es la propiedad que permite declarar implícitamente un hecho a través de varias associations , se suele encontrar en las association types de tipo superclase-subclase (pero no en la tipo-instancia) y parte-todo. Un ejemplo, a partir de "la trementina es parte de la resina" y "la resina es parte de los pinos" se puede deducir que la trementina está en los pinos.

De cualquier modo, ni con las asociaciones más conocidas la inferencia está siempre clara. Uno de estos casos, con una association type parte-todo, podría ser decir que "Los píes de Juan son una parte de Juan" y que "Juan es parte de la plantilla de una editorial", sonaría extraño deducir que "el píe de Juan es parte de la plantilla de una editorial", en este caso el problema es que la relación entre Juan y sus extremidades es mucho más fuerte que entre Juan y su puesto de trabajo.

Inferencias basadas en conjuntos de association type no homogéneas Por supuesto existen otros tipos de inferencias no transitivas, este es el caso cuando se quieren enlazar un conjunto heterogéneo de association types. Un ejemplo, si A es hijo de B y primo de C; y A y C son nietos de D entonces puedo decir que B es sobrino de A. La forma en que un sistema puede llegar a esta conclusión queda, hoy por hoy, fuera del alcance de TM. Téngase en cuenta que habría que estudiar que association types o que subconjuntos de estas y en que condiciones se pueden llegar a enlazar para llegar a una determinada deducción.

Lamentablemente, aunque los autores de TM (Rath, 1999) hablan a menudo de estas propiedades para hacer inferencias o ampliar un TM, ni el estándar ni las DTD publicadas incluyen esta información dentro del TM. En la práctica es una parte del sistema el que hace estas inferencias como es el caso de K-42 (http://k42.empolis.co.uk/). De cualquier forma sobre la forma de incluirlo en el Topic Map existen propuestas como la de Rath (2000) que contiene esta información dentro de las facetas o la de Freese (2000) que sugiere contenerlo en la sintaxis XML al definir el TM incluyendo una etiqueta rule de las association type , p.e.:

<rule reflexive="0" transitive="0" symmetrical="0" type="member-collection">

3.2.2. Visualización

Los TM representan una de las principales propuestas para la visualización de la web semántica (Le Grand, 2002). Existe una problemática obvia en este tema cuando se tiene en cuenta que un TM puede tener cientos de miles de asociaciones de diferente tipología (association types, roles, occurrences , etc). Actualmente, entre las representaciones propuestas destacan los árboles, los browsers y los gráficos. A la hora de analizar estas representaciones se debe tener en cuenta que muestren tanto información local de los topics que interesan al usuario, como información sobre la localización de esos topics en el conjunto del TM. A continuación se muestran ejemplos de estas representaciones:

Árbol con hipervínculos: árbol con hiperenlaces. Uno de los principales inconvenientes de este planteamiento, es que si bien la percepción del TM es más sencilla para el usuario, no pasa lo mismo con los distintos elementos del TM. La tipología de los TM (topics , occurrences , roles , types) hace que el usuario pueda desorientarse ante un árbol de estas características.

10000000000001F400000177D58A09A5

Tomado de K42 Hyperbolic Tree ( http://k42.empolis.co.uk/demo/demo.html )

Browser: Es decir como un árbol de directorios del Web, en la figura se muestra el resultado de buscar por el topic "opera" en "V" Topic Map browser.

Gráfico: se muestra un nodo principal y los nodos más próximos. Un ejemplo se puede ver en http://www.thebrain.com

10000000000001F400000177F1142FBA

Tomado de 'V' Topic Map Browser (http://www.topicmapping.com/newV)

 

3.2.3. Recuperación

Los mecanismos de inferencia y la declaración de los distintos type del TM pueden mejorar en gran medida los sistemas de recuperación. Así si se pregunta por "productos extraídos de los árboles", mediante los topic type podré saber que "pino" es un <árbol>, "resina" un <producto> que tiene una association type <obtenidos de> con "pino", y que por la propiedad transitiva me permite llegar el <producto> "trementina", así podré contestar a la pregunta con los términos "resina" y "trementina".

Existen distintas propuestas sobre lenguajes para recuperar TM de la manera descrita, destacan TMQL, un lenguaje que será próximamente un estándar ISO (ver anexo), y TOLOG, un lenguaje desarrollado por Ontopia.

3.3. Relación con otros recursos para representar el conocimiento

Los TM se proponen para modelar redes semánticas. Por ejemplo, si nos centramos en la relación entre un TM y un tesauro vemos que los tesauros no son más que un caso particularmente simple de TM, donde tan solo existen tres association types (jerarquía, sinonimia y relacionado). Así, las relación de jerarquía es una association type que podría denominarse "es un" o "es una clase de".

Ciertamente al diferir el modelado inicial de TM y tesauros el engarce no es siempre obvio. Por ejemplo, no parece tan evidente si la diferencia entre descriptores y no-descriptores está más ligada a la pareja [ subject-topic, base name ] o a [ topic base name-alternative names ]. Otras diferencias con los tesauros están más unidas al momento histórico en que cada propuesta tuvo lugar, así los tesauros son normalmente productos muy incorporados a una única organización (centralizados) y cuya presentación en formato electrónico es solo una característica extra pero no un requisito. Los TM son productos descentralizados que mejoran con la cooperación de distintas organizaciones y que tienen esencialmente un formato electrónico.

Otro aspecto interesante es la relación con la gestión del conocimiento (KM o Knowledge Management). Si analizamos la diferencia entre información y KM es la misma que entre tener un libro y saber de la materia que trata el libro. Esto es, KM comprende la generación, codificación y transmisión de la información, representando TM una herramienta muy valiosa para esta codificación. Mediante las reglas que aseguran la inferencia se puede llegar a realizar un KM basado en TM.

Por último, los TM tiene una estrecha conexión con RDF (Resource Description Framework) ya que, según Le Grand (2002) y otros autores, ambos están destinados a ser complementarios. La diferencia es que TM es independiente de que existan recursos informativos o no, permitiendo en ocasiones una navegación entre conceptos. Por otra parte RDF, según Sigel (2000), está más centrado en la descripción de recursos informativos y no trata la semántica de las relaciones entre metadatos.

3.4. Creación de TM

Existen varios métodos que pueden simplificar la creación de un nuevo TM. Por ejemplo, como se mencionó anteriormente, mediante las propiedades de las asociaciones se pueden obtener nuevas asociaciones distintas a las originales. Otras posibles vías son la fusión de recursos o la creación a partir del procesamiento del lenguaje natural (PLN). El PLN, consiste en analizar frases en lenguaje libre, para identificar estructuras verbales que puedan asociarse automáticamente a determinados association types , presenta muchos problemas debido a la ambigüedad y riqueza del lenguaje, por lo que nos centraremos en la fusión de recursos.

3.4.1. Fusión de recursos y templates

Para crear un TM el método más obvio es fusionar distintas representaciones del conocimiento de un área o distintos TM (o templates) para que sirvan de punto de partida para el nuevo TM. Hay que tener en cuenta que el origen del estándar fue precisamente facilitar la fusión de recurso, siendo este uno de los puntos fuertes. La única condición previa para que esta unión tenga éxito es que los subjects y sus topics relacionados estén bien definidos y que en caso de duda se recurra a la public subject.

Un TM template no es más que un Topic Map que contiene los themes y types básicos (topic types , occurrence role types , association types y association role types) de un dominio. Frecuentemente, a estos elementos se les denomina la parte declarativa de un TM. Su ventaja principal en la creación de TM es la de actuar como un punto de inicio para crear otros TM. No existe ninguna razón por la que no puedan existir varios templates en la generación de un TM. Resulta interesante añadir al template información sobre las superclases y subclases y las restricciones de consistencia. Entre otras una de las grandes ventajas de los templates es el llegar a un consenso sobre cuantas association type deben de existir en determinado TM, téngase en cuenta que un número elevado de estas asociaciones no produce una mejora para manejar el TM.

3.4.2. Consistencia y validación del resultado

Un TM puede llegar a tener miles de topics y associations , por lo que no resulta práctico revisarlas manualmente para identificar posibles inconsistencias y errores. De nuevo ni en el estándar ni en las DTD relacionadas se sugiere ningún mecanismo para solventar estos problemas.

Las reglas que se han propuesto para asegurar la consistencia se centran principalmente en ver que association role types son validas para determinada association type , un ejemplo:

Con los role types podemos decir que en Cádiz <provincia> hay Pinsapos <árboles>, pero resulta absurdo decir que en un <árbol> hay una <provincia>. Análogamente, se puede decir que las flores <parte de la planta> está en el pino <planta>, pero no puedo decir que el pino <planta> está en las flores <parte de la planta>, subiendo en la jerarquía, mediante role types y la propiedad transitiva, podría tener una regla que fuera que el <contenido> esta en <continente> pero no al contrario. Reglas similares se pueden crear para occurrences, scopes y topic names.

Otro problema es la validación, es decir si tras una fusión o una generación de un TM a partir del PLN. Se puede llegar a associations redundantes o incluso incompatibles. Por associations redundantes nos referimos a aquellas que no aportan información por poderse obtener los mismos datos mediante otras associations. Por associations incompatibles nos referimos a aquellas relaciones que pueden indicar por la propiedad transitiva diferentes tipos de relaciones referidas al mismo concepto. Para validar estas associations es necesario tener reglas que comprueben que es coherente el resultado.

4. Conclusiones

Por lo tanto, las ventajas que tiene TM para representar la web semántica se resumen en:

  • Los TM, pueden dar semántica a elementos que están en el web al organizarlos y describirlos, pero sin modificarlos.

  • Perfiles de usuarios: mediante el scope y el theme permite adaptarse a distintas comunidades compartiendo recursos informativos

  • Navegabilidad e inferencia mediante estructuras semánticas. Lo cual mejora no solo la recuperación de información, sino también la gestión del conocimiento y el mantenimiento de los TM. En este punto es también interesante recordar la independencia de los recursos informativos que tiene TM, pudiendo navegar por nodos que no tengan ningún recurso asociado

  • Fusión con otras estructuras de conocimiento, permitiendo una gestión descentralizada.

  • Buena escalabilidad y compatibilidad para adaptarse al creciente número de recursos de información.

Las posibles desventajas residen más en la poca madurez del estándar que en otros aspectos. Así se han revisado distintos aspectos, como:

  • La necesidad de mejorar la capacidad de integrar las propiedades de las association types dentro del esquema de definición de Topic Maps.

  • La línea de investigación emergente sobre la forma de asegurar la consistencia de los Topic Maps.

  • Las restricciones necesarias relativas a su validación y corrección.

5. Bibliografía

Las páginas web han sido visitadas en octubre del 2002.

  • Anitta Altenburger. Basic Technology: Topic Map tutorial. Bond University. http://topicmaps.bond.edu.au/tutorials.mc

  • Eric Freese. (2000) Using Topic Maps for the representation, management & discovery of knowledge. XML Europe 2000

  • Garshol, Lars Marius tolog, A topic map query language, Development manager, http://www.ontopia.net/topicmaps/materials/tolog.html

  • Grnmo, Geir Ove. Creating semantically valid topic maps, Ontopia, http://www.ontopia.net/topicmaps/materials/tm-schemas-paper.pdf

  • Le Grand, Bénédicte and Soto, Michel (2002) Visualisation of the semantic web: Topic Maps Visualisation. Information Visualisation 6th International Conference. 10-12 July 2002

  • Rath, H.H. (2000) Topic maps self-control. Markup Languages, 2(4): 367-388

  • Rath, H.H.(2000) Making Topic Maps more colourful. http://www.infoloom.com/gcaconfs/WEB/paris2000/S29-01.HTM

  • Rath, H.H.; Pepper, S.(1999) Topic Maps: Introduction and Allegro, in: Proceedings of Markup Technologies 99 Conference, GCA, Alexandria, VA, 1999.

  • Sigel, Alexander (2000): Towards Knowledge Organization with Topic Maps, in: Conference Proceedings XML Europe 2000, 12-16 June 2000, Le Palais des Congrès de Paris, Paris, France. GCA, 2000

6. Anexos

6.1. Organizaciones relacionadas

  • TopicMaps.Org Authoring Group (AG), es un consorcio independiente que trata de aplicar los TM a la Web

  • ISO/IEC JTC 1/SC 34 Information Technology- Document Description and Processing Languages, es el comité de la ISO que desarrolla SGML y otros estándares como HyTime, Topic Maps, DSSSL, etc.

  • Empresas relacionadas con TM http://index.bonn.iz-soz.de/~sigel/veroeff/ISI-2000/resources/companies.html

6.2. Enlaces a documentación sobre TM

6.3. Estandares y recomendaciones en TM

  • XML Topic Maps (XTM) 1.0 Specification. Steve Pepper, Graham Moore, Steven R. Newcomb, Michel Biezunski, http://www.topicmaps.org/xtm/

  • TMQL Draft(Topic Map Query Language). Ann Wrightson, Ontopia, BSI, 7 Nov 2000 (corrected 28 Nov 2000), http://www.y12.doe.gov/sgml/sc34/document/0186.doc

6.4. Estandares relacionados

6.5. Demos y shareware



Creative Commons License
Last updated 05-06-2012
© Universitat Pompeu Fabra, Barcelona