Tesauros y su terminología
Un tesauro – también denominados thesaurus o thesauri – se caracteriza esencialmente porque su estructura contiene una red de relaciones semánticas (Jing [1]) entre los descriptores que lo forman (términos elegidos para designar los conceptos representativos del documento). En dicha red se basa precisamente la indización. Y es también lo que ayuda esencialmente al usuario a recuperar la información.
Los descriptores no adquieren significado únicamente por sí mismos, sino en base al área temática en que se ven incluidos (relaciones de pertenencia), a la proximidad semántica con otros descriptores (relaciones de equivalencia), a la generalidad o especificidad en relación con aquellos incluidos en su misma subárea temática (relaciones de jerarquía) o por asociación de ideas entre descriptores pertenecientes a subáreas diferentes (relaciones de asociación).
Tesauros y su terminología. La clave
La clave no está en los términos individuales, sino en la malla de relaciones que los entrecruzan semánticamente y que dota de sentido a la globalidad del documento o tema descrito. El buen o mal olfato aportado por el especialista humano al asesorar la búsqueda sigue siendo un factor decisivo para la calidad de los resultados. En este sentido cabe citar las conclusiones del estudio de Spink [2]: «The interaction with IR systems is still largely a human art. Mastery of such an art is teachable and can be improved by experience and practice«
La relación de pertenencia se define por la adscripción de cada descriptor a un campo semántico y sirve para ampliar la indización y la consulta permitiendo al usuario localizar el campo semántico al cual pertenece el descriptor, por si fuera necesario buscar en él otros descriptores más idóneos. Se hace indispensable a la hora de poder agrupar todos los descriptores por campos semánticos homogéneos. Cuando un descriptor sólo puede pertenecer a un campo semántico se da una relación de monopertenencia. Si el descriptor puede pertenecer simultáneamente a varios campos semánticos, entonces la relación es de polipertenencia. Este tipo de relación no posee una notación normalizada.
Cuando a la hora de la indización se considera que uno o más términos se refieren al mismo concepto, entonces se establece entre ellos una selección de aquellos que serán considerados descriptores aunque manteniendo con los no descriptores relaciones de equivalencia, también denominadas relaciones de sinonimia.
Tesauros y su terminología. La estructura
La estructura de red de relaciones semánticas que hay entre sus términos es lo que proporciona en los tesauros la ayuda al analista y al usuario en la indización y en la recuperación: tal es la relación entre un descriptor y un no descriptor (es decir, un término sinónimo o cuasisinónimo).
El usuario que realiza una búsqueda puede traducir su lenguaje natural (los términos que figuran en los documentos y las consultas) a un lenguaje documental, localizando así los descriptores que se han utilizado en la indización y evitando el silencio (ausencia de resultados) y el ruido documental en el momento de la recuperación, ayudado en su tarea por la inclusión de las equivalencias semánticas de cada descriptor que en su momento introdujo el creador del tesauro. Este tipo de relación posee una notación normalizada de palabras (USE para señalar el descriptor y UP para designar el no descriptor) y también de símbolos (→ para el descriptor e = para el no descriptor ).
Cuando entre dos descriptores se da una relación asimétrica de superioridad conceptual del uno sobre el otro en relación con una misma escala de significado, entonces nos encontramos con una relación recíproca de jerarquía. Uno de los descriptores es (superior) «más genérico que» el otro en dicha escala conceptual. Y éste es «más específico que» el primero.
Esta relación marca la diferencia fundamental entre un tesauro sistemático y un listado alfabético “no estructurado” de términos como puedan ser un glosario o un diccionario.
Tesauros y su terminología. Los descriptores
Los descriptores de un tesauro pueden formar cadenas jerárquicas del tipo genérico-específico o del tipo todo-parte. Serán utilizadas en la indización para seleccionar los términos que designen de manera más específica y precisa el concepto que hay que representar (evitar el ruido en el momento de la búsqueda y la recuperación) y en la consulta para enriquecer la formulación de una búsqueda añadiendo otros descriptores jerárquicamente superiores o inferiores. Los descriptores dentro de una misma jerarquía podrán ser ordenados alfabéticamente o por facetas (clasificación más lógica). La notación normalizada para estos descriptores es la de TG para el término genérico. TGG para el término genérico genérico y TGP para el término genérico partitivo. Y de TE para el término específico (TEG y TEP).
Si dos descriptores que no mantienen una relación de equivalencia o de jerarquía designan conceptos que se evocan mutuamente por asociación de ideas, entonces se da entre ellos una relación simétrica denominada de asociación.
Tesauros y su terminología. La vida real
En la vida real no basta con la relación jerárquica (vertical) para representar las relaciones semánticas entre los conceptos. Por ello un tesauro se ajusta mejor a la realidad que describe al recoger las relaciones asociativas entre sus descriptores (Tudhope [3]). Este tipo de relación no se da entre descriptores incluidos en una misma cadena jerárquica (vertical). Cada descriptor puede mantener una, varias o ninguna relaciones de este tipo asociativo. El indizador puede encontrar los conceptos más precisos e idóneos para el análisis del documento mediante las asociaciones de ideas proveídas por estas relaciones y el usuario ve aumentadas sus posibilidades de búsqueda. TR y el símbolo » − » constituyen la notación normalizada para designar esta relación asociativa entre un descriptor y otro.
De modo complementario a la red de relaciones brevemente expuesta, también se utilizan en el tesauro las “notas y aclaraciones” para precisar el significado de un descriptor y evitar así su ambigüedad dentro del tesauro. Revisten la forma de modificadores, notas explicativas, notas históricas y notas de aplicación y se identifican dentro del tesauro por venir precedidas de las siglas NA (nota de aplicación), NE (notaexplicativa) o bien, en inglés, SC (scope note).
Los tesauros y su apoyo en el conocimiento humano y sus capacidades creativas e intuitivas abren un camino hacia – en palabras de López-Huertas [4]- «estructuras de gran capacidad para la representación conceptual» y la implantación de bases de conocimiento experto en dominios específicos.
Tesauros y su terminología. Fuentes:
[1] Jing, Y. & Bruce Croft, W. [en línea] An association thesaurus for information retrieval. [consultado: 03-02-2012] Disponible: [enlace externo]
[2] Spink, A. & Saracevic, T. [en línea] Interaction in Information Retrieval: Selection and Effectiveness of Search Terms. 1997 John Wiley & Sons, Inc. [consultado: 03-02-2012] Disponible: [enlace externo]
[3] Tudhope,D. y cols. [en línea] Augmenting Thesaurus Relationships: Possibilities for Retrieval. School of Computing, University of Glamorgan, Pontypridd CF37 1DL, UK. [consultado: 03-02-2012] Disponible HTML [enlace externo]
[4] López-Huertas, M. [en línea] Potencialidad evolutiva del Tesauro: hacia una base de conocimiento experto. Facultad de Biblioteconomía y Documentación. Universidad de Granada. [consultado: 03-02-2012] Disponible: [enlace externo]