Arquitectura de datos avanzada de un directorio web, con optimización de consultas restringidas a una zona del grafo de categorías

  1. Cacheda, Fidel
Zuzendaria:
  1. Jesús Angel Viña Castiñeiras Zuzendaria

Defentsa unibertsitatea: Universidade da Coruña

Fecha de defensa: 2002(e)ko uztaila-(a)k 12

Epaimahaia:
  1. Gregorio Fernández Fernández Presidentea
  2. Fernando Bellas Permuy Idazkaria
  3. Joseba Iñaki Goirizelaia Ordorika Kidea
  4. Álvaro Suárez Sarmiento Kidea
  5. Manuel J. Fernández Iglesias Kidea

Mota: Tesia

Teseo: 92263 DIALNET lock_openRUC editor

Laburpena

Desde su origen, el World Wide Web ha sufrido un crecimiento exponencial que ha generado un gran volumen de información heterogénea accesible para cualquier usuario, Esto ha llevado a la utilización de herramientas eficientes para gestionar, recuperar y filtrar dicha información. En concreto, los directorios Web son taxonomías que clasifican documentos web, sobre los que posteriormente se realizarán consultas. Este tipo de sistemas de recuperación de información presenta un tipo específico de búsquedas, en donde la colección de documentos está restringida a una zona del grafo de categorías. Esta disertación presenta una arquitectura de datos específica para directorios Web que permite mejorar el rendimiento ante búsquedas restringidas. Dicha arquitectura se basa en una estructura de datos híbrida, constituida por un fichero invertido conteniendo embebido múltiples ficheros de firmas. En base al modelo propuesto se definen dos variantes: la arquitectura híbrida con información total y la arquitectura híbrida con información parcial. La valiez de esta arquitectura ha sido analizada mediante el desarrollo de ambas variantes para su comparación con un modelo básico, demostrando una clara mejoría en el rendimiento de las consultas restringidas, destacando especialmente el modelo híbrido con información parcial al responder adecuadamente bajo cualquier carga del sistema de búsqueda. A nivel general, la arquitectura propuesta se caracteriza por su facilidad de implementación, derivada de las estructuras de datos empleadas, su flexibilidad respecto al crecimiento del sistema y especialmente, por el buen rendimiento ofrecido ante búsquedas restringidas.