Arquitectura de datos avanzada de un directorio web, con optimización de consultas restringidas a una zona del grafo de categorías

Cacheda, Fidel

Arquitectura de datos avanzada de un directorio web, con optimización de consultas restringidas a una zona del grafo de categorías

Cacheda, Fidel

Zuzendaria:

Jesús Angel Viña Castiñeiras Zuzendaria

Defentsa unibertsitatea: Universidade da Coruña

Fecha de defensa: 2002(e)ko uztaila-(a)k 12

Epaimahaia:

Gregorio Fernández Fernández Presidentea
Fernando Bellas Permuy Idazkaria
Joseba Iñaki Goirizelaia Ordorika Kidea
Álvaro Suárez Sarmiento Kidea
Manuel J. Fernández Iglesias Kidea

Mota: Tesia

Teseo: 92263 DIALNET RUC editor

Laburpena

Desde su origen, el World Wide Web ha sufrido un crecimiento exponencial que ha generado un gran volumen de información heterogénea accesible para cualquier usuario, Esto ha llevado a la utilización de herramientas eficientes para gestionar, recuperar y filtrar dicha información. En concreto, los directorios Web son taxonomías que clasifican documentos web, sobre los que posteriormente se realizarán consultas. Este tipo de sistemas de recuperación de información presenta un tipo específico de búsquedas, en donde la colección de documentos está restringida a una zona del grafo de categorías. Esta disertación presenta una arquitectura de datos específica para directorios Web que permite mejorar el rendimiento ante búsquedas restringidas. Dicha arquitectura se basa en una estructura de datos híbrida, constituida por un fichero invertido conteniendo embebido múltiples ficheros de firmas. En base al modelo propuesto se definen dos variantes: la arquitectura híbrida con información total y la arquitectura híbrida con información parcial. La valiez de esta arquitectura ha sido analizada mediante el desarrollo de ambas variantes para su comparación con un modelo básico, demostrando una clara mejoría en el rendimiento de las consultas restringidas, destacando especialmente el modelo híbrido con información parcial al responder adecuadamente bajo cualquier carga del sistema de búsqueda. A nivel general, la arquitectura propuesta se caracteriza por su facilidad de implementación, derivada de las estructuras de datos empleadas, su flexibilidad respecto al crecimiento del sistema y especialmente, por el buen rendimiento ofrecido ante búsquedas restringidas.