Intelligent system for web spam detection

Fernández González, Jorge

Intelligent system for web spam detection

Fernández González, Jorge

Dirixida por:

Rosalía Laza Fidalgo Director
María Reyes Pavón Rial Director

Universidade de defensa: Universidade de Vigo

Fecha de defensa: 06 de xuño de 2016

Tribunal:

Fernando Díaz Gómez Presidente/a
Anália Lourenço Secretaria
Vitor Manuel Basto Fernandes Vogal

Departamento:

Informática

Tipo: Tese

Teseo: 413234 DIALNET

Resumo

En la presente tesis doctoral se propone un modelo híbrido de Inteligencia Artificial destinado a solventar el problema de la detección y filtrado de dominios web que ofrecen contenido ilícito. En este contexto, la existencia de una web cambiante y cada vez más heterogénea hace patente la necesidad de disponer de nuevas herramientas que permitan la combinación de diferentes técnicas anti-spam con el fin de aumentar su capacidad de generalización. Concretamente, el modelo propuesto implementa un sistema basado en reglas, que va a ser el encargado de gestionar y ejecutar las distintas técnicas anti-spam incorporadas al sistema. Este conjunto de reglas constituye la base de conocimiento, que será utilizada por el modelo propuesto a la hora de determinar la legitimidad de un dominio web. Adicionalmente, con el fin de manejar correctamente la naturaleza evolutiva del spam, el modelo incorpora un módulo de aprendizaje capaz de ajustar automáticamente los parámetros de configuración, permitiendo así mantener el rendimiento de filtrado a lo largo del tiempo. Para llevar a cabo este cometido, el modelo propuesto ha sido diseñado utilizando una metodología IBR. Con el fin de poder demostrar experimentalmente la hipótesis inicial, el modelo propuesto ha sido evaluado empleando dos corpus accesibles públicamente, los cuales mantienen el contenido original de cada dominio y presentan una distribución altamente desbalanceada, hecho muy habitual en el ámbito de la web. El análisis de los resultados obtenidos evidencia que el sistema desarrollado ofrece mejoras en comparación con el resto de modelos probados, tanto a nivel cualitativo como cuantitativo, siendo capaz de producir clasificaciones más acertadas y con mayor precisión y rapidez. Finalmente, se puede afirmar que el presente trabajo ha establecido las bases para la creación de técnicas para el filtrado del spam en la web, teniendo en consideración conceptos tan importantes en este ámbito como son el desbalanceo de clase o la naturaleza cambiante del spam. Adicionalmente, se ha propuesto un modelo de filtrado rápido y fiable, dotado de capacidad de aprendizaje incremental para la detección automática de dominios con contenido ilícito.