Intelligent system for web spam detection

  1. Fernández González, Jorge
unter der Leitung von:
  1. Rosalía Laza Fidalgo Doktormutter
  2. María Reyes Pavón Rial Doktormutter

Universität der Verteidigung: Universidade de Vigo

Fecha de defensa: 06 von Juni von 2016

Gericht:
  1. Fernando Díaz Gómez Präsident/in
  2. Anália Lourenço Sekretärin
  3. Vitor Manuel Basto Fernandes Vocal
Fachbereiche:
  1. Informática

Art: Dissertation

Teseo: 413234 DIALNET

Zusammenfassung

En la presente tesis doctoral se propone un modelo híbrido de Inteligencia Artificial destinado a solventar el problema de la detección y filtrado de dominios web que ofrecen contenido ilícito. En este contexto, la existencia de una web cambiante y cada vez más heterogénea hace patente la necesidad de disponer de nuevas herramientas que permitan la combinación de diferentes técnicas anti-spam con el fin de aumentar su capacidad de generalización. Concretamente, el modelo propuesto implementa un sistema basado en reglas, que va a ser el encargado de gestionar y ejecutar las distintas técnicas anti-spam incorporadas al sistema. Este conjunto de reglas constituye la base de conocimiento, que será utilizada por el modelo propuesto a la hora de determinar la legitimidad de un dominio web. Adicionalmente, con el fin de manejar correctamente la naturaleza evolutiva del spam, el modelo incorpora un módulo de aprendizaje capaz de ajustar automáticamente los parámetros de configuración, permitiendo así mantener el rendimiento de filtrado a lo largo del tiempo. Para llevar a cabo este cometido, el modelo propuesto ha sido diseñado utilizando una metodología IBR. Con el fin de poder demostrar experimentalmente la hipótesis inicial, el modelo propuesto ha sido evaluado empleando dos corpus accesibles públicamente, los cuales mantienen el contenido original de cada dominio y presentan una distribución altamente desbalanceada, hecho muy habitual en el ámbito de la web. El análisis de los resultados obtenidos evidencia que el sistema desarrollado ofrece mejoras en comparación con el resto de modelos probados, tanto a nivel cualitativo como cuantitativo, siendo capaz de producir clasificaciones más acertadas y con mayor precisión y rapidez. Finalmente, se puede afirmar que el presente trabajo ha establecido las bases para la creación de técnicas para el filtrado del spam en la web, teniendo en consideración conceptos tan importantes en este ámbito como son el desbalanceo de clase o la naturaleza cambiante del spam. Adicionalmente, se ha propuesto un modelo de filtrado rápido y fiable, dotado de capacidad de aprendizaje incremental para la detección automática de dominios con contenido ilícito.