New approaches for content-based analysis towards online social network spam detection

Ezpeleta Gallastegi, Enaitz

New approaches for content-based analysis towards online social network spam detection

Ezpeleta Gallastegi, Enaitz

Dirigida per:

Urko Zurutuza Ortega Director/a
José María Gómez Hidalgo Codirector/a

Universitat de defensa: Mondragon Unibertsitatea

Fecha de defensa: 30 de de setembre de 2016

Tribunal:

Manuel Medina Llinas President/a
Iñaki Garitano Garitano Secretari/ària
Magnus Almgren Vocal
José Ramón Méndez Reboredo Vocal
Igor Santos Grueiro Vocal

Tipus: Tesi

Teseo: 504782 DIALNET TESEO editor

Resum

Las campañas de correo electrónico no deseado, siguen siendo una de las mayores amenazas que afectan a millones de usuarios al día. Aunque las técnicas de detección de spam son capaces de detectar un porcentaje muy alto de spam, el problema esta lejos de ser solventado, sobre todo por la cantidad tan alta de tráfico spam, y las nuevas estrategias utilizados por los atacantes. Además el auge del número de usuarios de las redes social en Internet, muchos de los cuales publican mucha información privada en sus perfiles, han proporcionado que estos sitios se conviertan en atractivos para los atacantes, principalmente por dos razones: posibilidad de explotar la información guardada en los perfiles, y por el contacto directo con los usuarios mediante los perfiles, los grupos, las páginas... Como consecuencia, cada vez más actividades ilegales son detectados en estas redes. Siendo los principales objetivos de los mensajes spam vender algo, crear alarma social, crear campañas de sensibilización, etc. este tipo de comunicaciones suelen tener una forma de escritura que puede ser usado para su detección. Los principales objetivos de esta tésis son: demostrar que es posible desarrollar spam personalizado usando información públicada en redes sociales que eluda los sistemas actuales de detección; y diseñar y validar métodos nuevos para la detección y filtrado de spam usando técnicas de procesamiento de lenguaje natural. Además, estos sistemas deberán ser efectivos con el spam que se propaga dentro de las redes sociales. Para conseguir el primer objetivo de la tésis se ha diseñado y desarrollado un sistema que permite enviar campañas de spam personalizado. Extraemos información pública de una famosa red social, el cual luego analizamos y lo usamos para crear plantillas de correo. Después se realizan diferentes experimentos en los que se envía spam típico y spam personalizado con el objetivo de comparar la eficiencia de cada tipo de spam. En la segunda parte de la tésis presentamos tres nuevos modelos para el filtrado del spam. Estos métodos tienen como objetivo detectar intencionalidad comercial no evidente en los textos que luego ayuden a clasificarlos. Para ello, planteamos que la utilización de técnicas de análisis de sentimento y reconocimiento de personalidad pueden ser opciones interesantes. Tomando en cuenta eso hemos desarrollado los tres métodos: el primero utiliza análisis de sentimento, el segundo reconocimiento de personalidad y el último usa combinadamente ambas técnicas. Una vez que los métodos son descritos, se validan de forma experimental usando tres tips diferentes de spam: email spam, SMS spam, y spam de una popular red social.