Contribución a la Investigación de Nuevos Modelos de Extracción de Conocimiento sobre Sistemas Big Data

Cerezo Costas, Héctor

Contribución a la Investigación de Nuevos Modelos de Extracción de Conocimiento sobre Sistemas Big Data

Cerezo Costas, Héctor

Dirixida por:

Francisco Javier González Castaño Director

Universidade de defensa: Universidade de Vigo

Fecha de defensa: 30 de novembro de 2019

Tribunal:

Ricardo Cao Abad Presidente/a
Milagros Fernández Gavilanes Secretario/a
Pablo Gamallo Otero Vogal

Departamento:

Enxeñaría telemática

Tipo: Tese

Teseo: 624742 DIALNET Investigo editor

Resumo

La clasiﬁcación de textos es uno de los principales campos de investigación del Procesado de Lenguaje Natural (PLN). Su estudio tiene un gran interés práctico dado el amplio espectro de aplicaciones ﬁnales de los sistemas de clasiﬁcación, tales como el etiquetado automático de mensajes de usuarios en redes sociales (p.e. detección de sentimiento o radicalización) y clasiﬁ-cación de las interacciones de un usuario en su comunicación con agentes conversacionales. El objetivo principal de esta tesis es contribuir al avance de los sistemas de clasiﬁcación de textos desde su enfoque más práctico, allanando algunos de los principales obstáculos que se encuentra el cientíﬁco de datos: la falta de datos etiquetados para el entrenamiento y la representación necesaria para los modelos de clasiﬁcación de textos. Para el primer problema se proponen distintas estrategias para realizar búsquedas de datos de un determinado contexto sobre grandes volúmenes de datos. Esto permite generar corpus para determinados ámbitos o detectar textos que guarden cierta similitud con un conjunto inicial. Por otro lado se propone la combinación de datos de varias fuentes con muy poca supervisión humana. También se aplican estrategias a la salida de los clasiﬁcadores que permiten ﬁltrar resultados incorrectos, que explotan la semántica de las etiquetas y conocimiento experto. Para el segundo problema se mejora la representación vectorial a la en-trada de los modelos de clasiﬁcación mediante nuevas características que se obtienen de textos informales, y se propone un sistema para mejorar la abstracción del texto original entrenado con datos de un diccionario inverso.Se han validado las contribuciones de la tesis en competiciones interna-cionales o proyectos europeos. Por ejemplo, en la competición SemEval de análisis de sentimiento en textos de una red social, problema sumamente subjetivo y de amplio contexto. La búsqueda de textos similares se ha validado en la detección de incidencias urbanas a partir de datos generados por usuarios de redes sociales y también en el ámbito del proyecto europeo PRACTICIES para la detección de contenido radical. Se han veriﬁcado las mejoras en la abstracción de textos frente a los principales métodos exis-tentes. Finalmente se ha abordado la clasiﬁcación para la extracción de relaciones entre entidades, cuyos principales problemas son la ausencia total de datos de entrenamiento y las numerosas clases posibles