Minería de datos en la misión Gaia: visualización del catálogo, optimización del procesado y parametrización de estrellas

Álvarez González, Marco Antonio

Minería de datos en la misión Gaiavisualización del catálogo, optimización del procesado y parametrización de estrellas

Álvarez González, Marco Antonio

Dirigida por:

Carlos Dafonte Director/a
Minia Manteiga Codirector/a

Universidad de defensa: Universidade da Coruña

Fecha de defensa: 16 de septiembre de 2019

Tribunal:

Juan R. Rabuñal Presidente/a
Ana María Ulla Miguel Secretaria
Enrique Solano Márquez Vocal

Tipo: Tesis

Teseo: 599153 DIALNET RUC editor

Resumen

El trabajo realizado en esta tesis se enmarca dentro del proyecto Gaia, de la Agencia Espacial Europea (ESA), que tiene por objetivo procesar los datos sobre posiciones y brillos pertenecientes a más de mil millones de estrellas para generar el catálogo estelar más grande conocido hasta la actualidad, lo que lo convierte en un gran reto para toda la comunidad científica. Para realizar el procesado y análisis de los datos de Gaia se ha creado un consorcio internacional, denominado Data Processing and Analysis Consortium (DPAC), destinado a diseñar e implementar los mecanismos que permitan explotar la ingente cantidad de información que se obtendrá, del orden de un Petabyte. Está formado por más de 400 científicos e ingenieros entre los que nos incluimos los miembros del grupo de investigación en el que desarrollo esta tesis. Nuestro trabajo se basa principalmente en la aplicación de técnicas de la Inteligencia Artificial sobre los datos proporcionados por Gaia así como en la elaboración de herramientas que permitan a la comunidad científica utilizar esas técnicas para analizar la información astrofísica que contiene el catálogo. Concretamente los objetivos que se pretenden con este trabajo son los siguientes: • Aplicar técnicas de aprendizaje supervisado para la estimación de los principales parámetros atmosféricos para las estrellas en las que el instrumento RVS de Gaia medirá espectros con suficiente relación señal a ruido: temperatura efectiva, gravedad superficial logarítmica, abundancia de hierro respecto al hidrógeno o metalicidad y abundancia de elementos alfa respecto al hierro. Se demostrará la eficacia de la técnica utilizada aplicada a datos obtenidos por el satélite Gaia. • Proporcionar a la comunidad científica de una herramienta útil para la búsqueda y análisis de conjuntos de datos homogéneos mediante la aplicación de un algoritmo de aprendizaje no supervisado. Esta herramienta permite clasificar volúmenes gigantescos de datos, por lo que la optimización del algoritmo utilizado es un factor esencial. Se explicarán las técnicas utilizadas que permiten a esta herramienta procesar millones de datos en un tiempo reducido. • Desarrollar una herramienta que facilita el análisis de los resultados obtenidos por la técnica de clasificación sobre millones de objetos estelares, de tal forma que es capaz de mostrar de forma visual las diferentes agrupaciones de objetos estelares obtenidas por esta técnica, permitiendo explorar sus características. Dado que esta herramienta trabaja en un entorno Big Data el tratamiento de los datos adquiere un papel primordiaL Se comprobará cómo esta herramienta es de gran utilidad para el análisis de los datos y se explicarán las estrategias que se han seguido para poder visualizar conjuntos de millones de objetos astronómicos de forma ágil y fluida. En todos los casos, la gran cantidad de datos a tratar sugiere la necesidad de aplicar técnicas de procesamiento distribuido para evitar un consumo de recursos excesivo: tiempo de ejecución y uso de memoria, que puede llegar a impedir una ejecución satisfactoria de los métodos propuestos. Procesar toda esta información en el marco del proyecto Gala requiere una capacidad de cómputo importante, por lo que para reducir estos tiempos se realizan optimizaciones mediante técnicas de computación distribuida, como es Apache Spark, y mediante técnicas de procesado gráfico, como es CUDA. Otro aspecto importante es que el software resultante debe ser integrado dentro de las cadenas de ejecución existentes en DPAC y desplegado en los centros de procesado asociados, lo que requiere de un proceso de adaptación del software original para la plataforma de destino. Por último se demostrará la utilidad de la técnica de aprendizaje no supervisado en otras disciplinas donde se verá cómo es capaz de mejorar la detección de intrusiones en tráfico de redes de comunicaciones o en la generación de perfiles de usuarios para mejorar el marketing online.