Contribución a las tecnologías de representación de datos para sistemas eficientes de inteligencia de negocio

  1. Sendín Raña, Pablo
Dirixida por:
  1. Francisco Javier González Castaño Director

Universidade de defensa: Universidade de Vigo

Fecha de defensa: 29 de xaneiro de 2016

Tribunal:
  1. Manuel Esteve Domingo Presidente/a
  2. Cristina López Bravo Secretaria
  3. Rafael Pedro Martínez Álvarez Vogal
Departamento:
  1. Enxeñaría telemática

Tipo: Tese

Resumo

Tradicionalmente, las bases de datos relacionales se han utilizado para obtener información en los sistemas de Inteligencia de Negocio (Business Intelligence). A medida que dichos sistemas utilizaban mayor volumen de datos, han sido necesarios nuevos paradigmas y herramientas de análisis. Hoy en día, los sistemas OLAP (On-Line Analytical Processing) se encargan de gestionar información estratégica y de proporcionar un análisis rápido, multidimensional, interactivo y consistente de la información contenida en los almacenes de datos. Además, el paradigma AQL (Associative Query Logic) aplicado a Inteligencia de Negocio permite definir herramientas que gestionan todos los datos en memoria, lo que permite un análisis extremadamente rápido de grandes cantidades de datos. En esta tesis se presentan contribuciones en dos áreas de los sistemas de Inteligencia de Negocio. Primero, describimos nuestra experiencia en la migración de un sistema de gestión de base de datos relacional real y de gran tamaño, a un sistema OLAP que se apoya en una capa relacional subyacente que conforma un almacén de datos. Como resultado, se han generado contribuciones en la optimización del sistema ROLAP de código abierto. Hemos desarrollado una memoria cache que evita los problemas de diseño y mantenimiento de soluciones tradicionales que utilizan tablas agregadas para mejorar el rendimiento del sistema (en términos de tiempo de respuesta). En nuestra solución, el proceso cold start genera datos agregados para alimentar la memoria cache, obtenidos a partir del almacén de datos relacional, con lo que se reducen los tiempos de respuesta. Con este procedimiento se asegura el acceso concurrente a los datos y la consistencia de los mismos, cuando se efectúan modificaciones en el almacén de datos. Además, se mejora la funcionalidad del sistema OLAP con la definición de dimensiones calculadas, que permiten definir nuevas medidas en tiempo real, sin la necesidad de rediseñar el cubo multidimensional. En segundo lugar, presentamos nuestra experiencia en el desarrollo de una herramienta de Inteligencia de Negocio para entorno web, según el paradigma AQL. La hemos desarrollado como herramienta de código abierto multiplataforma. Se utilizan técnicas de compresión de datos para el almacenamiento de grandes cantidades de datos en memoria principal. El rendimiento de nuestra solución es comparable al de herramientas comerciales (tomando a QlikView como referencia) en términos de compresión, tiempo de carga y tiempo de respuesta. Además se proponen soluciones para solucionar algunos problemas detectados en la descripción de las patentes de QlikView, las cuales pueden ayudar en el desarrollo de otras herramientas propietarias o de código abierto.For a long time, relational databases have been used to obtain information in Business Intelligence systems. As the amount of data increases, new analysis paradigms and tools are needed. Nowadays on-line analytical processing (OLAP) systems handle strategic information and enable fast, multidimensional, interactive and consistent information analysis of data warehouses. In addition, the Associative Query Logic (AQL) paradigm allows in-memory Business Intelligence tools, which can represent large amounts of data in a way that allows extremely fast analysis. In this thesis we present contributions in two areas of Business Intelligence systems. First, we describe our experience in the migration from a real and large relational database management system to an OLAP system on top of a relational layer (the data warehouse), and the resulting contributions in open-source ROLAP optimization. We exploit cache memory instead of cumbersome summarized tables to improve system performance (in terms of response time). A cold start process brings summarized data from the data warehouse to cache memory reducing the response time. We ensure concurrent access to the summarized data, as well as consistency in data warehouse updates. We also improve the OLAP functionality by defining calculated dimensions, making possible to define new measures on the fly, without re-designing the multidimensional cube. Second, we present a web-based business intelligence tool following the AQL paradigm, developed as an open-source, multi-platform software, relying on data compression techniques for the storage of large amounts of data in main memory. The performance of our solution in terms of compression, load time and response time is close to that of the commercial tool of reference, QlikView. Moreover, we provide solutions to some open problems in QlikView published description, which may be beneficial to assist in the development of other open or proprietary tools.