Crowd sensing: applications for smart cities

ben Khalifa, Mohamed

Crowd sensingapplications for smart cities

ben Khalifa, Mohamed

Dirixida por:

Rebeca Díaz Redondo Director
Ana Fernández Vilas Director

Universidade de defensa: Universidade de Vigo

Fecha de defensa: 24 de outubro de 2016

Tribunal:

Alicia Rodríguez Carrión Presidente/a
Felipe Gil Castiñeira Secretario
Mónica Aguilar Igartua Vogal

Departamento:

Enxeñaría telemática

Tipo: Tese

Teseo: 426894 DIALNET

Resumo

Las redes sociales basadas en localización (LBSNs, por sus siglas en inglés Location-based social networks) constituyen una infraestructura online que permite la obtención de una cantidad masiva de datos relacionados con la movilidad de los individuos. Habilitan, en consecuencia, la obtención de conjuntos de datos no solo cuantitativamente sino cualitativamente diferentes a los disponibles hasta la proliferación de LBSNs, aportando más datos con una cobertura geográfica más amplia, con mayor precisión y con mayor variedad de lugares en la ciudad. Esta ventaja cuantitativa y cualitativa abre las puertas a ambiciosas aplicaciones accesibles vía dispositivos móviles en la ciudad inteligente. Uno de estos ámbitos de aplicación, el abordado en esta tesis, es el análisis del comportamiento de colectivos o grupos de ciudadano con el objeto de responder a en qué proporción, cuándo, donde y por qué los individuos se distribuyen a lo largo de la ciudad. En consecuencia, esta tesis doctoral sostiene que \emph{tanto los metadatos de localización con el contenido extraído de las redes sociales basadas en localización pueden ser utilizados para detector, analizar y predecir multitudes y, de esta forma, proporcionar soporte a la gestión de la ciudad inteligente (servicios de emergencia, procedimiento de evacuación, detección de incidentes, recomendación de localización, etc.)} Las estrategias de soporte a la toma de decisiones en las ciudades inteligentes se alimentan de un conjunto variado de Fuentes de datos (en la parte inferior de a figura) (a) fuentes de datos quasi-estáticas de la ciudad y (b) fuentes de datos dinámicas obtenidas en tiempo real. Las primeras se refieren a la información proporcionada por autoridades locales o estatales a través de portales Open Data o sistemas GIS (Geographical Information System). Las segundas se refieren a datos dinámicos obtenidos de la infraestructura física de la ciudad (como indicadores de polución, sensores de temperatura, sistemas de vigilancia, etc.) y a los datos proporcionados por los ciudadanos indirectamente a través de sus dispositivos móviles. (datos de redes y redes sociales). Con este soporte de información, distintas aplicaciones proporcionan mecanismos de soporte o asistencia en la ciudad para la gestión de trágico, gestión de transporte público, eficiencia energética, etc. Por último, en la parte superior de la figura, se sitúan los actores principales del sistema, principalmente los ciudadanos y las autoridades y unidades de gestión locales. Más específicamente, la propuesta en esta tesis doctoral se orienta a la obtención de un sistema de monitorización de multitudes que se alimenta de datos geo-localizados extraídos de los medios sociales con el objetivo de estudiar la distribución de los colectivos de ciudadanos a lo largo de la ciudad (temporalmente y espacialmente). La aproximación en esta tesis se sitúa, por tanto, a dos niveles: (i) un nivel de referencia que, orientado a la obtención de un patrón de la ciudad (o del área de estudio concreta), modela el comportamiento habitual de los grupos de individuos: cuándo, donde y en qué proporción se distribuyen; y (ii) un nivel instantáneo que, en base a dicho patrón, analiza la dinámica de la ciudad en tiempo real para la detección de comportamientos anormales o inesperados y para la identificación de cambios potencias (agregación y desagregación de colectivos de individuos). Un paso más allá de este análisis cuantitativo, la detección de un comportamiento inusual se complementa con un análisis cualitativo a propósito de la motivación que justifica la anomalía. De acuerdo al objetivo general de esta tesis doctora, el trabajo de investigación se organiza en 4 fases representadas a continuación que, al mismo tiempo, representan el orden natural en el desarrollo de un sistema de monitorización multitudes. - Durante la fase Caracterización de la región, se define geográficamente el área bajo estudio (ciudad, pueblo o vecindario). El objetivo principal de esta fase es la obtención de un patrón de dicho área, esto es, la distribución habitual de los individuos a lo largo del área bajo estudio. De esta forma, se obtiene un patrón espacio-temporal que, en lo que se refiere al movimiento o circulación de los individuos, refleja los hábitos y rutinas del día a día. Para dar soporte a la obtención de este patrón, el sistema se alimenta con información (posts geo-localizados) extraída de LBSNs, específicamente Twitter e Instagram en lo experimentos desplegados para la validación del sistema. El conjunto de posts geo-localizados extraído es un reflejo de la localización de los individuos y, en consecuencia, pueden ser utilizado para tareas de análisis. Concretamente, se define, para los distintos intervalos horarios del día en el área bajo estudio, un conjunto de indicadores que caracterizan el comportamiento de referencia a modo de sumario de la información extraída. Brevemente, se propone la aplicación algoritmos de clustering basados en densidad para dar soporte a la identificación de colectivos de individuos (multitudes), esto es, su localización habitual a lo largo del día. Como ya se ha mencionado, en este trabajo de tesis se ha desarrollado la caracterización espacio-temporal de regiones utilizando dos LBSNs específicas: Twitter e Instagram. - La fase de Detección de multitudes, se orienta a la identificación de comportamientos inusuales en la región bajo estudio. Una vez se ha establecido el patrón habitual en la fase de caracterización, el objetivo es ahora la comparación al vuelo de los datos extraídos de los medios sociales frente al patrón establecido. De esta manera, y otra vez mediante la aplicación de algoritmos de clustering basados en densidad pero a los datos obtenidos en tiempo real, se habilita la identificación de comportamientos inesperados. Tomando como referencia el patrón espacio temporal, la aplicación de estrategias de identificación de outliers constituye la base para catalogar las multitudes detectadas como anormales. Esta situación, que conllevaría el disparo de algún tipo de alarma, puede ser consecuencia de un número inusualmente alto o bajo de multitudes en un área y a una hora concreta, o de un número inusualmente alto o bajo de individuos en las multitudes identificadas. La fase de detección de multitudes ha sido validada en la ciudad de Nueva York , obteniéndose resultados adecuados en el análisis de la noche de fin de año. - La fase de Análsis de multitudes, tiene como objetivo la monitorización del movimiento de las multitudes identificadas. Para ello, se propone una metodología que aplica un doble agrupamiento basado en densidad. Más concretamente, las multitudes identificadas en la fase 4 (detección de multitudes) se agrupan nuevamente utilizando un segundo paso de clustering basado en densidad sobre los centroides de las multitudes identificadas. El objetivo de esta metodología de doble agrupamiento es la monitorización de la evolución de las multitudes en el área bajo estudio a lo lago del tiempo, para adelantar la posible agregación o disgregación de multitudes. Esta fase ha sido validada sobre un conjunto de datos extraído de Twitter coincidiendo con las movilizaciones del 1 de Mayo. - La fase Temática de la multitud, persigue el descubrimiento de la motivación que subyace en las multitudes detectadas (celebraciones, eventos deportivos, festivales, etc.) mediante el análisis del contenido, principalmente en lenguaje natural, en los datos extraídos de los medios sociales. Si bien en las fases anteriores, el análisis se centra en la localización (latitud, longitud) de los mensajes (posts) extraídos, l contenido de dichos mensajes contiene información (comentarios y opiniones compartidos por los usuarios) que es de relevancia y valor a la hora de monitorizar multitudes en la ciudad inteligente. En suposición más habitual en LBSNs de que el contenido de un mensaje está relacionado con la localización física desde la que se ha compartido dicha información, el análisis de contenido permite enriquecer el conocimiento sobre lo que está sucediendo en un lugar concreto y a una hora específica. En consecuencia, esta tesis doctoral amplia la metodología presentada para la monitorización de multitudes con mecanismo de análisis de los términos en los mensajes que, otra vez, adopta una perspectiva de análisis espacio-temporal para el descubrimiento de la temática vinculada a los grupos reducidos de individuos que constituyen la multitud identificada. La aplicación de técnicas de análisis exploratorio permite el estudio de la dependencia de la temática con el tiempo y la localización así como su parecido como la temática principal. Esta fase ha sido validada a partir del análisis del texto extraído de mensajes en Twitter coincidiendo con las movilizaciones del 1 de Mayo.