Reducción de efectos adversos derivados de entornos no controlados en técnicas de visión por computador para la detección de objetos

  1. del Río Álvarez, Ángel Francisco
Dirixida por:
  1. Bernardo Martín González Rodríguez Director
  2. Javier de Andrés Suárez Co-director

Universidade de defensa: Universidad de Oviedo

Fecha de defensa: 08 de xullo de 2020

Tribunal:
  1. Juan Manuel Cueva Lovelle Presidente/a
  2. Daniel Fernández Lanvín Secretario/a
  3. José Baltasar García Pérez-Schofield Vogal
  4. Ramiro Manuel Ramos Moreira Gonçalves Vogal
  5. Manuel Pérez Cota Vogal

Tipo: Tese

Teseo: 628696 DIALNET

Resumo

El altísimo grado de desarrollo y la popularización de todo tipo de dispositivos móviles en los últimos años han propiciado el uso de aplicaciones de Visión Artificial en escenarios completamente no controlados, es decir, entornos donde las condiciones lumínicas, meteorológicas o el movimiento de cámara no están controlados por el usuario. Smartphones, drones, robots, y otros. equipados con cámara y sensores para interpretar el entorno que les rodea son nuevos dispositivos donde la Visión Artificial puede ser una herramienta imprescindible. La propia definición de entorno no controlado implica la posible aparición de situaciones anómalas o inesperadas que interfieran en la correcta interpretación de la información visual. Esta tesis pretende analizar diversos problemas asociados a los entornos no controlados, especialmente centrados en la movilidad que caracteriza a estos dispositivos, proponiendo soluciones software para reinterpretar la información visual apoyándose en otros tipos de información obtenida mediante el uso del resto de sensores y hardware que poseen estos dispositivos. La Visión Artificial, campo que se encarga la obtención de información visual para su procesamiento y estudio ha sido profundamente estudiada en entornos controlados, es decir, en escenarios diseñados y preparados para su utilización en los que se minimiza el riesgo de sufrir situaciones anómalas o inesperadas. En cambio, en los últimos años, y gracias al importante aumento de dispositivos móviles presentes en el mercado, comienza a ser cada vez más importante el uso de técnicas de Visión Artificial en entornos cada vez menos controlados. Gran parte de los entornos no controlados donde se puede encontrar un sistema de Visión Artificial son escenarios donde el movimiento de los componentes tiene un papel determinante. Este es el caso de cualquier tipo de vehículo no tripulado, de sistemas de ayuda a la conducción como detectores de señales de tráfico, o de sistemas de detección de matrículas entre otros. Estos escenarios que implican un movimiento relativo entre cámara y objetivos son propensos a sufrir desenfoque de movimiento o Motion Blur. Este tipo de distorsiones aparece cuando el movimiento genera un desplazamiento en la imagen durante el tiempo en el que el obturador de la cámara está abierto. Teniendo en cuenta que el tiempo de obturación de una cámara no es un parámetro aleatorio, sino que deberá ser suficiente para captar la luz de la escena, circunstancias propias de entornos no controlados como puede ser la ausencia de luz, pueden requerir exposiciones muy largas para poder captar toda la luz de la escena, provocando en este caso efectos Motion Blur más prominentes. Sin embargo, aunque este efecto sea mitigable mediante hardware, dispositivos como smartphones o drones, deben equilibrar tamaño y prestaciones, por lo que elementos hardware tales como focos adaptables que pudieran adaptar la iluminación de la escena para evitar este tipo de distorsiones suelen ser inviables y es en estos casos donde se requiere una solución software que mejore el rendimiento del sistema sin comprometer su tamaño o coste. La rectificación del desenfoque de movimiento es un tema profundamente estudiado en la literatura de Procesamiento de Imagen, pero la mayor parte de las soluciones propuestas se caracterizan por un alto coste computacional. Gran parte de estas soluciones pretenden recuperar la imagen real, ya que el objetivo de las mismas no es su utilización en aplicaciones de Visión Artificial ni en tiempo real. En Visión Artificial, y cuando el objetivo es la identificación de un objeto en la imagen, algunos autores ya aportaron la idea de aplicar una distorsión equivalente a las imágenes del modelo o muestra de entrenamiento, e intentar cotejar ambas imágenes ya distorsionadas. A pesar de que estas soluciones suelen incrementar el rendimiento de estos sistemas si son comparadas con la recuperación de la imagen real y posterior fase de reconocimiento del objetivo, siguen teniendo un alto coste computacional. Esta exigencia computacional, se debe en gran medida a la necesidad de ajustar los parámetros propios de la distorsión mediante prueba y error hasta conseguir una estimación correcta. Esta tesis propone una solución software para evitar los efectos negativos del Motion Blur en sistemas de detección de objetos en movimiento. Esta solución genera una única estimación de los parámetros de distorsión basada en otros parámetros ambientales que se pueden relacionar con la aparición de la distorsión, como puede ser la velocidad o la distancia al objetivo. Haciendo uso de esta información se aplica un único filtro de distorsión al modelo y se compara con las imágenes obtenidas en tiempo real. Con esta idea se diseña un descriptor de imagen basado en la extracción de características de tipo Hystogram of Oriented Gradients (HOG) capaz de recalcularse adaptándose a la estimación de parámetros en tiempo real calculada por el sistema. Los resultados de los experimentos indican que incluso en las distorsiones más débiles, el descriptor MBAHOG (Motion Blur Adaptive HOG) presentado en esta tesis es capaz de aumentar el índice de detección del objetivo hasta un 80%. En distorsiones más pronunciadas, que hagan al objeto más irreconocible, el aumento en el índice de detección llega al 100%. Un incremento del 100% quiere decir que, en iguales condiciones, un sistema que utiliza descriptores HOG tradicionales y no es capaz de reconocer ningún objetivo debido a lo distorsionados que se encuentran, utilizando el descriptor adaptativo puede llegar a reconocer todas las apariciones del objetivo.