Tesis Doctorales UPM: Consulta online

Autor: DIMOU, Anastasios

Título: Object recognition and tracking for surveillance applications using deep learning techniques

Fecha: 2020

Materia: Sin materia definida

Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

Departamento: SEÑALES, SISTEMAS Y RADIOCOMUNICACIONES

Acceso electrónico: http://oa.upm.es/65637/

Director/a(s):

Director/a: ÁLVAREZ GARCÍA, Federico
Director/a: DARAS, Petros

Resumen: Video analytics has become one of the hottest topics for computer vision researchers in the last years due to the dramatic evolution that Deep Neural Networks (DNNs) have introduced to the field. Despite of the progress achieved, advanced analytics have not still achieved a plug and play status due to a number of challenges that can be attributed to diverse video content in terms of quality, different camera parameters, non-optimal camera installation, or unstable video content. In this thesis, two main aspects have been explored to make video analytics more robust and performing. On one hand, the extraction of better appearance-based features to improve the performance of fundamental image analysis tasks (e.g. object detection and recognition, segmentation), and, on the other hand, the regularization of neural networks using multiple information modalities to enhance accuracy in every step of the video analysis process. Convolutional Neural Networks (CNNs) are the backbone of every image analysis task. Constantly deeper and more complex architectures have been explored to improve the feature extraction process. Residual Networks (ResNets) have shown that better feature representation can be also achieved by minimizing the amount of information that has to be modeled. Based on this intuition, this thesis explores novel ResNet-based architectures to optimize the discriminative power of the extracted features. Regularization techniques are an essential tool to improve the training process of complex data analysis tools, as they reduce the solution space enhancing performance and minimizing training time. Such methods are explored in this work to extract a robust optical flow by combining appearance and semantic information. The enhanced flow contributes towards improving the performance of video stabilization, object detection and multi-object tracking. Moreover, a number of techniques have been introduced to streamline the performance of basic image analysis tasks. For object detection, an adaptive region proposal method to speed up the process and the use of motion cues to improve performance has been proposed. A multimodal re-identification method to improve multi-object tracking in complex and multi-camera environments has been also presented. Finally, all the developed solutions have been integrated in real applications, including a surveillance investigation assistant for video archives and a crowd behavior analysis system. ----------RESUMEN---------- El análisis de video se ha convertido en uno de los temas más relevantes en el campo de la visión artificial en los últimos años, debido sobre todo a la gran mejora que la utilización de redes neuronales profundas ha traído a este campo. Aún así, la analítica avanzada todavía no ha podido lograr una fácil integración en cualquier sistema existente debido al gran número de dificultades que presentan como son: la diversidad de contenido de video en términos de calidad, parámetros diferentes en las cámaras, una instalación no perfecta de las cámaras o tener un contenido de vídeo inestable. En esta tesis, se han explorado dos aspectos principales para hacer que la analítica de video sea más sólida y eficaz. Por un lado, la extracción de mejores características basadas en la apariencia del video, para mejorar el rendimiento de las tareas básicas de análisis de imágenes (por ejemplo, detección y reconocimiento de objetos, segmentación) y, por otro lado, la regularización de las redes neuronales utilizando múltiples modalidades de información para mejorar la precisión en cada paso del proceso de análisis de video. Las redes neuronales convolucionales (CNN) son la columna vertebral de cada tarea de análisis de imágenes. Se han explorado arquitecturas cada vez más profundas y complejas para mejorar el proceso de extracción de características. Las redes residuales (ResNets) han demostrado que también se puede lograr una mejor representación de características minimizando la cantidad de información que debe modelarse. Basándose en esta intuición, esta tesis explora arquitecturas novedosas basadas en ResNet para optimizar el poder para discriminar de las características extraídas. Las técnicas de regularización son una herramienta esencial para mejorar el proceso de entrenamiento de herramientas complejas de análisis de datos, ya que reducen el espacio de la solución mejorando el rendimiento y minimizando el tiempo de entrenamiento. Estos métodos se exploran en este trabajo para extraer un flujo óptico robusto combinando apariencia visual e información semántica. El flujo óptico mejorado contribuye a mejorar el rendimiento de la estabilización de video, la detección de objetos y el seguimiento de múltiples objetos a la vez. Asimismo, se han introducido varias técnicas para optimizar la realización de tareas básicas de análisis de imágenes. Para la detección de objetos, se ha propuesto un método de región de interés adaptativa para acelerar el proceso y el uso de señales de movimiento para mejorar el rendimiento. También se ha presentado un método de reidentificación multimodal para mejorar el seguimiento de múltiples objetos en entornos complejos y de múltiples cámaras. Finalmente, todas las soluciones desarrolladas se han integrado en aplicaciones reales, y se presentan en la tesis 2 ejemplos como son un sistema de videovigilancia con análisis de archivos de video, y un sistema de análisis de comportamiento de multitudes.