Tesis Doctorales UPM: Consulta online

Autor: MAQUEDA NIETO, Ana Isabel

Título: From traditional multi-stage learning To end-to-end deep learning for computer vision applications

Fecha: 2018

Materia: Sin materia definida

Escuela: FACULTAD DE INFORMATICA

Departamento: AEROTECNIA

Acceso electrónico: http://oa.upm.es/66779/

Director/a(s):

Director/a: GARCIA SANTOS, Narciso
Director/a: BLANCO ADÁN, Carlos Roberto del

Resumen: La reaparición de las Redes Neuronales Profundas, esta vez en la era del big data, e implementadas sobre hardware de alto rendimiento que reduce el tiempo de computación, ha cambiado el paradigma del aprendizaje automático, especialmente en el campo de la visión artificial. Mientras que los sistemas tradicionales basados en aprendizaje máquina emplean múltiples etapas y características diseñadas a mano para facilitar el proceso de aprendizaje, las Redes Neuronales Convolucionales aprenden automáticamente las características que maximizan dicho proceso de extremo a extremo, es decir, desde las propias imágenes hasta la salida deseada. El propósito de esta tesis es mostrar cualitativamente la diferencia entre los sistemas multi-etapa que se basan en aprendizaje máquina tradicional y los sistemas de aprendizaje profundo de extremo a extremo, utilizando para ello diferentes aplicaciones como contexto. En primer lugar, se ha desarrollado un sistema de reconocimiento de gestos dinámicos de manos, donde dos de los aspectos clave son descriptores de imagen y video, y el diseño del sistema completo formado por múltiples etapas. Estos descriptores han sido diseñados para lidiar con las dificultades de los sistemas basados en visión, como los cambios de iluminación, las variaciones intra-clase e inter-clase y transformaciones que pueden sufrir los gestos. Las diferentes etapas del sistema resuelven pasos intermedios que son necesarios para aplicar con éxito los descriptores anteriores. Dado que el sistema propuesto de reconocimiento de gestos ha sido pensado para una interfaz hombre-máquina, este comprende etapas de detección y seguimiento para localizar el objeto de interés, y una etapa de reconocimiento para categorizar el gesto realizado. En segundo lugar, se han propuesto varios sistemas basados en aprendizaje profundo, o redes neuronales profundas, para hacer frente a las debilidades presentes en el aprendizaje tradicional. A diferencia del enfoque anterior, estos sistemas no involucran múltiples etapas, ni diseño de características. La arquitectura de estas redes depende de la tarea que se quiere resolver, de su complejidad y de la cantidad de datos disponibles. Siguiendo estas directrices, se han abordado aplicaciones más comunes como la detección de vehículos y el reconocimiento de gestos de la mano, y otras más novedosas en las que la visión puede jugar un papel importante, como las aplicaciones de robótica. ----------------------------------- Abstract -----------------------The renaissance of Deep Neural Networks in the era of big data, along with the use of highperformance hardware that reduces computational time, have changed the paradigm of machine learning, specially in the field of computer vision. Whereas systems based on traditional machine learning rely on multiple stages and hand-crafted features to get the insight of the problem, Convolutional Neural Networks automatically learn the features that maximize the learning accuracy directly from raw images in an end-to-end manner. The purpose of this dissertation is to show the gap between traditional multi-stage learning systems and end-to-end deep learning systems, addressing different applications for a qualitative comparison. First, an expert-knowledge recognition system has been developed to deal with dynamic hand gestures. The key aspects of this system are hand-crafted image and video descriptors, and also the pipeline of the whole system. These descriptors have been designed to face difficulties of visionbased approaches such as illumination changes, intra-class and inter-class variances, and multiple scales. The design of the multiple stages of the system solve intermediate steps that are necessary to successfully apply the previous descriptors. Since the proposed hand-gesture recognition system has been designed for a human-computer interface, it comprises detection and tracking stages to localize the object of interest, and a recognition stage to categorize the performed gesture. Second, DL approaches have been proposed for different computer vision applications. Research efforts have focused on building these types of end-to-end systems to face the weaknesses present in traditional learning. Unlike previous approach, they do not need multiple stages to perform the target task, nor feature engineering. Their architecture designs rely on the task to be solved, its complexity, and the available amount of data. These guidelines have been applied to common vision-based applications such vehicle detection, and hand-gesture recognition, but also to more challenging situations, such as robotics applications.