Tesis:
Deep and Reinforcement Learning in Perception and Control for Autonomous Aerial Robots
- Autor: RODRÍGUEZ RAMOS, Alejandro
- Título: Deep and Reinforcement Learning in Perception and Control for Autonomous Aerial Robots
- Fecha: 2020
- Materia: Sin materia definida
- Escuela: E.T.S. DE INGENIEROS INDUSTRIALES
- Departamentos: AUTOMATICA, INGENIERIA ELECTRONICA E INFORMATICA INDUSTRIAL
- Acceso electrónico: http://oa.upm.es/65722/
- Director/a 1º: CAMPOY CERVERA, Pascual
- Resumen: La expansión de los métodos de aprendizaje automático ha seguido un ritmo sin precedentes durante la última década. Su habilidad para resolver problemas de diversa naturaleza ha colocado a las técnicas de aprendizaje automático en el foco de numerosas líneas de investigación y proyectos industriales. Paralelamente, la investigación e innovación en sistemas robóticos ha estado constantemente creciendo, en términos de desarrollo de hardware y algoritmos clásicos. Sin embargo, el nivel de autonomía robótica proporcionado por algoritmos ajustados manualmente, con modelos del problema comúnmente simplificados, está alcanzando su límite tecnológico. En este contexto, los métodos de aprendizaje automático, tales como aprendizaje profundo y por refuerzo, han proporcionado resultados sobresalientes en escenarios complejos (p.ej. tareas de visión por computador), que requieren el tratamiento de información de alta dimensionalidad o fuentes heterogéneas de datos. Siguiendo estas ideas, la presente tesis doctoral está enmarcada dentro de un novedoso paradigma que el campo de la robótica está actualmente explorando, donde los robots pueden aprender comportamientos de alto nivel en un entorno simulado, para posteriormente ser desplegados en un entorno real relevante. Por primera vez, se han usado métodos de aprendizaje profundo y por refuerzo para resolver aplicaciones complejas basadas en visión para robótica aérea, tales como aterrizaje de un multirrotor en una plataforma móvil o seguimiento de un multirrotor no cooperativo. Adicionalmente, han sido utilizadas técnicas de aprendizaje profundo y por refuerzo en el marco de detección de objetos en secuencias de vídeo. Todas las técnicas empleadas han sido diseñadas, implementadas y validadas exhaustivamente en una amplia variedad de escenarios reales y relevantes. Las mencionadas aplicaciones han sido formuladas como problemas basados en visión, con el objetivo de ser resueltas con un multirotor y/o sistema empotrado de bajo coste y comerciales. En este trabajo doctoral, la aplicación de aterrizaje de un multirrotor sobre una plataforma móvil ha sido explorada haciendo uso de métodos de aprendizaje profundo por refuerzo. La técnica completa ha sido aprendida en un entorno simulado y desplegada en un entorno real. La estrategia ha sido validada de manera exhaustiva y comparada con numerosas técnicas clásicas para el aterrizaje de multirrotores, verificando aún más a fondo la efectividad de la misma. Además, la aplicación de seguimiento de un multirrotor no cooperativo ha sido solucionada mediante aprendizaje profundo y por refuerzo, lo cuál involucró un reto adicional debido a su naturaleza de alta dimensionalidad y al riesgo de colisión de la maniobra de seguimiento, entre otros. En una tendencia similar, se ha propuesto un método para la utilización de imágenes sintéticas fotorrealistas en el contexto de detección de objetos, con el requerimiento final de ser utilizado para imágenes reales. Finalmente, en esta tesis, han sido investigadas diversas técnicas de aprendizaje profundo y por refuerzo para detección de objetos en vídeo, con el objetivo global de aprovechar la información temporal presente en los fotogramas de una secuencia de vídeo, para así reducir la latencia de procesamiento. La técnica ha sido inspirada por la falta de atención al contexto de un objeto que la visión humana exhibe mientras realiza un seguimiento focalizado. La implementación derivó en una reutilización dinámica de contexto a lo largo de los fotogramas, junto con una estructura temporal especial que disminuyó aún más el coste computacional durante el procesamiento del vídeo. A este respecto, se ha propuesto una técnica innovadora, donde una política generada por aprendizaje por refuerzo puede ser entrenada con una distribución de funciones de recompensa, siendo capaz de encapsular numerosos comportamientos en una única política. En tiempo de inferencia, la política puede ser condicionada a un único comportamiento dependiendo de los requerimientos de la aplicación. La técnica propuesta ha sido validada en el marco de la aplicación de detección de objetos en vídeo. Sin embargo, el método es suficientemente genérico para ser aplicado en otros escenarios relacionados con el aprendizaje por refuerzo. La presente tesis por compendio está compuesta por tres publicaciones en revistas científicas peer-reviewed. Dichas publicaciones contribuyen de manera equitativa a satisfacer los objetivos de esta tesis doctoral, siguiendo una unidad temática clara y progresiva. Además, estas publicaciones han extendido el estado del arte en las mencionadas aplicaciones de robótica aérea y han contribuido al uso de información sintética en el marco de la robótica para el mundo real. ----------ABSTRACT---------- The expansion of machine learning methods has followed an unprecedented pace during the last decade. Their ability to solve problems in domains of diverse nature has placed machine learning techniques on the focus of several research lines and industrial projects. Besides, the research and innovation in robotic systems have been constantly growing, in terms of hardware and classical algorithmic development. Nevertheless, the level of robotic autonomy provided by hand-engineered algorithms, with commonly simplified models of the problem, is reaching a technological limit. In this context, machine learning methods, such as deep and reinforcement learning, have provided outstanding results in complex scenarios (e.g. computer vision tasks), which require the treatment of high-dimensional information or heterogeneous sources of data. Following these ideas, the present doctoral thesis is framed in a novel paradigm which the robotics field is currently exploring, where robots can learn high-level behaviors in a simulated environment, in order to be finally deployed in a real-world relevant environment. For the first time, deep and reinforcement learning methods and simulated environments have been used to solve challenging vision-based applications in aerial robotics, such as multirotor landing on a moving platform and non-cooperative multirotor following. Additionally, deep and reinforcement learning techniques have been utilized in the scope of object detection in video sequences. All of the techniques have been designed, implemented, and thoroughly validated in a wide variety of real and relevant scenarios. The stated applications have been formulated as vision-based problems, in order to be solved with a low-cost and off-the-shelf multirotors and/or embedded systems. In this doctoral work, the application of autonomous multirotor landing on top of a moving platform has been explored by making use of deep reinforcement learning methods. The complete approach has been learned in a simulated environment and deployed in a real environment. The strategy has been exhaustively validated and compared to several classical multirotor landing techniques, further verifying its effectiveness. In addition, the task of autonomous non-cooperative multirotor following has been solved through deep and reinforcement learning, which involved an increased challenge due to its higher dimensional nature and complexity of the maneuver, among others. In a similar trend, the complete application has been solely aided by synthetic information, such as low-level simulated states and images. Moreover, a method for the utilization of synthetic photorealistic images in the context of object detection has been proposed, with the final requirement of performing with real-world images. Finally, in this thesis, deep and reinforcement learning techniques have been researched for video object detection, with the global aim of taking advantage of the temporal information present in the frames of a video sequence, in order to reduce the processing latency. The approach has been inspired by the lack of attention to the context of an object which the human vision can exhibit when performing a focused tracking. The implementation led to dynamic context reuse across frames, along with a special temporal structure that further reduced the computational cost during the video computation. On this subject, an innovative technique has been proposed, where a reinforcement learning policy can be trained with a distribution of reward functions, being able to encapsulate several behaviors in one unique policy. At inference time, the policy can be conditioned on one unique behavior depending on the requirements of the application. The proposed technique has been validated under the scope of the video object detection application. However, the method is generic enough to be applied in further reinforcement learning related applications. This thesis by compendium is composed of three peer-reviewed scientific journal publications. Said publications equally contribute to satisfying the objectives of this doctoral thesis, following a clear and progressive thematic unity. Moreover, these publications have extended the state of the art in the stated aerial applications and have contributed to the usage of synthetic information in the scope of real-world robotics.