Tesis:

Vision-based human alertness and attention state modeling in driving scenarios


  • Autor: ORTEGA VALDIVIESO, Juan Diego

  • Título: Vision-based human alertness and attention state modeling in driving scenarios

  • Fecha: 2024

  • Materia:

  • Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

  • Departamentos: SEÑALES, SISTEMAS Y RADIOCOMUNICACIONES

  • Acceso electrónico: https://oa.upm.es/85090/

  • Director/a 1º: ÁLVAREZ DE SOTOMAYOR, Luis Salgado
  • Director/a 2º: NIETO DONCEL, Marcos

  • Resumen: Humans are constantly striving to improve their transportation resources. The invention of the combustion engine car is considered a milestone in the evolution of modern transportation. However, engineers are continually pushing forward the optimization of vehicles. In this context, the development of advanced driving assistance systems (ADAS) has provided vehicles with functions that improve both security and comfort. In fact, the automobile industry has embraced the task of developing increasingly autonomous vehicles, which relieve the human driver of some of the driving tasks. The evolution of vehicles requires the inclusion of driver monitoring systems (DMS). Notably, DMS is a key element in EuroNCAP evaluation and Europe safety regulations, and it is expected that most vehicles will be equipped with different types of DMS. The goal of DMS is to assess the driver's capabilities to perform driving tasks, so observing the driver is necessary. Unobtrusive methods to assess the driver's state seem to be the most suitable approaches to building DMS. Among these, vision-based systems stand out as methods for observing the driver using cameras, as they offer the ability to infer visible human state impairments. Human state physiognomy is complex and depends on the individual characteristics of each person. However, some common phenomena could be identified, which allow the classification of signs of driver state impairment. The evaluation of driver capacities is usually performed, which can be degraded by episodes of inattention, putting the car occupants safety at risk. This thesis analyzes the most relevant DMS requirements based on human physiognomy signs of inattention to enable the development of unobtrusive camera-based components for DMS. The work done aims to provide researchers and industrial practitioners with an overview of driver state characteristics that are useful in building DMS components and tools. Camera-based methods for DMS are based on computer vision (CV) technologies,which are increasingly enhanced by deep learning (DL) methods. However, these methods require large datasets. Therefore, this thesis presents a methodology for building driver monitoring (DM) datasets. To apply the presented methodology, the DMD is built and made available to the research community. The DMD is a multi-modal, multi-camera dataset aimed at covering the most relevant characteristics of fatigue and distraction states. Moreover, the DMD is currently one of the most diverse datasets related to DM. Additionally, the analysis of DMS requirements has led to the development of a real-time software framework. This thesis elaborates on the classification of the typology of algorithms and proposes a modular framework for developing complex yet optimized real-time DMS architectures. The DMSLib framework is based on the definition of abstract processing units called Analyzers, which perform specific tasks. These units can be interconnected with each other, sharing common information and results by using defined interfaces. By connecting different components, it is possible to generate complex DMS pipelines that fulfill any monitoring requirements. A key benefit of the proposed framework is the optimization of DMS pipelines reducing the time to market efforts for OEMs and Tier 1. The DMD dataset and DMSLib framework have been used to develop different DM vision-based methods. First, this thesis shows the application in DM use cases, such as eyelid aperture estimation, driver gaze estimation and driver action recognition. Second, a novel method to estimate the driver's eyelid aperture is proposed. This method is based on the capacity to adapt to the human physiognomy of eye shape, which could affect the driver's fatigue state. Finally, as proof of industrial viability, some DM functions have been integrated into real vehicle systems to validate the integration with autonomous driving (AD) functions and IoT capabilities. RESUMEN Los seres humanos están constantemente esforzándose por mejorar sus formas de transporte. La invención del automóvil es un hito en la evolución del transporte moderno. Sin embargo, los esfuerzos continúan en la mejora de los vehículos. En este contexto, el desarrollo de sistemas ADAS ha proporcionado a los vehículos funciones que mejoran tanto la seguridad como la comodidad. De hecho, la industria tiene la tarea de desarrollar vehículos cada vez más autónomos, que liberan al conductor de algunas de las tareas requeridas al conducir un automóvil. El avance de los vehículos requiere incluir sistemas de monitorización del conductor (DMS). La inclusión de DMS es un elemento clave en la evaluación de la seguridad realizada por EuroNCAP y en las regulaciones europeas. El objetivo de los DMS es evaluar el estado del conductor, por lo que es necesario observar al conductor. Los métodos no intrusivos para evaluar el estado del conductor son los más adecuados para construir DMS. Entre estos, los sistemas basados en visión destacan, ya que ofrecen la capacidad de inferir aspectos visibles en el conductor. La fisiología del estado humano es compleja y depende de las características individuales de cada persona. Las capacidades del conductor pueden verse degradadas por episodios de falta de atención. Este trabajo analiza las características de falta de atención en la fisonomía humana para permitir el desarrollo de componentes basados en cámaras y datos para monitorización del conductor. Además, el objetivo es proporcionar una visión general de las características del estado del conductor que son útiles para construir componentes de DMS. Los métodos basados en cámaras se basan en tecnologías de visión por computador (CV) y aprendizaje automático (ML). Los resultados del Deep Learning (DL) han demostrado ser muy útiles en muchos problemas de análisis de imágenes. Sin embargo, estos métodos requieren conjuntos de datos grandes para realizar bien su tarea. Esta tesis presenta una metodología para construir conjuntos de datos que tienen en cuenta el análisis de los requisitos de DMS. Como ejemplo de aplicación de la metodología propuesta, se pone a disposición el conjunto de datos DMD. El DMD es un dataset multimodal y multicámara que cubre las características más relevantes de los estados de fatiga y distracción. Además, el DMD es actualmente uno de los conjuntos de datos más diversos relacionados con la monitorización del conductor. Además, el análisis de los requisitos de DMS ha llevado al desarrollo de un framework de software en tiempo real. Se propone una clasificación de la tipología de algoritmos y una metodología para diseñar arquitecturas complejas pero optimizadas. El framework propuesto DMSLib, define unidades de procesamiento, que realizan tareas específicas. Estas unidades pueden interconectarse entre sí, compartiendo resultados de algoritmos mediante el uso de interfaces comunes. Un beneficio clave del framework es la optimización del procesamiento mediante la reutilización de los resultados de los componentes, lo que reduce el tiempo de comercialización para los fabricantes de automóviles (OEM) y provedores de sistemas. El dataset DMD y el framework DMSLib se han utilizado para desarrollar y validar métodos de monitorización del conductor basados en visión artificial. Se muestra la aplicación de DMSLib y DMD en casos de uso, como la estimación de apertura de los párpados, la estimación de la dirección de la mirada y el reconocimiento de acciones. Además, se presenta un nuevo método para estimar la apertura de los párpados del conductor que se adapta a la fisonomía de la forma del ojo. El método ha sido probado en el conjunto de datos DMD e implementado con el framework DMSLib. Como prueba de viabilidad industrial, algunas funciones de DM se han integrado en sistemas de vehículos reales para validar la integración con funciones de conducción autónoma e IoT.