Tesis:
Deep neural networks for vehicle driving characterization by means of smartphone sensors
- Autor: HERNÁNDEZ SÁNCHEZ, Sara
- Título: Deep neural networks for vehicle driving characterization by means of smartphone sensors
- Fecha: 2020
- Materia: Sin materia definida
- Escuela: FACULTAD DE INFORMATICA
- Departamentos: AEROTECNIA
- Acceso electrónico: http://oa.upm.es/65646/
- Director/a 1º: HERNANDEZ GOMEZ, Luis
- Director/a 2º: FERNANDEZ POZO, Rubén
- Resumen: La presente Tesis analiza la caracterización de la conducción a través de los acelerómetros presentes en los smartphones de los conductores, aplicando técnicas de Deep Learning. Mediante esta investigación se estudia tanto las posibilidades de los acelerómetros para llevar a cabo dicha caracterización, como la habilidad de las herramientas de Deep Learning para aprender dichas características. La mayoría de las investigaciones abordan la caracterización de la conducción empleando un gran número de sensores, siendo necesario frecuentemente tanto instalar equipamiento extra para capturar dichas señales, como tener acceso a la información procedente del vehículo. A pesar de que las señales de los acelerómetros son ampliamente utilizadas, por ejemplo para tareas de reconocimiento de actividad o sistemas de asistencia inteligente, éstas suelen ir acompañadas de otras de diversa naturaleza. En concreto en el campo de la conducción, la mayoría de los trabajos emplean señales procedentes del CAN bus del vehículo, como señales de los pedales de freno y aceleración, información del volante, el motor o el combustible, entre otras. También es habitual el uso de señales de localización, como es el caso del Sistema de Posicionamiento Global (GPS), o sensores de movimiento, como el giróscopo y el magnetómetro. Las Redes Neuronales se han convertido en el estado del arte de muchos problemas de Machine Learning. Estas redes están formadas por neuronas o redes de neuronas, donde cada una de ellas actúa como una unidad computacional. Como se conectan las neuronas está relacionado con el algoritmo de aprendizaje empleado para el entrenamiento. Principalmente hay tres tipos: redes de alimentación de una sola capa, redes de alimentación de múltiples capas y redes recurrentes. Para nuestro estudio dentro de la Tesis nos hemos centrado en las redes multicapa y en las recurrentes. Más en concreto en los Perceptores Multicapa Convolucionales, o como se conocen habitualmente Redes Neuronales Convolucionales (CNN), y en las Redes Long Short-Term Memory (LSTM) y Gated Recurrent Unit (GRU), dentro de las Redes Neuronales Recurrentes (RNN). Cada uno de estos tipos de Red Neuronal posee unas cualidades diferentes para reconocer patrones. Las CNNs están especialmente ideadas para reconocer formas bidimensionales con un alto grado de invarianza a diferentes formas de distorsión (como la traslación o la escala), mediante tres pasos habituales: la extracción de características, el mapeo de características y el submuestreo. Las RNN son sistemas no lineales, caracterizados por presentar al menos un bucle de retroalimentación. Han demostrado ser muy eficaces extrayendo patrones cuando los atributos de los datos son muy dependientes unos de otros, ya que estas redes comparten parámetros en el tiempo. En (Bengio & LeCun, 2007) argumentan que las arquitecturas profundas presentan un gran potencial para generalizar de manera no local, lo cual es muy importante en el diseño de algoritmos de aprendizaje automático aplicables a tareas complejas. Consideramos que la caracterización de la conducción es una tarea altamente compleja, por lo que confiamos en las redes profundas como una buena herramienta de extracción de patrones y autentificación del conductor. En este trabajo hemos analizado dos problemas duales para abordar la caracterización de la conducción: la determinación del comportamiento del conductor y la autentificación del conductor. Partiendo de la hipótesis de que cada conductor posee un comportamiento único, creemos que la extracción de sus patrones característicos permite tanto analizar el tipo de maniobras o eventos que realiza, como reconocer a dicho conductor frente a otros. Normalmente esta autentificación o reconocimiento comprende tanto la identificación como la verificación del conductor. Para realizar esta investigación, hemos recopilado dos bases de datos diferentes según la tarea a llevar a cabo. La primera de ellas para la caracterización de las maniobras, está formada por más de 60000 trayectos reales de conducción, de más de 300 conductores diferentes. Para la segunda, empleada para la autentificación de conductores, hay más de 23000 trayectos de un total de 83 conductores. Los resultados obtenidos durante la Tesis demuestran la viabilidad de la caracterización de la conducción empleando únicamente los acelerómetros de los smartphones de los conductores. Pocos trabajos han abordado dicha caracterización optimizando el número de señales empleadas, así como utilizando sensores que favorecen tanto el ahorro de energía como de coste. Incluso los pocos trabajos que han tratado la caracterización utilizando exclusivamente los acelerómetros incluyen condiciones adicionales, como que el smartphone debe ir colocado en una posición fija para poder identificar las direcciones de orientación durante la conducción. Nosotros desarrollamos un sistema alternativo a las tradicionales matrices de rotación, el cual permite mapear de un sistema de coordenadas del teléfono a un sistema de coordenadas del vehículo. A través de los procedimientos presentados durante la Tesis se han propuesto diferentes técnicas de clasificación de maniobras. Mediante métodos que permiten obtener las aceleraciones longitudinales y transversales de los acelerómetros crudos originales, hemos logrado precisiones del 90.07% en la asignación de estas señales. Para el reconocimiento del conductor también se han analizado arquitecturas de red habitualmente empleadas en otras tareas, como puede ser la clasificación de imágenes o el reconocimiento de voz. Muchos modelos pre-entrenados de la literatura así como muchas técnicas de aumento de datos han sido desarrollados para imágenes, pocos trabajos lo han aplicado sobre series temporales. Mediante nuestras pruebas contribuimos tanto al estudio de técnicas de transformación de señales temporales 1-D a imágenes 2-D, para poder utilizar potentes modelos pre-entrenados del estado del arte, así como al estudio de diferentes técnicas de aumento de datos en series temporales. Nuestros experimentos nos han llevado a resultados en el campo de la identificación de casi el 72% de accuracy para la base de datos de partida, y de casi el 76% para otra base de datos pública de la literatura. Mientras que en verificación se han alcanzado tasas de casi el 80% de precision y 74% de F1 score. Con el presente trabajo se abren posibles líneas futuras que continúen con la caracterización de la conducción, para mejorar los sistemas de asistencia al conductor y contribuir hacia el camino de la conducción autónoma, mejorando la seguridad, la movilidad y los efectos medioambientales. ----------ABSTRACT---------- This Thesis analyzes the driving characterization by means of the accelerometers present in drivers' smartphones, applying Deep Learning techniques. This research studies both the accelerometer possibilities to address the characterization, and the ability of Deep Learning tools to learn these attributes. Most research have addressed the driving characterization employing a large number of sensors, generating in many cases the need for both the installation of extra equipment in order to capture these signals, and the access to the vehicle information. Although accelerometer signals are widely used, for example for activity recognition tasks or intelligent assistance systems, these are often complemented by others to different nature. In particular, in the driving task, most works use information from the Controller Area Network (CAN) bus of the vehicle, such as signals from the gas and brake pedals, information from the steering wheel, engine or fuel, among others. It is also common the use of location signals, such as the Global Positioning System (GPS), or motion sensors, as the gyroscope and the magnetometer. Neural Networks have become the state-of-the-art for many Machine Learning problems. These networks consist of neurons or neuron networks, where each of them acts as a computational unit. How the neurons are connected is related to the learning algorithm used for the training. There are mainly three types: single layer feedforward networks, multilayer feedforward networks and recurrent networks. For our research in the Thesis we have focused on multilayer and recurrent networks. More specifically in Convolutional Multilayer Perceptron, or Convolutional Neural Networks (CNN) as these are commonly known, and in Long Short-Term Memory Networks (LSTM) and Gated Recurrent Units (GRU), within the Recurrent Neural Networks (RNN). Each one of these types of Neural Network has different properties to recognize patterns. CNNs are especially designed to recognize two-dimensional shapes with a high degree of invariance to different forms of distortion (such as translation or scaling), using three common steps: feature extraction, feature mapping, and subsampling. RNNs are non-linear systems, characterized by presenting at least one feedback loop. These are very effective at extracting patterns when the data attributes are highly dependent on each other, since these networks share parameters over time. In (Bengio & LeCun, 2007), it is argued that deep architectures have great potential to generalize in a nonlocal way, which is very important in the design of Machine Learning algorithms applicable to complex tasks. We consider that driving characterization is a highly complex task, therefore we hope these deep networks will be a good tool for pattern extraction and driver authentication. In this work we have faced two dual problems in order to address the driving characterization: the driver behavior description and the driver authentication. On the basis of the hypothesis that each driver has a unique behavior, we believe that the extraction of their characteristic patterns allows both to analyze the type of maneuvers or events performed, and to recognize the driver against others. Generally this authentication or recognition includes both identification and verification of the driver. We have collected two different databases according to the task under analysis. The first one, for the maneuver characterization, is composed of more than 60000 real driving journeys, of more than 300 different drivers. For the second one, employed for driver authentication, there are more than 23000 journeys out of a total of 83 drivers. The results obtained during the Thesis demonstrate that the driving characterization is possible using only the accelerometer signals from drivers' smartphones. Few works have addressed this characterization optimizing the number of signals employed, as well as using sensors that promote both energy efficiency and costs. Even works that have carried out the characterization using exclusively the accelerometers include additional conditions, such as the need to place the smartphone in a fixed position in order to identify the orientation directions during the driving. We offer an alternative system to traditional rotation matrices, which allows mapping from the smartphone coordinate system to the vehicle coordinate system. By means of the procedures presented in the Thesis, different maneuver classification techniques have been proposed. Using methods that allow obtaining the longitudinal and transversal accelerations from the original raw accelerometers, we have achieved accuracies of 90.07% in the assignment of these signals. For driver recognition, network architectures commonly used in other tasks such as image classification or speech recognition have also been analyzed. Many pre-trained models of the literature as well as many data augmentation techniques have been developed for images, however few works have applied these techniques on time series. Through our tests we contribute both to the study of transformation techniques for 1-D time signals to 2-D images, in order to use powerful pre-trained state-of-the-art models, as well as to the study of different techniques to increase data in temporal signals. Our experiments have achieved results in the field of identification of almost 72% of accuracy for the baseline database, and almost 76% for another pubic database of the literature. Whereas verification rates have reached almost 80% of precision and 74% of F1 score. This work opens possible future lines to continue with the driving characterization task, in order to improve driver assistance systems and to contribute to the autonomous driving, improving safety, mobility and environmental effects.