Tesis:

Contributions to Human Motion Modeling and Recognition using Non-intrusive Wearable Sensors


  • Autor: GIL MARTÍN, Manuel

  • Título: Contributions to Human Motion Modeling and Recognition using Non-intrusive Wearable Sensors

  • Fecha: 2022

  • Materia: Sin materia definida

  • Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

  • Departamentos: INGENIERIA ELECTRONICA

  • Acceso electrónico: https://oa.upm.es/70493/

  • Director/a 1º: SAN SEGUNDO HERNÁNDEZ, Rubén

  • Resumen: Esta tesis contribuye a la caracterización del movimiento a través de señales inerciales y fisiológicas obtenidas con dispositivos portátiles y analizadas a través de técnicas de procesado de señal y algoritmos de aprendizaje profundo. La investigación llevada a cabo en torno al análisis de movimiento tiene tres aplicaciones principales: saber qué actividad está realizando la persona (reconocimiento de actividades humanas), identificar quién está realizando ese movimiento (identificación de usuario) o conocer cómo se está realizando ese movimiento (detección de anomalías motoras). Muchas de las investigaciones previas a esta tesis han abordado el modelado del movimiento humano utilizando sensores invasivos en contacto con el usuario o sensores intrusivos que modifican el comportamiento del usuario a la hora de realizar una acción (cámaras o micrófonos). En este sentido, los dispositivos wearables como los teléfonos y relojes inteligentes pueden recopilar señales de movimiento de los usuarios durante su vida diaria de una manera menos invasiva o intrusiva. Recientemente, ha habido un aumento exponencial de la investigación centrada en el procesamiento de señales inerciales para caracterizar el movimiento de las personas y desarrollar sistemas con diferentes aplicaciones. Los sistemas de aprendizaje automático generalmente se componen de un módulo de extracción de características y un módulo clasificador. Los algoritmos tradicionales extraen características de forma manual basadas en el conocimiento experto de las propias señales. Posteriormente, estos sistemas utilizan estas características como entradas al algoritmo de aprendizaje automático para clasificar las señales de entre un conjunto de clases. Sin embargo, las redes neuronales profundas ofrecen la posibilidad de aprender las características directamente de las señales y realizar tanto el aprendizaje de las características como su clasificación a través de una arquitectura única. Estas redes son muy efectivas para extraer patrones cuando las entradas dependen en gran medida unas de otras y pueden construir modelos que podrían generalizar patrones complejos. Por lo tanto, decidimos aprovechar la capacidad de aprendizaje de estas redes para el modelado y el reconocimiento de patrones basados en señales inerciales de movimiento. Partiendo de la hipótesis de que cada actividad tiene características especiales en función de su tipo de movimiento, proponemos diferentes técnicas de procesamiento de señales y aprendizaje profundo en función de una tipología de actividades humanas: movimientos repetitivos como correr o andar en bicicleta; movimientos no repetitivos (gestos) como abrir un cajón o beber una taza de café; y posturas como sentarse o estar de pie. Hemos analizado el tamaño de la ventana, el dominio de análisis de la señal (en tiempo o frecuencia) y la arquitectura de la red neuronal para determinar la configuración más apropiada para cada tipo de actividad. Las ventanas largas (> 25 s) con características en el dominio del tiempo, junto con el uso de redes neuronales convolucionales (CNNs) ha proporcionado un mejor rendimiento para los movimientos repetitivos. En el caso de movimientos no repetitivos, la mejor opción fue usar ventanas más cortas (3 s) al modelar variaciones dentro de la ventana usando capas Long Short-Term Memory (LSTM) (estructura CNN + LSTM). Para las posturas, la detección de oscilaciones lentas, gracias a una mayor resolución espectral en ventanas largas, ha permitido aumentar la tasa de acierto sensiblemente. Basándonos en la hipótesis de que la forma de caminar puede caracterizar de manera única a un sujeto, hemos demostrado que la capacidad de aprendizaje de las redes neuronales de aprendizaje profundo puede modelar identidades con la suficiente calidad como para realizar una supervisión continua de personas. En este sentido, proponemos una adaptación de la solución basada en d-vectors utilizada en el campo de reconocimiento de locutor, y comparamos este método con los algoritmos tradicionales de aprendizaje automático utilizados anteriormente. Los experimentos basados en la solución d-vector han demostrado la robustez de este enfoque en comparación con el resto de los algoritmos más convencionales utilizados en trabajos previos. Este análisis incluye también el impacto de diferentes aspectos como el tiempo empleado para darse de alta en el sistema, la distribución de las grabaciones en los subconjuntos de inscripción, validación y prueba y la variedad de las actividades consideradas. En cuanto a la tercera aplicación, detección de anomalías motoras, aplicamos modelado de movimiento en diferentes escenarios para generar bio marcadores basados en dicho movimiento. En primer lugar, para la detección de la enfermedad de Parkinson, evaluamos el dibujo a mano como un procedimiento no intrusivo para supervisar de forma remota la alteración en la cinemática del dibujo realizado con una tableta digital. Demostramos que las direcciones X e Y son las señales más informativas para detectar el temblor de Parkinson. En segundo lugar, con respecto a la detección del estrés, observamos que las señales fisiológicas son cruciales para evaluar situaciones de estrés e informar de métricas cuantitativas a los médicos. Asimismo, para detectar el consumo de alcohol, investigamos un bio marcador de movimiento a través de un sensor wearable que demuestra que los movimientos de sujetos ebrios y sobrios se pueden modelar y clasificar mediante algoritmos de aprendizaje profundo en un contexto dependiente del sujeto. Finalmente, demostramos que la estimación de la distancia alcanzada en ejercicios de control del equilibro postural se podía mejorar aplicando redes recurrentes. Finalmente, esta tesis propone varias estrategias para combinar información de varias sub-ventanas, mejorando el análisis o reconocimiento de movimiento en duraciones largas. Estas estrategias abarcan técnicas de aprendizaje de características y clasificación, ya que se basan en la integración de información temporal en diferentes puntos dentro del sistema para la detección o clasificación del movimiento humano. Se han descrito y evaluado tres alternativas para la combinación de información: promediar las características antes de los algoritmos de aprendizaje profundo, integrar las salidas de la red o combinar la información de varias ventanas consecutivas utilizando estructuras de aprendizaje profundo como Time Distributed layers. Como resultado de este análisis, hemos conseguido mejoras significativas al integrar información de sub-ventanas en comparación con usar directamente ventanas largas. Este trabajo abre líneas de trabajo futuro para continuar la investigación en el campo del modelado de movimiento enfocadas en mejorar el reconocimiento de actividad, la biometría y la detección de anomalías motoras con baja intrusión en el día a día de las personas. ----------ABSTRACT---------- This thesis contributes to motion characterization through inertial and physiological signals captured by wearable devices and analyzed using signal processing and deep learning techniques. This research leverages the possibilities of motion analysis for three main applications: to know what physical activity a person is performing (Human Activity Recognition), to identify who is performing that motion (user identification) or know how the movement is being performed (motor anomaly detection). Most previous research has addressed human motion modeling using invasive sensors in contact with the user or intrusive sensors that modify the user’s behavior while performing an action (cameras or microphones). In this sense, wearable devices such as smartphones and smartwatches can collect motion signals from users during their daily lives in a less invasive or intrusive way. Recently, there has been an exponential increase in research focused on inertial-signal processing to characterize people's motion and develop systems with different applications. Machine learning systems are usually composed of a feature extraction module and a classifier module. The traditional systems typically try to extract handcrafted features based on expert knowledge from the signals. Then, the systems use these features as inputs to the machine learning algorithm to classify these signals into different classes. However, deep neural networks open the possibility to directly learn features from signals and perform both feature learning and classification tasks, through a unique architecture. These networks are very effective at extracting patterns when inputs highly depend on each other and can build models able to generalize complex patterns. Therefore, we decided to apply the learning capability of these networks for motion inertial signals based pattern modeling and recognition. Based on the hypothesis that each movement has special characteristics depending on its type of activity, we propose different signal processing and deep learning techniques on a typology of human activities: repetitive movements such as running or cycling; non-repetitive movements (gestures) as opening a drawer or drinking a cup of coffee; and postures such as sitting or standing. We have analyzed the window size, the signal analysis domain (time or frequency), and the neural network architecture to determine the most meaningful configuration for each type of activity. Long windows (> 25 s) of raw data in Convolutional Neural Networks (CNNs) provided better performance for repetitive movements. In the case of non-repetitive movements, the best option was using shorter windows (3 s) when modeling intra-window variations using Long Short-Term Memory (LSTM) layers (CNN+LSTM structure). For postures, detecting slow oscillations, thanks to a higher spectral resolution in long windows, allow increasing the recognition accuracy. Based on the hypothesis that the walking style can uniquely characterize a subject; we demonstrate that the learning capability of deep learning neural networks could competitively model identities to perform continuous person supervision. In this sense, we propose an adaptation of the d-vector approach used for the speaker recognition field and compare this method to traditional machine learning algorithms previously used in biometrics applications. The experiments based on the d-vectors solution have demonstrated the robustness of the proposed approach compared to the rest of conventional machine learning algorithms used in previous works. This analysis also includes the impact of different aspects such as the amount of enrollment time, recordings distribution in enrollment, validation and test subsets, and variability of considered activities. Regarding the third application, motor anomaly detection, we applied motion modeling in different scenarios to generate motion-based biomarkers. Firstly, for Parkinson’s Disease detection, we evaluated handwriting drawings as a non-intrusive procedure to remotely supervise the alteration in the kinematics of drawing through a simple digital tablet. We demonstrated that X and Y directions are the most informative signals for detecting Parkinson’s tremors. Secondly, regarding stress mood detection, physiological signals are crucial to evaluate stress situations and report quantitative metrics to physicians. Moreover, for detecting alcohol consumption, we investigated a motion biomarker through a wearable sensor demonstrating that intoxicated and sober subjects’ movements could be modeled and classified using deep learning algorithms in a subject-dependent context. Finally, we demonstrated that estimating the reach distance of balance postural control exercises could be improved by applying recurrent networks. Finally, this thesis proposes several strategies for combining information from several sub-windows to improve the motion analysis or recognition in long durations. These strategies encompass feature learning and classification techniques since they are based on integrating information from motion in different points of the human motion modeling framework. Three alternatives for information combination have been described and evaluated: averaging the features before the deep learning algorithms, integrating the network outputs, or combining the information from several consecutive windows using deep learning structures like Time Distributed layers. As result of this analysis, we have demonstrated significant improvements when integrating information from sub-windows compared to directly using long windows. This work opens future lines to continue the research in the motion modeling field focused on improving activity recognition, biometrics, and motor anomalies detection with low intrusiveness in people’s day-to-day life.