Contribution to Methodologies for Human Activity Recognition: Focusing on the Visually Impaired

<< Volver atrás

Tesis:

Contribution to Methodologies for Human Activity Recognition: Focusing on the Visually Impaired

Autor: JAÉN VARGAS, Milagros Quilimara

Título: Contribution to Methodologies for Human Activity Recognition: Focusing on the Visually Impaired

Fecha: 2024

Materia:

Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

Departamentos: TECNOLOGIA FOTONICA Y BIOINGENIERIA

Acceso electrónico: https://oa.upm.es/82209/

Director/a 1º: SERRANO OLMEDO, José Javier

Resumen: The growing number of visually impaired individuals (VIPs) worldwide, representing approximately 2.2 billion of the global population, has led to increased interest in the development of assistive technologies. These technologies aim to enhance mobility and safety in indoor and outdoor environments, preventing obstacles and providing support to rehabilitation professionals in addressing biomechanical constraints, such as gait, posture, and balance. Conversely, the advent of technologies such as artificial intelligence (AI) and the utilization of wearable devices to gather data on human movement are pivotal for the advancement of solutions that can assist and enhance the quality of life for individuals with visual impairments (VIPs). For instance, scientists have developed algorithms for human activity recognition (HAR) that enable the automatic extraction of features. These algorithms utilize inertial sensors as input data. For this reason, the Bioinstrumentation and Nanomedicine Laboratory (LBN) of Universidad Politécnica de Madrid (UPM) is engaged in the development of methodologies for human activity recognition, with a particular focus on the visually impaired. In particular, we proposed a study to determine the optimal balance assessment for VIP. We considered the data acquisition device (OpenSense RT), selected the appropriate Deep Learning techniques to treat time series data, developed a personalized balance test for VIP (mini-BESTest), and tested various machine learning and deep learning models to identify differences in balance between sighted and blind individuals. Prior to utilizing IMU data, an assessment was conducted on the mini-BESTest evaluation table. The application of K-Means clustering revealed that Test 3, which involves standing on one leg, is a reliable indicator of the distinction between sighted and blind individuals. On the other hand, the study tested a number of AI model architectures for time series data, with the hybrid CNN-LSTM option 2 emerging as the most effective in multiclass classification. The models, such as LSTM and GRU, exhibited a longer latency in their predictions. The manner in which data is presented is of crucial importance in the context of AI training. Methodology 2, which considers each leg separately, was found to be the most effective. The use of acceleration data with a sliding window of 25 resulted in an accuracy of 80% and an F1-score of 61%. The discussion about the optimal sliding window size revealed that halving the IMU acquisition frequency (from 50 Hz to 25 Hz) similar performance metrics. The raw acceleration data indicated comparable performance to quaternions, although the latter increased the computational complexity. RESUMEN El creciente número de personas con discapacidad visual en todo el mundo, que representan aproximadamente 2.2 billones de la población mundial, ha suscitado un mayor interés por el desarrollo de tecnologías de asistencia. El objetivo de estas tecnologías es mejorar la movilidad y la seguridad en entornos interiores y exteriores, evitando obstáculos y prestando apoyo a los profesionales de la rehabilitación a la hora de abordar limitaciones biomecánicas, como la marcha, la postura y el equilibrio. A la inversa, la llegada de tecnologías como la inteligencia artificial (IA) y la utilización de dispositivos portátiles para recopilar datos sobre el movimiento humano son fundamentales para el avance de soluciones que puedan ayudar y mejorar la calidad de vida de las personas con discapacidad visual. Por ejemplo, los científicos han desarrollado algoritmos para el reconocimiento de la actividad humana (HAR) que permiten la extracción automática de características. Estos algoritmos utilizan sensores inerciales como datos de entrada. Por este motivo, el Laboratorio de Bioinstrumentación y Nanomedicina (LBN) de la Universidad Politécnica de Madrid (UPM) está inmerso en la creación de una contribución a las metodologías para el reconocimiento de la actividad humana, con un enfoque particular en las personas con discapacidad visual. En concreto, propusimos un estudio para determinar la evaluación óptima del equilibrio para VIP. Consideramos el dispositivo de adquisición de datos (OpenSense RT), seleccionamos las técnicas de aprendizaje profundo para tratar los datos de series temporales, desarrollamos una prueba de equilibrio personalizada para VIP (mini-BESTest) y probamos varios modelos de aprendizaje automático y aprendizaje profundo para identificar diferencias en el equilibrio entre individuos videntes y ciegos. Antes de utilizar los datos de la IMU, se realizó una evaluación en la tabla de evaluación del mini-BESTest. La aplicación de la agrupación de K-Means reveló que la prueba 3, que consiste en ponerse de pie sobre una pierna, es un indicador fiable de la distinción entre personas videntes y ciegas. Por otro lado, el estudio puso a prueba varias arquitecturas de modelos de IA para datos de series temporales, y la opción 2, la CNN-LSTM híbrida, resultó ser la más eficaz en la clasificación multiclase. Los modelos como LSTM y GRU mostraron una mayor latencia en sus predicciones. La forma en que se presentan los datos es de crucial importancia en el contexto del entrenamiento de IA. La metodología 2, que considera cada pierna por separado, resultó ser la más eficaz. El uso de datos de aceleración con una ventana deslizante de 25 dio como resultado una precisión del 80% y una puntuación F1 del 61%. El debate sobre el tamaño óptimo de la ventana deslizante reveló que la reducción a la mitad de la frecuencia de adquisición de la IMU (de 50 Hz a 25 Hz) ofrecía métricas de rendimiento similares. Los datos brutos de aceleración indicaban un rendimiento comparable al de los cuaterniones, aunque este último aumentaba la complejidad computacional.