Tesis:

Computer Vision Driven Assistive Solution for People with Visual Impairment or Blindness


  • Autor: VALIPOOR, Mohammad Moeen

  • Título: Computer Vision Driven Assistive Solution for People with Visual Impairment or Blindness

  • Fecha: 2025

  • Materia:

  • Escuela: E.T.S DE INGENIEROS INFORMÁTICOS

  • Departamentos: LENGUAJES Y SISTEMAS INFORMATICOS E INGENIERIA DE SOFTWARE

  • Acceso electrónico: https://oa.upm.es/86803/

  • Director/a 1º: ANTONIO JIMÉNEZ, Angélica de
  • Director/a 2º: CABRERA QUESADA, Julián

  • Resumen: This thesis aims to support researchers and developers in creating cost-effective, computer vision-based assistive solutions for people with visual impairment and blindness (P-VI/blindness) in indoor environments. The primary objective of this research is to propose a framework for designing cost-effective solutions that assist P-VI/blindness in understanding their surroundings and locating objects in indoor environments that addresses the main existing challenges. The secondary objective of this thesis is to apply the proposed framework for the development of a specific cost-effective solution that helps P-VI/blindness with scene understanding and locating objects in their surroundings. At the beginning, a comprehensive systematic mapping study (SMS) was conducted to understand the advances of computer vision in the field of assistive solutions for scene understanding during the past years. Then a semi-structured interview with eight participants having different levels of visual impairment was performed to better understand user needs. The SMS combined with the user research served to identify some key challenges in the development of such solutions: o The integration of user needs and requirements during the design and development process. o The selection of appropriate technologies (both hardware and software) among the various available options, that align with an intended solution. o Effectively communicating feedback from the system to users. Afterwards, a framework was developed that addresses the mentioned challenges and guides researchers and developers in integrating user needs, selecting appropriate technologies, and effectively communicating system feedback to users. The framework consists of: o The various use cases of an assistive solution for scene understanding in indoor environments. o The list of functional and non-functional requirements to be fulfilled by an assistive solution for scene understanding in indoor environments. o A general reference architecture for assistive solutions for scene understanding in indoor environments. o A guideline for selecting appropriate technologies for the design and development of such solutions. Moreover, according to the proposed framework, two solutions are presented to fulfil the secondary objectives of the thesis. This thesis adopts two academic and industrial approaches. The academic approach focuses on analyzing and evaluating state-of-the-art technologies, while the industrial approach aims to develop a minimum viable product as a commercial solution. Two distinct solutions were developed as secondary objectives: 1. AssistDiv: A wearable laptop-based solution utilizing an RGB-D camera for scene understanding and object location assistance. This prototype was used to assess various state-of-the-art technologies and was tested with blindfolded participants. 2. V-ASSISTANT: A smartphone-based minimum viable product developed to explore industrialization potential. This solution underwent preliminary testing with P-VI/blindness users. In conclusion, this thesis provides a valuable framework and insights for researchers and developers working on assistive technologies for P-VI/blindness. It addresses critical challenges in indoor scene understanding and object location, paving the way for more effective, user-centered solutions that can significantly improve the daily lives of P-VI/blindness. RESUMEN Esta tesis tiene como objetivo apoyar a investigadores y desarrolladores en la creación de soluciones de asistencia rentables y efectivas, basadas en visión por computadora, para personas con discapacidad visual y ceguera (P-DV/ceguera) en entornos interiores. El objetivo principal de esta investigación es proponer un marco para diseñar soluciones rentables y eficaces que ayuden a las P-DV/ceguera a comprender su entorno y localizar objetos en entornos interiores, abordando los principales desafíos existentes. El objetivo secundario de esta tesis es aplicar el marco propuesto para el desarrollo de una solución específica que ayude a las P-VI/ceguera en la comprensión y la localización de objetos en su entorno. Al inicio, se realizó un estudio de mapeo sistemático (SMS) exhaustivo para comprender los avances de la visión por computadora en el campo de las soluciones de asistencia para la comprensión del entorno en los últimos años. Posteriormente, se realizaron entrevistas semiestructuradas con ocho participantes que tenían diferentes niveles de discapacidad visual para comprender mejor las necesidades de los usuarios. El SMS, combinado con las entrevistas semiestructuradas, identificó los principales desafíos en el desarrollo de dichas soluciones: o La integración de las necesidades y requisitos del usuario durante el proceso de diseño y desarrollo. o La selección de tecnologías apropiadas (tanto de hardware como de software) entre varias opciones disponibles, que se alineen con la solución prevista. o Comunicar de manera efectiva la retroalimentación del sistema a los usuarios. Posteriormente, se desarrolló un marco que cubre los desafíos mencionados y guía a los investigadores y desarrolladores en la integración de las necesidades del usuario, la selección de tecnologías adecuadas y la comunicación efectiva de la retroalimentación del sistema a los usuarios. El marco se compone de: o Los diversos casos de uso de una solución asistiva para la comprensión de escenas en entornos interiores. o La lista de requisitos funcionales y no funcionales que deben cumplir las soluciones asistivas para la comprensión de escenas en entornos interiores. o Una arquitectura de referencia general para soluciones asistivas para la comprensión de escenas en entornos interiores. o Una guía para la selección de tecnologías apropiadas para el diseño y desarrollo de tales soluciones. Además, de acuerdo con el marco propuesto, se presentan dos soluciones para cumplir con los objetivos secundarios de la tesis. Esta tesis adopta dos enfoques: uno académico y otro industrial. El enfoque académico se centra en analizar y evaluar las tecnologías más avanzadas, mientras que el enfoque industrial tiene como objetivo desarrollar un producto mínimo viable como solución comercial. Se desarrollaron dos soluciones distintas como objetivos secundarios: 1. AssistDiv: Una solución portátil basada en una laptop que utiliza una cámara RGB-D para la comprensión de escenas y la asistencia en la localización de objetos. Este prototipo se utilizó para evaluar diversas tecnologías avanzadas y fue probado con participantes con los ojos vendados. 2. V-ASSISTANT: Un producto mínimo viable basado en un smartphone desarrollado para explorar el potencial de industrialización. Esta solución fue sometida a pruebas preliminares con usuarios P-VI/ceguera. En conclusión, esta tesis proporciona un marco valioso y conocimientos útiles para investigadores y desarrolladores que trabajan en tecnologías asistivas para P-VI/ceguera. Aborda desafíos críticos en la comprensión de escenas en interiores y la localización de objetos, allanando el camino para soluciones más efectivas y centradas en el usuario que puedan mejorar significativamente la vida diaria de las P-VI/ceguera.