Tesis:
Advanced face and gesture recognition for visual HMI
- Autor: MANTECÓN DEL VALLE, Tomás
- Título: Advanced face and gesture recognition for visual HMI
- Fecha: 2018
- Materia: Sin materia definida
- Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION
- Departamentos: SEÑALES, SISTEMAS Y RADIOCOMUNICACIONES
- Acceso electrónico: http://oa.upm.es/53144/
- Director/a 1º: JAUREGUIZAR NÚÑEZ, Fernando
- Director/a 2º: BLANCO ADÁN, Carlos Roberto del
- Resumen: Durante los últimos años se han propuesto soluciones que permiten una interacción hombre máquina más natural e intuitiva gracias a la aparición de nuevos dispositivos que complementan o sustituyen a los teclados y ratones. Tales dispositivos basan la interacción en el uso de distintas partes del cuerpo humano para que ésta sea lo más parecida a una comunicación entre humanos, haciendo uso, por ejemplo, de las manos o de la voz. Dentro de los trabajos que utilizan gestos de las manos, los hay que proponen el uso de información visual adquirida por cámaras para el reconocimiento gestual. Estas soluciones introducen una ventaja frente a sistemas basados en sensores inerciales, al ser sistemas no intrusivos para el usuario. También es de gran importancia contar con nuevos sistemas que autentifiquen el acceso a estas interfaces, sustituyendo las claves de paso introducidas por teclado. Para ello, se puede utilizar el reconocimiento por huella dactilar, reconocimiento por iris, o el reconocimiento facial. El aumento del número de cámaras, tanto en entornos de vigilancia como embebidas en los propios dispositivos (por ejemplo, teléfonos móviles, tabletas, TV, etc.), ha despertado un gran interés en los sistemas de reconocimiento facial, ya que permiten la identificación del usuario sin necesidad de sensores adicionales. A lo largo de esta tesis se presentan diversas soluciones con el objetivo de resolver tanto el reconocimiento facial como el reconocimiento de gestos de las manos, ambos basados en el uso de diversas fuentes de información visual. En cuanto a los sistemas de reconocimiento facial, se presentan tres sistemas cuya principal aportación consiste en el diseño de descriptores especialmente adaptados a la extracción de características relevantes de la cara de las personas usando imágenes de profundidad de alta resolución. Las soluciones presentadas permiten el reconocimiento facial desde diferentes perspectivas de la cara, a diferencia de la mayoría de sistemas existentes que solo admiten caras frontales. Además, el uso de imágenes de profundidad dificulta la suplantación de la identidad, siendo necesario un modelo tridimensional de la cara de la persona para su hipotética suplantación. Con el objetivo de validar los sistemas implementados, se han elaborado dos bases de datos, disponibles públicamente, que son pioneras en el campo del reconocimiento facial con imágenes de profundidad de alta resolución. En cuanto al reconocimiento de gestos, se presentan diversas soluciones para gestos estáticos y gestos dinámicos. Similarmente a los sistemas previos de reconocimiento facial, se han propuesto nuevos descriptores altamente discriminativos diseñados para información de profundidad. Además, se han aplicado técnicas de reducción de la dimensionalidad para reducir sus requisitos de memoria y favorecer el funcionamiento en tiempo real. Dichos sistemas se han integrado en un demostrador de la empresa Airbus como parte del proyecto SAVIER. Este demostrador implementa un interfaz hombre-máquina basado en gestos para una estación de control de tierra de vehículos aéreos no tripulados. Para evaluar el rendimiento del sistema se han creado nuevas bases de datos, disponibles públicamente, compuestas por información de profundidad e infrarroja. ----------ABSTRACT---------- In the last few years, many solutions have been proposed to allow a more natural and intuitive human-machine interaction thanks to the advent of new devices that improve the quality of interaction of keyboards and mouses. Different systems have been designed that make use of different human parts to offer a human-machine interaction as similar as possible to the interaction between humans, using hands or voice. Of special interest are the systems based on hand gestures and visual information, since they are non-intrusive (no sensor is wore by the user) unlike other alternatives as inertial sensors. On the other hand, new authentication systems for these mechanisms of interaction are required in substitution of passwords introduced by keyboard, such as fingerprint recognition, iris identification, or face recognition. The increase of the number of cameras in surveillance environments and embedded in electronic devices (mobiles, tablets, TVs, etc.), has awakened interest in face recognition system based on visual imagery, since no additional sensor is required for the authentication. This thesis proposes new solutions to solve both face and hand gesture recognition using visual information. With respect to the face recognition systems, three solutions based on the design of feature descriptors adapted to the characteristics of the human face using high-resolution depth-images have been proposed. They allow the face recognition from di_erent perspectives, unlike most of existing works that only accept frontal faces. Depth information makes more difficult the identity theft as a 3D model of the face would be needed for the identification. Two new databases have been created, and made publicly available, to properly evaluate the system, since no high-resolution image databases of faces are available. With respect to hand gesture recognition, novel solutions are proposed to recognize both static and dynamic hand gestures, which include new descriptors specially designed for depth information that are highly discriminative. These descriptors have been combined with dimensionality reduction techniques to reduce the memory requirements and favor the operation in real time. The proposed systems have been integrated within an Airbus demonstrator as part of the project SAVIER. The demonstrator implements a hand gesture human-machine interaction for a ground control station that commands unmanned aerial vehicles. New databases have been created, and made publicly available, composed by depth and infrared imagery to properly evaluate the system performance.