Tesis:
Design and evaluation of novel gesture-centric interaction models in smart spaces
- Autor: WANG, Xian
- Título: Design and evaluation of novel gesture-centric interaction models in smart spaces
- Fecha: 2016
- Materia: Sin materia definida
- Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION
- Departamentos: SEÑALES, SISTEMAS Y RADIOCOMUNICACIONES
- Acceso electrónico: http://oa.upm.es/43500/
- Director/a 1º: BERNARDOS BARBOLLA, Ana María
- Resumen: Las tecnologías de espacios inteligentes están emergiendo para transformar nuestras vidas. Uno de los mayores retos para acelerar la adopción de estas tecnologías y de sus servicios asociados está en proveer interfaces de usuario intuitivas y naturales. En esta dirección, la interacción basada en gestos parece tener un gran potencial para proporcionar interfaces atractivas y eficientes. Por ello, esta tesis explora y propone nuevos modelos de interacción basada en gestos para espacios inteligentes. La tesis se desarrolla en torno a una propuesta de un sistema de interacción basado en gestos, pensado para controlar recursos inteligentes, que se analiza siguiendo el modelo de interacción instrumental. El sistema se basa en una gramática gestual la cual es una metáfora de las frases imperativas del lenguaje natural; el objetivo de esta gramática es facilitar la identificación de las entidades interactivas sobre las que se quiere realizar una acción, y las operaciones a realizar sobre ellas, siguiendo una estructura jerárquica sujeto-verbo o sujetoverbo- objeto. El sistema que interpreta la gramática tiene también en cuenta la ubicación del usuario, para permitir la portabilidad de la interacción gestual y su interpretación contextual. Además de la implementación del sistema, que sigue una arquitectura cliente-servidor, en el trabajo se discuten los problemas de diseño de las interfaces de usuario utilizadas para diseñar soluciones de interacción basadas en tres tecnologías diferentes: reloj inteligente, teléfono y dispositivo Kinect. Estas tecnologías implementan y comparan tres tipos de interfaces, a saber: vestibles (“wearable”), tangibles (en su versión “graspable”) y “no instrumentadas”. En la tesis se propone asimismo un método de reconocimiento de gestos multitecnología con entrenamiento previo, que es un elemento crítico del sistema de interacción. Este método permite satisfacer los requisitos de los escenarios de aplicación: la configuración de vocabularios de gestos personalizados, un funcionamiento consistente y satisfactorio con una pequeña cantidad de muestras de entrenamiento, la compatibilidad con diferentes tipos de datos de gestos y la facilidad de implementación para diferentes sensores. La evaluación offline previa a la implementación del sistema en tiempo real, realizada sobre un dataset de 30 gestos procedentes de 11 usuarios, muestra que el método propuesto funciona correctamente tanto con datos de posición como de aceleración, proporcionando en ambos casos una alta tasa de reconocimiento. Las pruebas, que cubren otros aspectos como la expresividad de diferentes tipos de letras o gestos, han permitido también averiguar que tres repeticiones de entrenamiento por gesto son suficientes para converger hacia una tasa de reconocimiento correcto satisfactoria. Con el objetivo de proporcionar una solución integral para configurar servicios personalizados en espacios inteligentes, además del reconocimiento de gestos para interacción, se explora en la tesis la identificación biométrica basada en gestos. Esta puede resultar más integrada en un flujo de interacción basado en gestos que las soluciones que utilizan otros atributos biométricos físicos (e.g. huellas digitales). Las pruebas offline realizadas sobre el dataset de Kinect reflejan que la identificación a partir de pares de gestos concatenados mejora considerablemente la tasa de identificación correcta, cuando se compara ésta con la implementación que utiliza un único gesto. En la tesis se documenta también un completo estudio de usuarios, realizado en un entorno realista, que se ha llevado a cabo para evaluar el diseño de las interfaces y el método de reconocimiento. Las pruebas han sido diseñadas siguiendo una estrategia within-group (todos los participantes han ejecutado las mismas tareas) y en ellas han participado doce individuos. El estudio se ha diseñado en cuatro fases: entrenamiento (para hacer que el sistema funcionase correctamente para cada usuario), realización de pruebas del precisión, ejecución de trayectorias de interacción (en las que los participantes han tenido que ejecutar seis acciones de la vida diaria con gestos) y utilización de reconocimiento de voz para control del entorno (para comparación de ambas técnicas). Para las tres tecnologías, se han recogido tanto métricas de errores y tiempos de ejecución como evaluaciones subjetivas del vocabulario de gestos, gramática, esfuerzo físico, interfaz de usuario, entrenamiento y preferencias. A partir de los datos obtenidos se puede observar que el reconocimiento de gestos en tiempo real tiene una precisión moderada, más reducida que la conseguida en las pruebas offline. Es efectivo en términos de tiempo, ya que no introduce un retardo significativo en la duración total de la interacción. El tiempo de realización de tareas con gestos es comparable con el necesario para ejecutar la interacción con voz, aunque los participantes han cometido más errores con gestos que con voz para una misma tarea. La mayor parte de los participantes han señalado que la gramática propuesta es fácil de aprender y podría ser efectiva para controlar los recursos inteligentes. Considerando el análisis de los resultados del estudio de usuarios, se han extraído también una serie de recomendaciones de diseño que están relacionadas con los modos de realizar los gestos, el reconocimiento, la gramática, la interfaz de usuario o la mejora de la eficiencia del método, con el objetivo de facilitar el diseño de otros sistemas de interacción basados en gestos. La evaluación obtenida del estudio de usuarios puede asimismo ser utilizada para comparar modelos de interacción posteriores. ABSTRACT Technologies of smart spaces are emerging to transform our lives. One of the main challenges to accelerate the adoption of these technologies and of their associated services lies in providing intuitive and natural user interfaces. In this direction, the interaction based on gestures seems to have a great potential to provide attractive and efficient interfaces. Thus, this thesis explores and proposes new models of interaction based on gestures for smart spaces. The thesis develops around a proposal of an interaction system based on gestures, which is conceived to control smart resources, and is analyzed with the instrumental interaction model. The system is based on a gestural grammar that is a metaphor of imperative phases of natural languages; the objective of this grammar is to facilitate the identification of interactive entities on which users want to realize an action, and the operations to realize on them, following one hierarchical structure subject-verb or subject-verb-object. The system which interprets the grammar also considers location of users to allow portability of the gestural interaction and its contextual interpretation. In addition to the implementation of the system, which has a client-server architecture, this work discusses problems of design of user interfaces utilized for designing solutions of interaction based on three different technologies: the smartwatch, the smartphone and the Kinect device. These technologies implement and compare three types of interfaces, namely: wearable, tangible and natural. In the thesis a gesture recognition approach, which is a critical element of the interaction system, is proposed with previous training and based on multiple enabling technologies. This approach allows meeting the requirements of application scenarios: configuration of personalized gesture vocabulary, performance that is consistent and satisfactory with a small amount of training samples, compatibility with different types of gesture data, and facility of implementation for different sensors. Before the implementation of real time system, an offline evaluation carried out on a dataset of 30 gestures collected from 11 users, shows that the proposed approach works with both position data and acceleration data, providing high recognition rate in both cases. The tests, which cover other aspects such as expressivity of different types of letters or directional movements, have allowed ascertaining that three repetitions of gesture training are sufficient in order to converge to a satisfactory rate of recognition. To provide an integral solution to configure personalized services in smart spaces, aside from the gesture recognition for interaction, biometric identification based on gestures is explored in the thesis. The identification can be more integrated in an interaction workflow based on gestures than solutions that utilize other physical biometric attributes (e.g. digital fingerprints). The offline tests carried out on the dataset of Kinect reveal that the rate of correct identification with concatenated gesture pairs improves considerably, compared with an implementation that utilizes single gestures. A complete user study, which is carried out in a real environment to evaluate the design of the interfaces and the recognition approach, is documented in the thesis as well. The tests have been designed with a within-group strategy (all participants perform same tasks) and twelve individuals have participated. The study has been designed in four phases: training to make the system work correctly for each user, a gesture recognition test, a user journey test in which the participants have six daily life tasks with gestures, and utilization of speech recognition to control the environment for a comparison with gesture-based interaction. For the three technologies, the user study collects metrics of errors and time performances, as well as subjective evaluations of a gesture vocabulary, the grammar, physical effort, user interface, training and preferences. From the obtained data it can be observed that the gesture recognition in real environment has a moderate precision, much lower than that obtained in the offline tests. It is effective in terms of time complexity, since it does not introduce significant delay in the total duration of the interaction. The task time with gestures is comparable with the one needed for interaction with voice, although the participants have committed more errors with gestures than with voice for the same task. The majority of the participants have indicated that the proposed grammar is easy to learn and could be effective to control the smart resources. Based on the analysis of the results of the user study, a series of design recommendations are extracted as well, which are related with gesture performance procedure, the gesture recognition, the grammar, user interface, and enhancement of gesture input efficiency, aiming at facilitating the design of other interaction systems based on gestures. The evaluation obtained from the user study could be utilized likewise as a benchmark for the following design iterations.