Tesis:
Contribución al estudio de selección de parámetros para identificación de estrés en la voz
- Autor: PALACIOS ALONSO, Daniel
- Título: Contribución al estudio de selección de parámetros para identificación de estrés en la voz
- Fecha: 2017
- Materia: Sin materia definida
- Escuela: E.T.S DE INGENIEROS INFORMÁTICOS
- Departamentos: ARQUITECTURA Y TECNOLOGIA DE SISTEMAS INFORMATICOS
- Acceso electrónico: http://oa.upm.es/47673/
- Director/a 1º: RODELLAR BIARGE, Victoria
- Resumen: En este trabajo se presenta un estudio de la caracterización de emociones y más concretamente del estrés a través de la voz, haciendo hincapié en la obtención de muestras de calidad espontáneas, en el conjunto de parámetros que mejor determinen la presencia de estrés y en aquellos algoritmos matemáticos que por un lado mejor validen unos conjuntos de datos, y por otro lado, aquellos que ofrezcan unas tasas de reconocimiento más elevadas con niveles de cómputo asequibles y extrapolabas para su posible implementación en interfaces hombre-máquina. En el primer capítulo se ofrece una introducción al estudio de las emociones realizando una retrospectiva sobre el tema y ofreciendo los avances paulatinos a lo largo de la historia, empezando por los antiguos filósofos griegos, pasando por los racionalistas y llegando hasta los mayores exponentes en nuestros días. Por otro lado, se muestra el concepto de estrés, sus posibles estados, qué estímulos lo provocan, etc. Además, se explica de manera somera la producción de la voz, qué órganos participan y las funciones que realiza cada uno de ellos. Finalmente, se ofrece una serie de potenciales aplicaciones que derivarían como consecuencia de este trabajo. En el siguiente capítulo se presentan los datos de voz que expresan emociones. Primeramente, se menciona la disponibilidad actual de las diferentes bases de datos emocionales o de estrés que maneja la comunidad científica. A continuación, se formaliza la estructura propuesta en este trabajo con la presentación de las principales características recogidas en nuestra base de datos y se presenta la metodología utilizada para la obtención de datos espontáneos. Finalmente, se introduce una aplicación web diseñada e implementada para obtener y validar muestras de voz espontáneas y los diversos conjuntos de datos o corpora utilizados a lo largo de este estudio. En el capítulo 3, se comentan los parámetros más comunes para la detección de emociones a través de la voz y además los utilizados para la detección de estrés. Estos parámetros, que podrían denominarse “clásicos”, son comentados y definidos de forma sucinta. Se presenta la herramienta utilizada para la extracción de los parámetros en este trabajo y la definición de los mismos de forma detallada, dando especial relevancia a aquellos que tienen un significado biométrico. A continuación, el capítulo 4 introduce los métodos de clasificación más comunes en la literatura. Seguidamente, se presentan los métodos utilizados a lo largo de este trabajo, organizados como métodos paramétricos y no paramétricos. Además, se presentan las técnicas utilizadas para la separación de fuentes y reducción de parámetros o dimensionalidad del problema y finalmente se muestran los métodos de clasificación y validación usados. Algunas de las principales aportaciones de este estudio se ofrecen en el capítulo 5, Resultados, donde se discute la relevancia de unos parámetros frente a otros, las tasas de clasificación de estrés a partir de diferentes técnicas, algunas individuales y otras con proceso de concatenación de varias técnicas de forma iterativa y un método para validar nuestro conjunto de datos inicial eliminando posibles datos anómalos. En el último capítulo, se resaltan las principales conclusiones a las que se ha llegado a partir de los objetivos planteados y los resultados obtenidos y también las líneas futuras de investigación que se pueden derivar de este trabajo. ----------ABSTRACT---------- In this work, the characterization of emotions and more precisely, stress in speech is addressed, taking into account the significance of emotional sample gathering, the most relevant features to detect stress and mathematical algorithms is explored, which had attained the best performance and the highest accuracy rates, to develop human-computer interfaces. In the first chapter, an introduction about emotions where the state of the art in the advancement of this topic is presented, beginning with the Greeks to reach the highest exponents till nowadays. On the other hand, regarding the definition of stress, different states and stimuli are explained. For such, the structures involved in speech production are briefly explained. Finally, some potential applications which have arisen from this work are summarized. In the next chapter, the way in which speech expresses emotions is introduced. Firstly, the availability of different emotional or stress databases is addressed. The structure of the present proposal with the presentation of principal characteristics of the database, corpora and methodologies in this work is formalised. Finally, the design and implementation of a web application to capture and validate spontaneous speech samples are shown. In chapter three, common features to detect emotions and stress in voice are discussed. These features, which can be considered classic, are defined succinctly. Besides, the extraction tool and their parameters are formalised, but with special detail in the biomechanical parameters. Chapter four is divided into three parts. In the first one, frequent classification methods in the literature are explained. In the second part separation and reduction techniques are examined. Finally, classification and validation algorithms are proposed. Some of the principal contributions attributed to this work are presented in chapter five(Results), where feature relevance, achieved accuracy rates from the different techniques proposed, single and hybrid systems and validation algorithms to eliminate anomalous data are highlighted. In the last chapter, the key conclusions derived from the objectives, and future research lines are explained.