Tesis:
Design of Intelligent models for Multimodal Socio-Affective Computing
- Autor: LUNA JIMÉNEZ, Cristina
- Título: Design of Intelligent models for Multimodal Socio-Affective Computing
- Fecha: 2023
- Materia:
- Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION
- Departamentos: INGENIERIA ELECTRONICA
- Acceso electrónico: https://oa.upm.es/74338/
- Director/a 1º: FERNÁNDEZ MARTÍNEZ, Fernando
- Resumen: Dialog and human-machine communication systems have represented a revolution in recent years. Nonetheless, users increasingly require more personalized and human-like assistance. Therefore, tools to improve communications from a more socio-affective perspective could enhance the interaction and experience of users with these new devices.
Motivated by this need, the main objective of the thesis is to propose solutions to improve computational models able to recognize socio-affective states (such as emotions and trustworthiness) employing multi-modal sources of information, which is enclosed in the Socio-Affective Computing feld.
Within Socio-Affective Computing, there are currently several challenges to address, around which we have framed our proposals. Despite the fact that these challenges were not expected to be solved completely in this thesis, we proposed novel solutions based on deep-learning approaches to improve existing state-of-the-art models and deepen the understanding of more complex concepts, such as trustworthiness recognition. Therefore, the main contributions of the present doctoral thesis in socio-affective modeling can be divided into the following points:
1. Socio-Affective Computing Challenges: Emotions & Dynamics
One of the bases of socio-affective computing is modeling emotions. For this reason, many efforts were dedicated to exploring state-of-the-art solutions in this area for evolving and analyzing these existing models.
• Facial Emotion Recognition.
From the Facial Emotion Recognition perspective, we proposed the Guided-STNs. The Guided-STN was implemented to guide STNs with expert knowledge of the task to solve. With this target in mind, different types of masks with embedded expert knowledge were fed into the ‘localization network’ of the STNs. Incorporating these masks allowed improvements in Facial Emotion Recognition rates in two different datasets. Concretely, the saliency-based mask was the most interesting in those cases with lower image quality, whereas the landmark-based mask reported more encouraging results when faces were easily identifable.
Continuing with the proposal of the Guided-STN developed for solving FER from images, we extended the study to videos, discovering certain limitations when employing pre-trained models on static tasks (images) for dynamic scenarios (videos).
For these experiments, we applied transfer-learning techniques to analyze how supposedly related knowledge acquired in the frst static task could be exploited to solve the second, of dynamic nature.
Results suggest that emotional datasets recorded in different conditions (with acted against real emotions; or in static vs. dynamic scenarios) represent dissimilar tasks; hence, certain adjustments are required and should be studied further in the future. For illustration, in a video, some key frames yield more relevant information about the expressed emotion than other frames belonging to the same video annotated with the same emotion. Detecting these more explanatory frames could provide a path to re-use pre-trained models with images (and their learned knowledge) for recognizing emotions in videos. However, more efforts should be dedicated to the correct and automatic identifcation of those frames.
• Speech Emotion Recognition.
The main contribution to the Speech Emotion Recognition f e ld was the review of existing models in the literature and their comparison from a technical perspective, as well as a fnal proposal of a state-of-the-art solution based on transformers for the RAVDESS dataset. In particular, the performance of traditional hand-crafted features methods was contrasted with the capabilities of recent pre-trained deep-learning models from two transfer-learning perspectives: feature extraction and fne-tuning.
For emotion recognition, transformers prevailed over the evaluated Convolutional Neural Networks. Regarding transfer learning, fne-tuning methodologies usually beat feature extraction strategies, although they require larger datasets to complete the fne-tuning process successfully.
Apart from these conclusions, results suggested that the original task from which models were fne-tuned seems to have a higher impact on obtaining higher performances than the size or complexity of the models. Although the results obtained using the deepest model still achieved the highest accuracy. However, we should continue studying the exact reason for this improvement to understand which factors contribute to achieving it and their respective weight.
2. Socio-Affective Computing Challenges: Perception vs. Reality & Social Context
Our perception frequently provides us with an initial notion of what to anticipate from every circumstance and individual. The reality, however, can occasionally be more nuanced and inconsistent with perception. From this duality arises the idea of studying trustworthiness from two different dimensions: perceived trustworthiness and real trustworthiness (or deception detection).
• Deception Detection
Deception detectors aim to identify when a person is being honest or telling a lie. In this project, we tried to exploit possible similarities between psychological states such as emotions and trustworthiness from a technical perspective. Therefore, the best models obtained in emotion recognition were evaluated on the deception detection task. Specifcally, embeddings were extracted from Speech Emotion Recognizers to train SVMs with them. However, transfer-learning techniques without fne-tuning did not signifcantly improve the results of the hand-crafted methods.
Possible explanations for this decoupling between tasks could point to:
(a) The size of the dataset: for the case of deception detection, the number of samples was not suffcient to adapt the deep-learning models to solve the new task.
(b) The nature of the data: The emotional dataset contained acted videos, while the deception dataset was recorded under more adverse conditions with ambient noise and freedom for decision-making by the participants. As it was commented, the differences in these scenarios could have a bigger impact and apriori similar tasks could not be as similar as expected.
In future work, the same experiments will be repeated with emotional datasets recorded under ambient conditions or with more samples to understand the problem further.
• Perceived Trustworthiness
At the beginning of this project, most of the existing datasets for performing trustworthiness recognition were collected in the context of laboratory games. Although this work has helped to comprehend several dimensions of trustworthiness, further experiments and tests in other conditions are needed to characterize this concept in a more complex and realistic manner. As a consequence of this desire, part of the project focused also on the design, development, and evaluation of different data acquisition platforms and methodologies to annotate the trustworthiness conveyed in audio-visual material of different natures.
Along this project, we labeled videos of politicians, presenters, or journalists, as well as those from people representing a high emotional load. The surveys were sent online to volunteers of different nationalities, allowing a statistical analysis of the results at a country level. From these analyses, some of the most important contributions are that scoring the trustworthiness transmitted by a person depends on many factors, some subjective and others infuenced by the annotators’ environment or culture.
The annotations obtained in each country represent signifcant statistical variations in their way of judging how trustworthiness is perceived, as well as the main characteristics (physical attractiveness, eloquence, tone of voice...) that correlate more with this ‘trustworthiness score’. These preliminary experiments highlight some important features to consider for future larger datasets acquisitions from which models automatically could learn how to detect perceived trustworthiness automatically.
In conclusion, this Ph.D. provides advances in the socio-affective computing feld, proposing state-of-the-art solutions and opening future lines of research that will allow us to continue advancing toward a better understanding of complex psychological states such as emotions and trustworthiness, as well as its modeling for its automatic recognition.
RESUMEN
Los sistemas de diálogos y de comunicación hombre-máquina han supuesto una revolución en los últimos años. Sin embargo, los usuarios requieren cada vez una asistencia más personalizada y humana. Por esta razón, la incorporación de herramientas que permitan comunicaciones desde una perspectiva más socio-afectiva podrían mejorar la interacción y experiencia de los usuarios con estos nuevos dispositivos.
Motivados por esta necesidad, el principal objetivo de la tesis ha sido proponer modelos computacionales para automatizar el reconocimiento de distintos estado socio-afectivos (como emociones o confianza) de forma multimodal, lo que se enmarca dentro de la rama de la Computación Socio-Afectiva.
Dentro de la Computación Socio-Afectiva, actualmente existen varios desafíos por abordar en torno a los que enmarcaremos nuestras propuestas. Aunque dichos retos no se esperan solucionar completamente en esta tesis, nos han permitido marcar las líneas de estudio sobre las que proponer nuevas soluciones basadas en modelos de aprendizaje profundo para mejorar el estado del arte y profundizar en el entenidmiento de conceptos más complejos, como el reconocimiento de confianza. De esta forma, las principales contribuciones de la presente tesis doctoral en modelado socio-afectivo se pueden dividir en los siguientes puntos:
1. Reto de la Computación Socio-Afectiva: Emociones y Dinámica
Una de las bases de la computación socioafectiva es el modelado de emociones. Por esta razón, se dedicaron muchos esfuerzos a explorar soluciones de vanguardia en esta área para evolucionar y analizar los modelos existentes.
• Reconocimiento de Emociones Faciales.
Desde la perspectiva del reconocimiento de emociones faciales, propusimos el Guided-STN. El modelo de Guided-STN fue implementato para guiar el aprendizaje de los STNs con conocimiento experto de la teare a resolver. Con este objetivo en mente, diferentes tipos de máscaras con conocimiento experto embebido se pasaron a la ‘localization network’ del STN. La incorporación de estas máscaras permitieron una mejora en las tasas de reconocimiento de emociones a partir de imágenes faciales para dos conjuntos de datos diferentes. Las máscaras que explotaban la saliencia resultaron más interesantes para aquellos escenarios con una calidad de imágenes inferior, mientras que las máscaras que usaban landmarks reportaron resultados más alentadores cuando las imágenes eran nítidas y las caras eran fácilmente identificables.
Como continuación al trabajo desarrollado con imágenes y STNs, se extendió el estudio a su uso en vídeos, descubriendo así ciertas limitaciones cuando modelos pre-entrados en tareas estáticas (con imágenes) se emplearon en escenarios dinámicos (convídeos).
Para estos experimentos, se aplicaron técnicas de transferencia de conocimiento para analizar cómo el conocimiento adquirido en una primera tarea de naturaleza estática se podría aprovechar para resolver una segunda tarea de naturaleza dinámica, supuestamente relacionada.
Los resultados sugieren que los conjuntos de datos grabados en diferentes condiciones (con emociones impostadas contra emociones reales; o en escenarios estáticos contra dinámicos) representan distintas tareas; por ello, se requieren pasos adicionales para asemejarlas.
Por ejemplo, en un vídeo hay ciertas sequencias o imágenes que resultan ser más informativas sobre la emoción expresada que otras. La detección de dichos frames podría proporcionar una alternativa para aprovechar los modelos pre-entrenados con imágenes para predicción de emociones en vídeos. Sin embargo, es necesario dedicar más esfuerzos para la correcta identificación de dichos frames.
• Reconocimiento de Emociones en Audio
La principal contribución que se hizo en el reconocimiento de emociones con audio fue la revisión y comparación de distintos modelos existentes en la literatura desde una perspectiva técnica, así como una propuesta final de un modelo tipo-transformer que obtuvo resultados de estado del arte para el dataset de RAVDESS.
En particular, se contrastó el desempeño de métodos manuales de extracción de características, con las capacidades de modelos de aprendizaje profundo desde el punto de vista de dos técnicas de transferencia de conocimiento: la extracción de características y el ajuste-fino.
Para el caso del reconocimiento de emociones, los modelos tipo-transformer adaptados a la tarea en cuestión, se impusieron sobre Redes Neuronales Convolucionales y las metodologías basadas en extracción de características, aunque para completar el proceso de ajuste-fino se require contar con un conjunto de datos lo suficientemente grande para completar dicha adaptación.
Aparte de estas conclusiones, los resultados sugirieron que la tarea original a partir de la cual se ajustaron los modelos parece tener un mayor impacto en la obtención de un mayor rendimiento que el tamaño o la complejidad de los modelos. Aunque los resultados obtenidos utilizando el modelo más profundo son los que lograron la mayor precisión. Sin embargo, deberíamos seguir estudiando el motivo exacto de esta mejora para entender qué factores contribuyen a ella y su respectivo peso.
2. Reto de la Computación Socio-Afectiva: Percepción vs. Realidad y Contexto Social
Nuestra percepción frecuentemente nos proporciona una noción inicial sobre qué esperar de cada circunstancia e individuo. La realidad, sin embargo, puede ocasionalmente ser más compleja e inconsistente con respecto a lo que percibimos. De esta dualidad surge la idea de estudiar la confianza desde dos dimensiones diferentes: la confianza percibida y la confianza real (o detección de mentiras).
• Detección de mentiras
Los detectores de engaño tienen como objetivo identificar cuando una persona está siendo honesta o está mintiendo. En este proyecto, tratamos de explotar las posibles similitudes entre estados psicológicos como las emociones y la confianza desde una perspectiva técnica. Por ello, se probaron los mejores modelos adaptados al reconocimiento de emociones, para resolver esta segunda tarea. En concreto, se extrajeron embeddings de los reconocedores de emociones en audio, y se entrenaron SVMs con ellos. Sin embargo, las técnicas de transferencia de conocimiento aplicadas únicamente sobre los embeddings extraídos de las redes, no mejoraron de manera significativa a los métodos manuales de obtención de atributos clásicos.
Las posibles explicaciones de este desacoplamiento entre tareas podrían apuntar a:
(a) El tamaño del dataset: Para el caso de detección de engaños, el número de muestras no fue suficiente para aplicar ajuste-fino sobre los modelos de aprendizaje profundo a la nueva tarea.
(b) La naturaleza de los datos: El dataset emocional contenía vídeos actuados, mientras que el de engaño fue grabado en condiciones más adversas, con cierta libertad de decisión por parte de los participantes y ruido ambiente. Como se comentó anteriormente, la diferencia entre estos escenarios podría tener un mayor impacto del esperado y tareas apriori parecidas, podrían no serlo.
Como trabajo futuro, los mismos experimentos se repetirán con nuevos datasets emocionales grabados en condiciones ambiente y con conjuntos de datos de engaño con más muestras.
• Percepción de confianza
Al comienzo de esta tesis, la mayoría de los conjuntos de datos existentes para detección de confianza eran adquiridos en el contexto de juegos de laboratorio. Aunque estos trabajos han resultado útiles para comprender algunas de las variables que explican la confianza, era necesario realizar nuevos experimentos y pruebas en otras condiciones para caracterizar este concepto de una manera más compleja y realista. Como resultado de este anhelo, gran parte del proyecto se centró en el diseño, desarrollo y evaluación de diferentes plataformas y metodologías de adquisición de datos para anotar la confianza transmitida en material audiovisual de distinta índole.
A lo largo de este proyecto, se anotaron vídeos de políticos, presentadores o reporteros televisivos, así como otros de personas mostrando expresiones con una alta carga emocional.
Las encuestas se enviaron a través de Internet a voluntarios de distintas nacionalidades, lo que permitió realizar un análisis estadístico de los resultados a nivel de país. De estos análisis, algunas de las contribuciones más importantes son que la puntuación asignada en términos de confianza depende de muchos factores, algunos subjetivos y otros probablemente influenciados por el entorno o la cultura del anotador.
Las anotaciones obtenidas en cada país representan variaciones estadísticas significativas en su forma de juzgar la confianza percibida, así como las principales características (atractivo físico, elocuencia, tono de voz...) que más se correlacionan con esta ‘anotación de confiabilidad’. Estos experimentos preliminares resaltan algunas características importantes a tener en cuenta para futuras adquisiciones de conjuntos de datos más grandes a partir de los cuales los modelos podrían aprender automáticamente cómo detectar la confianza percibida automáticamente.
En conclusión, este trabajo ha aportado avances en el campo de la Computación Socio-Afectiva, proponiendo nuevas soluciones en el estado del arte y abriendo futuras líneas de investigación que permitan continuar avanzando hacia un mayor entendimiento de complejos estados psicológicos como las emociones y la confanza, y su modelado para realizar su reconocimiento de forma automática.