Tesis:
Data-driven Modelling of Cognitive and Affective Variables of Perception of Multimedia Content
- Autor: FAÚNDEZ-CARRASCO POBLACIÓN, Ricardo
- Título: Data-driven Modelling of Cognitive and Affective Variables of Perception of Multimedia Content
- Fecha: 2023
- Materia:
- Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION
- Departamentos: INGENIERIA ELECTRONICA
- Acceso electrónico: https://oa.upm.es/76521/
- Director/a 1º: FERNÁNDEZ MARTÍNEZ, Fernando
- Resumen: Understanding how external stimuli are transformed into meaningful impressions that guide human actions has been an enduring challenge. Automatic models of perception of multimedia productions stand out as a path to the characterisation of our interaction with a type of content that has nowadays flooded social media platforms and people’s digital time. Aided by well-established theories of perception, we identify memorability, attention, judgements and the emotional state as cognitive and affective variables that provide complementary views towards the comprehension of our perception of multimedia content.
Intrinsic media memorability is defined as an inherent property of the visual features of videos that determines the percentage of people who remember watching a clip in a second viewing. Our approaches are based on the extraction of video-level, topic-oriented features using pre-trained Transformers. We find that linear models trained using these features as inputs can reach prediction rates comparable to other state-of-the-art models across several datasets. Secondly, we characterise the attention to short movies at a group-level by means of using electrodermal activity recordings as ground-truth. We develop a binary classification system whose predictions, based on a semantically-driven representation of the acoustic signal of videos, denote whether the group-level attention increases or diminishes. Next, we address the judgement of images attending to a fitness criterion to tourism attractiveness. Our proposal builds upon a Mixture-Of-Experts system to leverage information relative to geolocation tags, which implicitly points to specific semantics and contents, seeking to incorporate into the model design the knowledge about the role of context during the annotation process. In order to predict the emotions elicited by historical artworks, we employ vision-language cross-modal models that seek to exploit the subjective and figurative nature within the artistic domain. We introduce a methodology to approximate systems pre-trained in realistic content to the art domain, finding that following it leads to significant improvements (up to 27%) in predicting emotions. However, given the complexity of understanding the rationale behind “black-box” visual prediction models, hence our last contribution targets the enhancement of the interpretability of these systems. We explore how to improve the explanations provided by LIME, a popular surrogate-based, post-hoc explanatory technique, by indirectly adding information about the statistic of the data distribution the “black-box” model is trained on.
We believe this thesis contributes to comprehending the human perception of multimedia content by addressing from a computational perspective several cognitive and affective variables that conform to it. In particular, our approaches seek to combine information from multiple modalities, presenting models that extract patterns from low-level features of the inputs and relate them to human actions and responses spanning various stages of perception.
RESUMEN
Entender cómo estímulos externos se transforman en impresiones que guíarán nuestras acciones ha sido un reto durante siglos. Los modelos automáticos de percepción de producciones multimedia se perfilan como una vía para la caracterización de nuestra interacción con este tipo de contenido, que hoy en día copa las redes sociales, y por tanto nuestro tiempo en el ámbito digital. De la mano de teorías de la percepción identificamos la memorabilidad, la atención, los juicios y el estado emocional como variables afectivo-cognitivas complementarios para una mejor comprensión de nuestra percepción del contenidos multimedia.
La memorabilidad intrínseca de un vídeo se define como una propiedad inherente a sus características visuales que determina el porcentaje de personas que recuerdan haberlo visto posteriormente. Nuestro enfoque se basa en la extracción de características temáticas a nivel de vídeo mediante Transformers pre-entrenados. Modelos lineales entrenados con estas características pueden alcanzar tasas de predicción comparables a las de otros modelos de estado del arte. En segundo lugar, caracterizamos mediante grabaciones de actividad electrodérmica la atención que presta un grupo durante el visionado de cortometrajes. Desarrollamos un sistema de clasificación binaria cuyas predicciones, basadas en una representación semántica de la señal acústica de los vídeos, indican si la atención a nivel de grupo aumenta o disminuye. Tras ello, estudiamos la valoración de imágenes atendiendo a su atractivo en términos de promoción turística. Nuestra propuesta se basa en un sistema de mezcla de expertos que aprovecha la información relativa a la geolocalización, la cual denota semánticas y contenidos específicos, incorporando así al diseño del modelo conocimiento sobre el proceso de anotación. Con vistas a predecir las emociones suscitadas por obras de arte históricas, empleamos modelos inter-modales de visión y lenguaje que explotan la naturaleza subjetiva y figurativa propia del dominio artístico. Introducimos una metodología para aproximar sistemas pre-entrenados en contenidos realistas al ámbito del arte, descubriendo que ello conduce a mejoras significativas de hasta el 27%. Sin embargo, dada la complejidad de comprender la lógica que subyace a los modelos de predicción visual “de caja negra”, nuestra última contribución se centra en la mejora de su interpretabilidad. Exploramos cómo mejorar las explicaciones proporcionadas por LIME, una popular técnica explicativa basada en sustitutos a post-hoc, añadiendo indirectamente información sobre la estadística de la distribución de datos sobre la que se ha entrenado el modelo de “caja negra”.
Creemos que esta tesis contribuye a comprender la percepción humana de los contenidos multimedia abordando diversas variables cognitivas y afectivas desde una perspectiva computacional. Nuestros planteamientos tratan de combinar información procedente de múltiples modalidades, presentando modelos que extraen patrones a partir de características de bajo nivel de las entradas, y relacionándolas con acciones y respuestas humanas.