A Distributional Semantics Perspective of Lexical Resources for Affect Analysis: An application to Extremist Narratives

<< Volver atrás

Tesis:

A Distributional Semantics Perspective of Lexical Resources for Affect Analysis: An application to Extremist Narratives

Autor: ARAQUE IBORRA, Oscar

Título: A Distributional Semantics Perspective of Lexical Resources for Affect Analysis: An application to Extremist Narratives

Fecha: 2020

Materia: Sin materia definida

Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

Departamentos: INGENIERIA DE SISTEMAS TELEMATICOS

Acceso electrónico: http://oa.upm.es/65575/

Director/a 1º: IGLESIAS FERNÁNDEZ, Carlos Ángel

Resumen: Los campos de Análisis de Sentimientos y Emociones son prominentes en el Procesado de Lenguaje Natural (NLP, en inglés). Modelar emociones requiere de un número de técnicas que, en la mayoría de los casos, se comparten con otras áreas del NLP. Es este contexto, esta tesis aborda el desarrollo de métodos de aprendizaje automático novedosos a través de la combinación de características superficiales y profundas en Análisis de Sentimientos y Emociones. Tras observar los resultados obtenidos, los métodos desarrollados han sido adaptados a otras áreas del NLP, transfiriendo así los resultados obtenidos a campos que se pueden beneficiar en gran manera de dichas técnicas. De esta manera, hemos diseñado una taxonomía que permite clasificar diferentes tipos de técnicas en Análisis de Sentimientos, según las características y combinaciones usadas. Esta taxonomía nos ha permitido desarrollar varios modelos de aprendizaje automático que combinan características superficiales y profundas, además de un variedad de modelos de aprendizaje, sobre todo las técnicas de aprendizaje profundo. Estos modelos han sido evaluados mediante en entornos de Análisis de Sentimientos, a niveles de documento y aspecto. A continuación, hemos contribuido con una técnica para la generación de léxicos de sentimientos específicos del dominio, usando el algoritmo de retro-propagación. En una línea similar de trabajo, también hemos extendido un método para la generación de léxicos, obteniendo un recurso bilingüe anotado en Inglés e Italiano. La contribución central de esta tesis es un modelo que explota la similitud semántica en representaciones distribuidas a través de léxicos, extrayendo características mediante el uso de word embeddings y un léxico de sentimientos: el modelo SIMON. Hemos observado que SIMON ha mostrado resultado positivos en la evaluación experimental, y ofrece una alternativa potente a las técnicas clásicas de uso de léxicos. A la luz de esta última contribución, esta tesis estudia la adaptación de los métodos desarrollados a otros campos. Más concretamente, esta tesis ha contribuido a la (a) detección de radicalización, donde hemos adaptado el modelo SIMON, combinándolo con un método de extracción de características emotivas; y a la (b) estimación de valores morales, en la que se ha usado SIMON para emplear un nuevo léxico que hemos generado. ----------ABSTRACT---------- Sentiment and Emotion Analysis are prominent fields in Natural Language Processing (NLP) and have contributed to its progress. Modeling emotions requires a number of techniques and methods that, in most of the cases, are shared with other NLP areas. In such a context, this thesis addresses the development of novel machine learning methods through the combination of both surface and deep features for Sentiment and Emotion Analysis. Observing the results obtained, the developed methods have been adapted to other NLP areas, transferring the obtained results to fields that can largely benefit from such novel techniques. In this way, we have designed a taxonomy that classifies different approaches in Sentiment Analysis, attending to the features and combinations used. This taxonomy has allowed us to develop several machine learning models that combine both surface and deep features, as well as a variety of learning models, with an especial focus on deep learning approaches. These models have been evaluated in document and aspect-level Sentiment Analysis frameworks. Following, we contributed with a novel technique for generating domain-specific sentiment lexicons through the backpropagation algorithm. In a similar line of work, this thesis also extends a method for generating emotion lexicons, obtaining a bilingual resource with emotion annotations in both English and Italian. The thesis' core contribution is a similarity-based perspective on lexicons that extracts features exploiting both a word embedding model and a sentiment lexicon: the SIMilaritybased sentiment projectiON (SIMON) model. We have observed that SIMON has shown positive results in the experimental evaluation, offering a compelling alternative to classical lexicon usage techniques. In light of this last contribution, this thesis studies the adaptability of methods that are developed in the context of Sentiment and Emotion Analysis to other fields. More concretely, this thesis has contributed to radicalization detection and moral value estimation. In the area of radicalization detection, we have adapted the SIMON model, combining it with an emotion-driven feature extraction method. Similarly, for moral value estimation, SIMON has been used to exploit a novel lexicon we have generated.