Tesis:

Caracterización del discurso extremista a través del uso de técnicas de análisis computacional


  • Autor: TORREGROSA LÓPEZ, Francisco Javier

  • Título: Caracterización del discurso extremista a través del uso de técnicas de análisis computacional

  • Fecha: 2022

  • Materia: Sin materia definida

  • Escuela: E.T.S.I. DE SISTEMAS INFORMÁTICOS

  • Departamentos: SISTEMAS INFORMATICOS

  • Acceso electrónico: https://oa.upm.es/71514/

  • Director/a 1º: BELLO ORGAZ, María Gema
  • Director/a 2º: CAMACHO FERNÁNDEZ, David

  • Resumen: The definition of the concept of extremist discourse is still a matter of debate among experts from different disciplines. Due to the difficulties that the rise of various extremist movements has brought to the world in the last two decades, the main efforts in the field of computer science have been directed towards the early detection of this phenomenon (both in “real” and “virtual” environments). For such detection, learning models have been an invaluable aid, since they facilitate the achievement of massive analyses that allow filtering or detection of patterns similar to those of training. This interest, however, has meant that less work has been done on creating a clear characterisation of what extremism is and what its identifiable traits are, thus limiting the creation of models that show deficiencies when the context changes (meaning that they are not quite robust). The importance, therefore, of having variables that clearly identify extremist discourse is key to the subsequent creation of robust detection and classification models. This thesis focuses, therefore, on the analysis and testing, based on computational strategies, of extremist discourse typical characteristics, through a process of reviewing the state of the art, posing hypotheses and testing them through different research cases. The study environment selected for testing will be the online platform Twitter, where two different datasets (one of them created specifically for the thesis, and the other published in a public repository) are used to carry out the analyses. Of these two datasets, one is related to jihadist extremism, while the other one is related to political extremism. To achieve its objectives, this thesis makes use of computational data analytics techniques, specifically Natural Language Processing (NLP) and, to a lesser extent, Social Network Analysis (SNA), combining them to reach conclusions about the hypotheses raised in the characterisation process. Thus: Within the NLP techniques used for the purpose of this thesis, three different approaches are used: keyword frequency analysis (repetition of the most common words, or dictionary frequency with its own psychological meaning), sentiment analysis (extraction of the underlying emotional valence of a sentence or text) and topic extraction (extraction of the general theme addressed by a set of sentences or texts). Thus, the combination of these three approaches, applied to the different extremist datasets, makes it possible to extract and test the hypotheses made about extremist discourse. On the other hand, within the SNA techniques used, structural analysis techniques (e.g. centrality or community analysis) are used to carry out a content analysis combined with NLP, which allows for enhancing processes such as topic extraction. While the ultimate aim of the thesis will focus on complementing NLP with SNA (and, therefore, on content analysis), structural analysis tech niques will be especially useful for detecting and analysing peculiarities within extremist groups. There are several noteworthy results of this doctoral thesis. Firstly, and focusing on the computational linguistic analysis of the general extremist discourse, frequent terms and topics have been found that support the idea that extremist discourse is characterised by the use of narrative techniques of victimisation and ideological justification, whether religious or political. In turn, the detection of group-specific slang based on predefined corpus of terms is common. This slangs frequently include also use of hate speech, a negative general sentiment, and a war narrative or vocabulary with typical references to military conflicts; also, most of the topics extracted from these groups tend to revolve around the ideology of the group, whether in the presence of critical events for the group or not. Secondly, although these were the characteristics of the two groups analysed (extreme right and jihadists), there are peculiarities of each of them (e.g. a the use of different narrative techniques, specific slangs, etc.). Third, using social network analysis techniques, a relationship has also been found between the relevance of a user in an extremist network and the characteristics of the discourse they use. Finally, and derived from the results obtained, this thesis highlights the trends, challenges and future work that arise as a consequence of the current state of computational research in the field of extremism. Specifically, it is worth highlighting as trends and challenges the findings related to the emergence of new waves of extremism; the use of neural networks as a complement to the analysis; the need for multimodal approaches to the study of extremist content; the importance of having sufficiently large and robust datasets for analysis; or the use of social network analysis techniques (based on graph-based computational algorithms) for the identification of actors and their patterns of behaviour, among others. ----------RESUMEN---------- La definición del concepto de discurso extremista es, todavía hoy, motivo de debate entre los expertos de distintas disciplinas. Debido a las dificultades que ha supuesto el ascenso de distintos movimientos extremistas para el mundo en las últimas dos décadas, los esfuerzos esenciales en el campo de las ciencias de la computación han estado dirigidos a la detección temprana de dicho fenómeno (tanto en entornos “reales” como “virtuales”). Para realizar dicha detección, los modelos de aprendizaje han sido una ayuda inestimable, puesto que facilitan la consecución de análisis masivos que permiten filtrar o detectar patrones similares a los de entrenamiento. Este interés, sin embargo, ha supuesto que no se haya profundizado tanto en la creación de una caracterización clara sobre qué es el extremismo y cuáles son sus rasgos identificables, limitando por tanto la creación de modelos al entrenamiento a través de conjuntos de datos que, al cambiar el contexto, muestran deficiencias (siendo, por tanto, poco robustos). La importancia, por tanto, de contar con variables que permitan identificar claramente un discurso extremista es clave para la creación posterior de modelos de detección y clasificación robustos. Esta tesis se centra, por tanto, en el análisis y la comprobación, basada en estrategias computacionales, de características que sean propias del discurso extremista, a través de un proceso de revisión del estado del arte, planteamiento de hipótesis y comprobación de las mismas a través de varios casos de uso. El entorno de estudio seleccionado para las prueba será la plataforma online Twitter, donde se utilizan dos conjuntos de datos distintos (uno de ellos creado específicamente para la tesis, y el otro publicado en un repositorio público) para llevar a cabo los análisis. De estos dos conjuntos de datos, uno está relacionado con el extremismo yihadista, mientras que el otro está relacionado con extremismo político. Para alcanzar sus objetivos, esta tesis hace uso de técnicas computacionales de analítica de datos, específicamente Natural Language Processing (Procesado de lenguaje natural, o NLP) y, en menor medida, de Social Network Analysis (Análisis de redes sociales, o SNA), combinando las mismas para llegar a conclusiones sobre las hipótesis planteadas en el proceso de caracterización. De este modo: Dentro de las técnicas de NLP utilizadas para el objetivo de esta tesis, se utilizan tres enfoques distintos: el análisis de frecuencia de palabras clave (repetición de palabras más habituales, o frecuencia de diccionarios con significado psicológico propio), el análisis de sentimiento (extracción de la valencia emocional subyacente a una frase o texto) y el análisis de tópicos/temática (extracción de la temática general abordada por un conjunto de frases o textos). Así, la combinación de estos tres enfoques, aplicados a los distintos conjuntos de datos extremistas, permiten extraer y poner a prueba las hipótesis realizadas sobre el discurso extremista. Por otro lado, dentro de las técnicas de SNA utilizadas, se hace uso de técnicas propias de análisis estructural (por ejemplo, centralidad o análisis de comunidades) como complemento al análisis de contenido combinado con el NLP, lo cual permite enriquecer procesos como la extracción de temáticas. Si bien el objetivo final de la tesis se centrará en dicho análisis de contenido, las técnicas de análisis estructural serán especialmente útiles para detectar y analizar peculiaridades dentro de grupos extremistas. Existen varios resultados destacables de esta tesis doctoral. En primer lugar, y centrado en el análisis lingüístico computacional del discurso extremista general, se han encontrado términos y tópicos frecuentes que apoyan que el discurso extremista está caracterizado por el uso de técnicas narrativas de victimización y justificación ideológica, sea religiosa o política. A su vez, la detección a través de corpus de términos predefinidos de jergas específicas del grupo ha es habitual. Estas jergas suelen incluir con frecuencia discurso del odio, un sentimiento general negativo o una narrativa o vocabulario con referencias típicas de conflictos bélicos; a su vez, la mayoría de temáticas extraídas de estos grupos tienden a pivotar en torno a la ideología de dicho grupo, sea en presencia de eventos críticos para el mismo o no. En segundo lugar, aunque estas fueron las características cumplidas por los dos grupos analizados (extrema derecha y yihadistas), se encuentran peculiaridades de cada uno de ellos (por ejemplo, el uso de técnicas narrativas distintas, jergas específicas, etc.). En tercer y último lugar, utilizando técnicas de social network analysis, también se ha encontrado una relación entre la relevancia de un usuario en un red extremista y las características del discurso que utiliza. Por último, y derivado de los resultados obtenidos, esta tesis pone de relevancia las tendencias, desafíos y trabajo futuro que surgen como consecuencia del estado actual de la investigación computacional en el campo del extremismo. En concreto, cabe destacar como tendencias y retos los hallazgos relacionados con la aparición de nuevas olas de extremismo; el uso de las redes neuronales como complemento al análisis; la necesidad de realizar abordajes multimodales del estudio del contenido extremista, la importancia de contar con conjuntos de datos suficientemente grandes y robustos para el análisis; o la utilización de técnicas de análisis redes sociales (basadas en algoritmos de computación basada en grafos) para la identificación de los actores y sus patrones de conducta, entre otros.