Tesis:

Enhancing Robustness of Multilingual Transformer Feature Spaces


  • Autor: HUERTAS GARCÍA, Álvaro

  • Título: Enhancing Robustness of Multilingual Transformer Feature Spaces

  • Fecha: 2025

  • Materia:

  • Escuela: E.T.S.I. DE SISTEMAS INFORMÁTICOS

  • Departamentos: SISTEMAS INFORMATICOS

  • Acceso electrónico: https://oa.upm.es/84906/

  • Director/a 1º: CAMACHO FERNÁNDEZ, David
  • Director/a 2º: MARTÍN GARCÍA, Alejandro

  • Resumen: In the digital age, the proliferation of misinformation poses a significant threat to public discourse and societal well-being. This thesis, comprising three interconnected articles, addresses the critical challenge of combating false information through advanced Natural Language Processing (NLP) techniques. It focuses on enhancing the robustness and effectiveness of multilingual Transformer models in detecting and mitigating various forms of misinformation, with particular emphasis on optimizing feature spaces and maintaining semantic integrity across languages. This research is motivated by the urgent need for sophisticated, adaptable, and globally applicable solutions to counter the spread of false information across linguistic and cultural boundaries. As the state-of-the-art review demonstrates, current trends in NLP highlight the importance of semantic understanding, multilingual capabilities, and the power of Transformer architectures. These trends, combined with the growing complexity of misinformation tactics, justify the focus and approach of this thesis. The primary objectives were to develop innovative techniques to optimize feature spaces in multilingual Transformer models, create novel methods for detecting and counteracting content evasion techniques, explore adversarial training strategies, demonstrate the efficacy of multilingual approaches, investigate dimensionality reduction techniques, and identify solutions to critical computational challenges in combating misinformation. The methodology encompassed three main areas of study. First, it explored feature space dimensionality reduction, maintaining semantic integrity across languages to support semi-automated fact-checking. Second, it developed a customizable simulation and generation text camouflage tool, focusing on identification through Name Entity Recognition and demonstrating the superiority of multilingual models in detecting evasion. Third, it assessed the impact of content evasion, compared countermeasures, and focused on in-model awareness to enhance resilience. The research yielded several key innovations, including the pyleetspeak tool for simulating and detecting word camouflage, exploring adversarial training strategies, and applying Independent Component Analysis (ICA) for dimensionality reduction. These advancements significantly improved model performance and efficiency, particularly in multilingual contexts. The findings have substantial implications for NLP and misinformation combat efforts. The semantically-aware approach to dimensionality reduction enhances both the efficiency and effectiveness of misinformation detection systems. The development of tools for detecting camouflaged content addresses evolving tactics used by malicious actors. Moreover, the research consistently demonstrates the superiority of multilingual approaches in addressing the transnational nature of false information. In conclusion, this thesis contributes to exploring new strategies for combating misinformation across linguistic boundaries. While acknowledging limitations such as the rapid pace of NLP advancements and real-world complexities, this work stands as a foundation for continued innovation. Future research directions include exploring multimodal approaches, investigating ethical implications of AI-driven content moderation, expanding multilingual datasets, and further exploring advanced dimensionality reduction techniques in various NLP tasks. In the evolving landscape of artificial intelligence and combating misinformation, this research underscores the crucial role of advanced NLP techniques, particularly Transformers and semantically-aware multilingual models, in promoting a more trustworthy digital landscape. This thesis emphasizes the need for ongoing vigilance, adaptability, and commitment to the ethical application of AI in service of truth and informed public discourse. RESUMEN En la era digital, la proliferación de la desinformación supone una importante amenaza para el discurso público y el bienestar de la sociedad. Esta tesis consta de tres artículos interconectados que abordan el reto de combatir la problemática de la información falsa mediante Procesamiento del Lenguaje Natural (PLN). El estudio se enfoca en mejorar la robustez y eficacia de modelos multilingües Transformer para detectar y mitigar diversas formas de desinformación, optimizando el espacio de características y manteniendo la integridad semántica en múltiples idiomas. La investigación responde a la urgente necesidad de soluciones avanzadas, adaptables y globales para contrarrestar la propagación de información falsa independiente del idioma. El estado del arte muestra la importancia de la comprensión semántica, las capacidades multilingües y el gran potencial de las arquitecturas Transformer, que junto con la creciente complejidad y constante evolución de las tácticas de desinformación, justifican el enfoque de esta tesis. Los objetivos principales son explorar técnicas para optimizar los espacios de características en modelos Transformer multilingües, investigar técnicas de reducción de la dimensionalidad, crear métodos novedosos para detectar y contrarrestar las técnicas de evasión de contenidos, explorar estrategias de entrenamiento adversarial para aumentar la robustez frente a usuarios maliciosos, y demostrar la eficacia de los enfoques multilingües en la lucha contra la desinformación. En primer lugar, se explora la reducción de la dimensionalidad del espacio de características, manteniendo la integridad semántica entre idiomas para ser empleado en la comprobación semiautomatizada de hechos. En segundo lugar, se desarrolla una herramienta personalizable de simulación y generación de camuflaje de textos, centrándose en la identificación mediante el reconocimiento de entidades camufladas y demostrando la superioridad de los modelos multilingües en la detección de la evasión. En tercer lugar, se evalua el impacto de la evasión de contenidos destacando el potencial del espacio de características de los modelos Transformers para mejorar la resistencia ante instancias camufladas. La investigación aporta varias contribuciones clave, como la herramienta pyleetspeak para simular y detectar el camuflaje de palabras, la exploración y recomednación de estrategias de entrenamiento adversariales y la aplicación del Análisis de Componentes Independientes (ICA) para reducir la dimensionalidad y mejorar el rendimiento de los modelos. El desarrollo de herramientas para detectar contenidos camuflados aborda la evolución de las tácticas empleadas por los agentes maliciosos. Además, la investigación demuestra sistemáticamente la superioridad de los enfoques multilingües sobre los monolingües a la hora de abordar la naturaleza internacional de la información falsa. A modo de conclusión, esta tesis contribuye a explorar nuevas estrategias para combatir la desinformación independientemente del idioma. No obstante, se reconocen limitaciones como el acelerado ritmo de avances en PNL y las complejidades de la aplicación en el mundo real. Futuras líneas de investigación incluyen la exploración de enfoques multimodales, la investigación de las implicaciones éticas de la moderación de contenidos por la IA, la ampliación de la cantidad de datos multilingües y la exploración de técnicas avanzadas de reducción del tamaño de los modelos. En el dinámico panorama de la inteligencia artificial y la lucha contra la desinformación, esta investigación demuestra el papel crucial de las técnicas avanzadas de PNL, en particular los Transformers y los modelos multilingües con conocimiento de la semántica, para promover un entorno digital más fiable y sano. Esta tesis señala la necesidad de una vigilancia continua, adaptabilidad y compromiso con la aplicación ética de la IA al servicio de la transparencia y promoción del espíritu crítico.