Tesis Doctorales UPM: Consulta online

Autor: SANTAMARÍA VALENZUELA, María Inmaculada

Título: Large scale Time Series Visual Analytics combining Data Mining and Deep Learning

Fecha: 2025

Materia: ---

Escuela: E.T.S.I. Y SISTEMAS DE TELECOMUNICACIÓN

Departamento: SISTEMAS INFORMATICOS

Acceso electrónico: https://oa.upm.es/90158/

Director/a(s):

Director/a: CAMACHO FERNÁNDEZ, David
Director/a: RODRÍGUEZ FERNÁNDEZ, Víctor

Resumen: El análisis de series temporales toma un papel crucial en aplicaciones científicas e industriales, facilitando tareas como la detección de anomalías, predicción, la detección de patrones y la segmentación. A pesar de su importancia, las aproximaciones clásicas basadas en Inteligencia Artificial suelen tener problemas de escalabilidad e interpretabilidad. Esta tesis presenta una aproximación novedosa para el análisis de series temporales largas que integra técnicas de Minería de Datos y Aprendizaje Profundo para mejorar la eficiencia e interpretabilidad en la exploración de series temporales. La metodología y el trabajo de investigación, desarrollado en esta tesis se basan en la herramienta DeepVATS, una herramienta de análisis visual de series temporales diseñada para mejorar la interpretabilidad de las técnicas basadas en Aprendizaje Profundo. Se basa en la interacción con el espacio latente de los modelos que fundamentan dichas técnicas y el gráfico que contiene los datos originales de la serie temporal. La arquitectura que fundamenta la aplicación es Masked Timeseries AutoEncoder, una arquitectura de Aprendizaje Profundo que captura las características estructurales de las series temporales en su espacio latente, permitiendo un análisis visual interactivo de calidad de la serie temporal para las tareas previamente mencionadas. Sin embargo, no tiene la capacidad de detectar la tendencia de las series temporales. La metodología dual propuesta se define para mejorar la herramienta de análisis visual mediante la integración de técnicas de Minería de datos y los incipientes modelos fundacionales para series temporales, añadiendo interpretabilidad y reduciendo el tiempo de ejecución durante el análisis. La primera parte de la metodología usa la matriz de similitud (MPlot) como una herramienta para el análisis preliminar con el objetivo de detectar patrones y anomalías, reduciendo el tiempo de espera requerido para obtener un primer análisis a la vez que se entrena el modelo de Aprendizaje Profundo en el que se basa la aplicación. Esta aproximación permite un análisis más interactivo y eficiente en recursos de series temporales largas, añadiendo en DeepVATS la utilidad de detectar tendencias en series temporales, cuya ausencia era una limitación clave de la herramienta. En la segunda parte de la metodología, la investigación evalúa la efectividad de los modelos fundacionales para series temporales para modelar las propiedades de las series temporales y capturarlas en la topología de su espacio latente. Con la integración del modelo fundacional más influyente que está preparado para múltiples tareas de series temporales multivariables (MOMENT) en DeepVATS, este estudio explora cómo las representaciones aprendidas por dicho modelo pueden mejorar tanto la precisión como la eficiencia en las tareas propuestas. Los resultados experimentales muestran cómo la combinación de las matrices de similitud con las técnicas de aprendizaje profundo proveen de un entorno escalable e interpretable para series temporales. La aproximación propuesta no solo acelera el proceso de exploración sino que también mejora la detección de tendencias sin requerir demasiadas configuraciones manuales de parámetros. Las contribuciones de esta tesis tienen amplias implicaciones para distintos dominios, entre los que se incluyen el análisis financiero, el diagnóstico médico o la monitorización de procesos industriales. La investigación prepara el camino a la integración de metodologías más interactivas e interpretables dentro de las herramientas de análisis visual de series temporales. ABSTRACT Time series (TS) analysis plays a crucial role in scientific and industrial applications, facilitating tasks such as anomaly detection, prediction, pattern detection, and segmentation. Despite its significance, traditional Artificial Intelligence-based approaches often struggle with scalability and intepretability. This thesis presents a novel approach to large-scale visual TS analysis joining Data Mining and Deep Learning techniques to enhance the efficience and interpretability of TS exploration. The study is done within DeepVATSs benchmark, a Deep Visual Analytics tool for time series analysis designed to improve the interpretability of Deep Learning-driven techniques. It is based in the interaction with the latent space of those techniques backbone models and the original TS data plots. The backbone architecture of the application is Masked Timeseries AutoEncoder, a Deep Learning architecture that captures the insights of the time series in its latent space, allowing a good visual interactive analysis of the TS for the mentioned tasks. However, it lacks the ability to detect trends within TS. Thus, it provides a great basis for analyzing the capabilities of the new integrated tools. A dual methodology is proposed to enhance the visual analytics tool by integrating Data Mining techniques and the raising Time Series Foundation models. This integrations add interpretability and reduce execution time within the analysis. The first part of the methodology uses MPlot as a preliminary analysis tool to detect patterns and anomalies, reducing the waiting time required to obtain a prior analysis while training the backbone Deep Learning model on which the application is based. This approach enables a more interactive and resource-efficient analysis of large time series, adding the detection of the trend in univariate time series into DeepVATS, which was a key limitation of the tool. In the second part of the methodology, the research evaluates the effectiveness of Time Series Foundation models in modeling the properties of the TS and capturing them in the topology of their latent space. By integrating the most influent multivariate and multi-task Time Series Foundation models (MOMENT) into DeepVATS, this study explores how the representations learned by that model can improve both accuracy and efficiency in the proposed tasks. The experimental results show that the combination of Distance Matrix Plot with DL techniques provides a scalable and interpretable framework for time series analysis. The proposed approach not only accelerates the exploration process but also improves trend detection without requiring extensive manual feature engineering. The contributions of this thesis have broad implications for multiple domains, including financial analysis, medical diagnostics, or industrial process monitoring. The research prepares the way for the integration of more interactive and interpretable visual TS analysis methodologies.