Tesis:
Feature Subset Selection and Multi-dimensional Continuous-Time Bayesian Network Classifiers for Streaming Data
- Autor: VILLA BLANCO, Carlos
- Título: Feature Subset Selection and Multi-dimensional Continuous-Time Bayesian Network Classifiers for Streaming Data
- Fecha: 2024
- Materia:
- Escuela: E.T.S DE INGENIEROS INFORMÁTICOS
- Departamentos: INTELIGENCIA ARTIFICIAL
- Acceso electrónico: https://oa.upm.es/81507/
- Director/a 1º: BIELZA LOZOYA, María Concepción
- Director/a 2º: LARRAÑAGA MÚGICA, Pedro María
- Resumen: The growing role of machine learning in decision-making stresses the need for transparent and interpretable models. Probabilistic graphical models (PGMs) and feature subset selection (FSS) help meet this demand. PGMs provide a graphical representation that captures complex probabilistic dependencies within data, aiding in comprehending underlying processes and decisions. Meanwhile, FSS simplifies models by focusing on fewer yet relevant variables, thereby improving their interpretability and, potentially, performance. This dissertation explores the application of these techniques to streaming data. Such a setting is common in real-world domains, either because data is received dynamically, requiring solutions to be continuously updated, or because it is crucial to model the temporal dimension.
The first contribution focuses on the multi-dimensional classification of multivariate categorical time series, where sequences of time-ordered data are classified into multiple classes. Despite the benefits of PGMs, they have received no attention to solve this challenging task. Thus, a multi-dimensional continuous-time Bayesian network classifier (Multi-CTBNC) is proposed. This novel PGM extends continuous-time Bayesian networks (CTBNs) to solve the previous task while modeling the probabilistic dependencies of class variables. Experiments yield promising results compared to independent classifiers, and its potential is demonstrated in an Industry 4.0 application.
Structure learning of CTBNs has traditionally relied on score-based algorithms. Yet, a recent constraint-based method has shown advantages in certain settings. Hence, given the inherent strengths of distinct algorithms, diversifying learning strategies is essential to address different data-driven tasks effectively. The second contribution is an in-depth study on Multi-CTBNC structure learning to improve the model versatility, leading to the introduction of the MB-CTPC constraint-based algorithm. This algorithm leverages the model topology to focus on conditional independence tests relevant to the classification task. Furthermore, a pioneering hybrid algorithm is explored, which aims to combine the advantages of score- and constraint-based methodologies. Experiments compare several structure learning algorithms, both on synthetic data and on real-world data from longitudinal socio-economic studies.
In real-world applications, the ever-increasing volume and dynamic nature of data can lead to new instances or variables being continuously generated. FSS proves useful in this context, where high feature dimensionality is common, and variables may be, or become, irrelevant or redundant to learning tasks. The third contribution is a comprehensive review of FSS algorithms for data and feature streams, commonly referred to as incremental or online algorithms, which update selected features as data (or features) evolve. The review discusses several algorithms, describing in detail their functioning and some shortcomings. A variety of learning problems are covered, including supervised and unsupervised approaches, multi-task and ensemble learning, and rough set-based methodologies, among others.
The final contribution applies Multi-CTBNCs in data and feature stream scenarios, building upon previous contributions. Two frameworks tailored to these environments are presented. For data streams, the focus is on local concept drift detection and model updates to improve the classification accuracy of static models while reducing the learning times of a global update. An online extension of the MB-CTPC is introduced to locally update Multi-CTBNCs. In the case of feature streams, the framework integrates an online FSS algorithm, adapted for categorical time series, to enhance the learning of Multi-CTBNCs. These two methodologies aim to optimize model performance and computational efficiency when learning from dynamic data or in constrained offline settings.
RESUMEN
El auge del aprendizaje automático en la toma de decisiones resalta la necesidad de modelos transparentes e interpretables. Los modelos gráficos probabilísticos (PGMs) y la selección de variables (FSS) atienden estas demandas. Los PGMs ofrecen una representación gráfica que captura complejas dependencias probabilísticas en los datos, aclarando procesos subyacentes y decisiones. La FSS, en cambio, simplifica los modelos al centrarse en variables relevantes, mejorando su interpretabilidad y, posiblemente, precisión. Esta disertación aborda estas técnicas para datos en streaming. Este escenario es común en dominios reales, bien porque los datos se reciben dinámicamente, requiriendo actualizar constantemente las soluciones, o bien porque es transcendental modelar la dimensión temporal.
La primera contribución trata la clasificación multidimensional de series temporales categóricas multivariantes, donde secuencias de datos ordenados en el tiempo son clasificadas en múltiples clases. Pese a los beneficios de los PGMs, estos no han sido explorados en este ámbito. Surge así el clasificador Bayesiano multidimensional en tiempo continuo (Multi-CTBNC), extendiendo las redes Bayesianas en tiempo continuo (CTBNs) para abordar esta tarea considerando las dependencias entre variables clase. Esta propuesta arroja resultados prometedores frente a clasificadores independientes y su potencial se evidencia en una aplicación desarrollada dentro de la Industria 4.0.
El aprendizaje de estructuras de CTBNs ha usado tradicionalmente algoritmos basados en puntuaciones. No obstante, un enfoque reciente basado en restricciones ha destacado en ciertos escenarios. Dado que cada algoritmo tiene sus ventajas, diversificar estrategias de aprendizaje es clave para afrontar eficazmente diferentes problemas. A fin de mejorar la versatilidad del Multi-CTBNC, la segunda contribución profundiza en su aprendizaje estructural. Esto ha resultado en el MB-CTPC, un algoritmo basado en restricciones que aprovecha la topología del modelo para centrarse en tests relevantes para la clasificación. Además, se ha explorado una nueva solución híbrida para integrar las ventajas de las metodologías basadas en puntuaciones y restricciones. Diversos algoritmos se han comparado experimentalmente, tanto en datos sintéticos como en datos reales de estudios socioeconómicos longitudinales.
En escenarios reales, el volumen creciente y la naturaleza dinámica de los datos pueden implicar la generación continua de nuevas instancias o variables. La FSS es útil en este contexto, donde es común una alta dimensionalidad, y las variables pueden ser, o volverse, irrelevantes o redundantes. La tercera contribución es una revisión exhaustiva de algoritmos de FSS incrementales, u online, para flujos de datos y de variables, algoritmos que actualizan las variables seleccionadas conforme los datos (o variables) evolucionan. Múltiples propuestas son analizadas, detallando su funcionamiento y algunas de sus limitaciones. Además, se abordan distintos problemas de aprendizaje, incluyendo enfoques supervisados y no supervisados, aprendizaje multitarea y por conjuntos, o metodologías basadas en conjuntos aproximados.
La última contribución aplica Multi-CTBNCs en escenarios con flujos de datos o variables, presentando dos métodos para ello. Para flujos de datos, el método se centra en la detección local de cambios de concepto y la actualización del modelo, a fin de mejorar las clasificaciones de un modelo estático y los tiempos de aprendizaje respecto a una actualización global. Una extensión online del MB-CTPC es introducida para actualizar localmente los Multi-CTBNCs. Para flujos de variables, se integra un algoritmo online de FSS, adaptado para series temporales categóricas, con el fin de optimizar el aprendizaje de los Multi-CTBNCs. Ambas metodologías buscan mejorar el rendimiento del modelo y la eficiencia computacional al aprender de datos dinámicos o en entornos offline con restricciones.