Tesis:
Multidimensional clustering with Bayesian networks
- Autor: RODRÍGUEZ SÁNCHEZ, Fernando
- Título: Multidimensional clustering with Bayesian networks
- Fecha: 2021
- Materia: Sin materia definida
- Escuela: E.T.S DE INGENIEROS INFORMÁTICOS
- Departamentos: INTELIGENCIA ARTIFICIAL
- Acceso electrónico: https://oa.upm.es/69344/
- Director/a 1º: LARRAÑAGA MÚGICA, Pedro
- Director/a 2º: BIELZA LOZOYA, Concha
- Resumen: The evolution of communication and a continued globalization process have resulted in bigger quantities of data being storaged. However, data has not only increased in volume but also in complexity. Nowadays, more and more data is collected from different measurement methods. In this context, traditional clustering algorithms are unable to comprehensively describe all of the contained information. That is why new clustering techniques that consider multiple dimensions of data are more necessary than ever. One of these techniques is multidimensional clustering, which extends model-based clustering by learning mixture models with multiple categorical latent variables. Each latent variable identifies a dimension along which data are partitioned into clusters. Each dimension is conformed of a different subset of domain variables. Bayesian networks are useful in multidimensional clustering for several reasons. First, their graphical structure allows for an easier interpretation, showing which variables are relevant for each clustering. Second, their conditional independences result in more compact models that are easier to learn. Finally, Bayesian networks support probabilistic inference, which is useful for making predictions, diagnoses and explanations. In this dissertation we explore the problem of learning Bayesian network models for multidimensional clustering. Although there is an extensive literature on multidimensional clustering methods for categorical data and for continuous data, there is a lack of work for mixed data (i.e., data that is composed of both categorical and continuous variables). For this reason, we propose approaches that are able to efficiently deal with mixed data by exploiting the Bayesian network factorization and the variational Bayes framework. More specifically, we make the following contributions. First, we present an incremental algorithm for learning conditional linear Gaussian Bayesian networks with categorical latent variables whose structures are restricted to forests. The learning process is divided in two phases. In the first phase, the forest structure is expanded with a new arc or latent variable. In the second phase, the cardinalities of latent variables are estimated. Furthermore, we devise a variant of this algorithm that only considers a subset of the possible structures and demonstrate the effectiveness of the approach. Second, we develop a greedy algorithm for learning conditional linear Gaussian Bayesian networks with categorical latent variables that are not restricted to tree-like structures. To this purpose, the proposed method hill-climbs the space of models using a series of latent operators and a variational Bayesian version of the structural expectation-maximization algorithm. Finally, we present a multidimensional clustering study with Parkinson’s disease data where we apply the proposed methodology. We consider data from a large, multi-center, international, and well-characterized cohort of patients. As a result, eight sets of motor and non-motor symptoms are identified. Each of them provides a different way to group patients: impulse control issues, overall non-motor symptoms, presence of dyskinesias and psychosis, fatigue, axial symptoms and motor fluctuations, autonomic dysfunction, depression, and excessive sweating. ----------RESUMEN---------- La evolución de la comunicación y un proceso de globalización continuado han dado lugar a que se almacenen mayores cantidades de datos. Sin embargo, los datos no solo han aumentado en volumen sino también en complejidad. Hoy en día, cada vez se recopilan más datos de diferentes métodos de medición. En este contexto, los algoritmos de clustering tradicionales no pueden describir de manera integral toda la información contenida. Es por esto que son necesarias nuevas técnicas de clustering que consideren múltiples dimensiones de los datos. Una de estas técnicas es el clustering multidimensional, el cual extiende el clustering basado en modelos al aprender modelos de mixturas con múltiples variables latentes categóricas. Cada una de estas variables latentes identifica una dimensión en la cual los datos son divididos en grupos. Cada dimensión se conforma de un conjunto diferente de variables observadas. Las redes Bayesianas son interesantes en el clustering multidimensional por varias razones. En primer lugar, su estructura gráfica permite una interpretación más sencilla, mostrando qué variables son relevantes para cada clustering. En segundo lugar, sus independencias condicionales dan como resultado modelos más compactos y fáciles de aprender. Finalmente, las redes Bayesianas ofrecen la posibilidad de emplear inferencia probabilística, la cual es útil para realizar predicciones, diagnósticos y explicaciones. En esta tesis, exploramos el problema de aprender modelos de redes Bayesianas para clustering multidimensional. Si bien existe una extensa literatura sobre métodos de clustering multidimensional con datos categóricos y con datos continuos, no se ha estudiado en profundidad el caso de datos mixtos (i.e., aquellos que se encuentran formados tanto de variables categóricas como de variables continuas). Por este motivo, proponemos varios enfoques que pueden tratar de manera eficiente con datos mixtos mediante la explotación de la factorización de la red Bayesiana y del framework variacional Bayesiano. Más concretamente, realizamos las siguientes aportaciones. En primer lugar, presentamos un algoritmo incremental para el aprendizaje de redes Bayesianas Gaussianas lineales condicionales con variables latentes categóricas cuyas estructuras se encuentran restringidas a bosques. El proceso de aprendizaje se divide en dos fases. En la primera fase, la estructura del bosque se expande con un nuevo arco o variable latente. En la segunda fase, se estiman las cardinalidades de las variables latentes. Además, diseñamos una variante de este algoritmo que solo considera un subconjunto de las posibles estructuras y demostramos la efectividad de este método. En segundo lugar, desarrollamos un algoritmo voraz para el aprendizaje de redes Bayesianas Gaussianas lineales condicionales con variables latentes categóricas cuyas estructuras no se restringen a bosques. Nuestro método explora el espacio de modelos mediante una serie de operadores latentes y una versión variacional Bayesiana del algoritmo estructural de esperanza-maximización. Finalmente, presentamos un estudio de clustering multidimensional con datos de la enfermedad de Parkinson, donde aplicamos la metodología propuesta a lo largo de la tesis. En este estudio, consideramos datos de una cohorte de pacientes grande, multicéntrica, internacional, y bien caracterizada. Como resultado, identificamos ocho conjuntos de síntomas motores y no motores. Cada uno de ellos proporciona una forma diferente de agrupar a los pacientes: problemas de control de impulsos, síntomas generales no motores, presencia de discinesias y psicosis, fatiga, síntomas axiales y fluctuaciones motoras, disfunción autonómica, depresión, y sudoración excesiva.