Tesis:

Unifying methodologies for graphical models with Gaussian parametrization


  • Autor: CÓRDOBA SÁNCHEZ, Irene

  • Título: Unifying methodologies for graphical models with Gaussian parametrization

  • Fecha: 2020

  • Materia: Sin materia definida

  • Escuela: E.T.S DE INGENIEROS INFORMÁTICOS

  • Departamentos: INTELIGENCIA ARTIFICIAL

  • Acceso electrónico: http://oa.upm.es/65853/

  • Director/a 1º: LARRAÑAGA MÚGICA, Pedro
  • Director/a 2º: BIELZA LOYOLA, Concha

  • Resumen: Los modelos gráficos representan independencias condicionales de una distribución multivariante mediante aristas ausentes en un grafo, que típicamente es dirigido, no dirigido o mixto. Esta modelización compacta permite descomponer la inferencia estadística en computaciones eficientes sobre el correspondiente grafo. Es por ello que los modelos gráficos se originaron en la intersección entre la estadística y la inteligencia artificial, siendo las redes de Markov (grafo no dirigido) y las redes Bayesianas (grafo dirigido acíclico) los representantes clásicos. Hoy en día los modelos gráficos se aplican extensamente y una cantidad significativa de investigación se dedica a ellos, incluyendo las clásicas redes de Markov y Bayesianas. Las redes de Markov Gaussianas y las redes Bayesianas Gaussianas, a pesar de no ser modelos equivalentes, comparten una intersección común consistente en los grafos cordales (o grafos dirigidos acíclicos sin v-estructuras). Un método habitual para la selección del modelo en ambas clases es el contraste de hipótesis, y supone la selección del grafo que parametriza el modelo. Las aristas ausentes en ambos modelos se representan mediante un patrón de ceros en la matriz inversa de covarianza o de correlación parcial (redes de Markov Gaussianas) o en su descomposición de Cholesky (redes Bayesianas Gaussianas). Después, sus parámetros son estimados por máxima verosimilitud. Como alternativa, existen en el estado del arte métodos de regularización para ambas clases de modelos, que simultáneamente realizan la selección y estimación del modelo. Un método popular para la selección del modelo mediante contraste de hipótesis es el algoritmo PC, que se puede aplicar tanto para redes de Markov Gaussianas como para redes Bayesianas Gaussianas. Este método depende fundamentalmente de dos parámetros: el tipo de test estadístico y el nivel de significatividad al que se contrastan las hipótesis. Sin embargo, el enfoque actual en la literatura es usar un test Gaussiano para una transformación de la correlación parcial, y una búsqueda en rejilla para su nivel de significatividad. Por contra, cuando se usa un procedimiento automático para afinar los parámetros, como la optimización Bayesiana, se muestra cómo se mejora significativamente el rendimiento de la selección del modelo cuando se emplea un test no usado habitualmente en la literatura. Es más, estos procedimientos automáticos de afinación de parámetros permiten seleccionar un nivel de significatividad optimizado para cada tipo de test. A la validación de metodologías para selección de modelos gráficos Gaussianos le afecta profundamente, además de cómo se hace la afinación de parámetros, cómo se simulan los modelos de test sintéticos. Se puede mostrar que las metodologías que tratan esta tarea en el estado del arte, tanto para redes de Markov Gaussianas como para redes Bayesianas Gaussianas, están sesgadas hacia ciertas regiones, influenciando así significativamente sobre los resultados de validación. Sería por tanto deseable disponer de un proceso para muestrear uniformemente modelos gráficos Gaussianos. En concreto, las redes Bayesianas Gaussianas y las redes de Markov Gaussianas están íntimamente relacionadas con la matriz de correlación parcial, por lo que métodos de muestreo uniforme de dicho conjunto, llamado elliptope, pueden ser un punto de partida. Se propone un nuevo método tipo Metrópolis para muestrar uniformemente del elliptope, extensible de manera directa a modelos gráficos Gaussianos cordales. Sin embargo, en el caso general, se debe usar un método de ortogonalización parcial para las redes de Markov Gaussianas, y no queda garantizado que los resultados sean uniformes. Pese a esta dificultad, se muestra cómo constituye una metodología de simulación alternativa de modelos gráficos Gaussianos que ilustra cómo resultan profundamente afectados los resultados de validación, y por tanto cómo los experimentos de simulación se deben examinar cuidadosamente, si no se usa muestreo uniforme. Finalmente, ya se ha mencionado que el grafo asociado tanto con las redes Bayesianas Gaussianas como con las redes de Markov Gaussianas está codificado directamente en la matriz de correlación parcial o de covarianza inversa, o en su descomposición de Cholesky. Otro modelo gráfico Gaussiano, el grafo de covarianza, se puede leer del patrón de ceros en una matriz de covarianza. Sin embargo, no exiten trabajos en la literatura que propongan un modelo gráfico Gaussiano sobre el factor de Cholesky de una matriz de covarianza. Se muestra cómo este modelo es un análogo de la red Bayesiana Gaussiana, de la misma manera que un grafo de covarianza lo es de una red de Markov Gaussiana. Cuando las variables siguen un orden conocido, este nuevo modelo gráfico Gaussiano se puede estimar fácilmente como una factorización de la matriz de covarianza restringida a tener muchos ceros. Esto ya se ha tratado en la literatura, pero solamente mediante una transformación del modelo a regresión. Este vacío puede llenarse usando un enfoque de pérdida matricial regularizada que penaliza directamente la función de verosimilitud, u otras funciones de pérdida de interés. Se muestra cómo este modelo de aprendizaje produce una mejor recuperación del patrón de ceros así como resultados competitivos en escenarios reales. ----------ABSTRACT---------- Graphical models represent conditional independences of a multivariate distribution by absent edges in a graph, which typically is directed, undirected or mixed. This compact modelling allows to decompose statistical inference into efficient computations over the associated graph. As such, graphical models originated mainly at the interface between statistics and artificial intelligence, with Markov networks (undirected graph) and Bayesian networks (acyclic digraph) being the classic representatives. Nowadays graphical models are widely applied and a significant amount of research is devoted to them. Gaussian Markov networks and Gaussian Bayesian networks, although not being equivalent models, share a common intersection consisting of chordal graphs (or acyclic digraphs with no v-structures). A typical approach for model selection in both model classes is hypothesis testing, which amounts to selecting the graph that parametrizes the model. Absent edges in both models are represented by a zero pattern in the inverse covariance or partial correlation matrix (Gaussian Markov networks) or in its Cholesky decomposition (Gaussian Bayesian networks). Afterwards, their parameters are estimated by maximum likelihood. Alternatively, there exist state-of-the-art regularisation methods for both model classes, which simultaneously perform model selection and estimation. A popular method for model selection via hypothesis testing is the PC algorithm, which can be applied for both Gaussian Markov networks and Gaussian Bayesian networks. This method mainly depends on two parameters: the statistical test type and the significance level at which the hypotheses are tested. However, the usual approach in the literature is to use a Gaussian test for a transformation of the partial correlation, and a grid search for its significance level. By contrast, when using an automatic procedure for parameter tuning, such as Bayesian optimization, it is shown how model selection performance is significantly improved when employing an uncommonly used test in the literature. Furthermore, these automatic parameter tuning procedures allow to select a significance level optimized for each test type. Validation of methodologies for Gaussian graphical model selection is also deeply affected, apart from how parameter tuning is performed, by how synthetic test models are simulated. It can be shown that state-of-the-art methodologies addressing this task are biased towards certain regions, thereby significantly influencing validation results. It would be therefore desirable to have a uniform sampling procedure for Gaussian graphical models. In particular, both Gaussian Bayesian networks and Gaussian Markov networks are intimately related with the partial correlation matrix, thereby uniform sampling methods for such set, called elliptope, can be a departing point. A novel Metropolis uniform sampling from the elliptope is proposed, which can be straightforwardly extended to chordal Gaussian graphical models. However, in the general case, a partial orthogonalization method has to be used for Gaussian Markov networks, and the results are not guaranteed to be uniform. Despite this difficulty, it is shown to be an alternative simulation methodology for Gaussian graphical models which also illustrates how validation results are deeply affected, and therefore how simulated experiments need to be carefully examined, when not using uniform sampling. Finally, it has already been mentioned that the graph associated with both Gaussian Bayesian networks and Gaussian Markov network models is directly encoded in the partial correlation or inverse covariance matrix, or in its Cholesky decomposition. Another Gaussian graphical model, the covariance graph, can be read from a zero pattern in the covariance matrix. However, there is no work in the literature that proposes a Gaussian graphical model over the Cholesky factor of a covariance matrix. It is shown that this model is an analogue of the Gaussian Bayesian network, in the same way that a covariance graph is of a Gaussian Markov network. When the variables follow a known order, this new Gaussian graphical model can be easily estimated as a sparse Cholesky factorization of the covariance matrix. This has been previously addressed in the literature, but only via a regression transformation of the model. This gap can be filled by using a regularized matrix loss approach that directly penalizes the likelihood function, or other losses of interest. It is shown how this learning model yields better zero-pattern recovery as well as competitive results in real scenarios.