Tesis:

Developments in probabilistic graphical models, circular distributions and theory of random forests with applications in neuroscience


  • Autor: FERNÁNDEZ-GONZÁLEZ, Pablo

  • Título: Developments in probabilistic graphical models, circular distributions and theory of random forests with applications in neuroscience

  • Fecha: 2019

  • Materia: Sin materia definida

  • Escuela: E.T.S DE INGENIEROS INFORMÁTICOS

  • Departamentos: INTELIGENCIA ARTIFICIAL

  • Acceso electrónico: http://oa.upm.es/56990/

  • Director/a 1º: LARRAÑAGA MÚGICA, Pedro
  • Director/a 2º: BIELZA LOZOYA, Concha

  • Resumen: En inteligencia artificial, la disciplina del aprendizaje automático se ha instaurado como el buque insignia del campo de estudio. La era del Big data, en la que volúmenes cada vez mayores de datos son accesibles por el público general, requiere de herramientas que sean capaces de concisarlos y manipularlos correctamente. Por este motivo, en la actuallidad se están invirtiendo notables esfuerzos para el desarrollo de nuevos métodos para el aprendizaje y detección de patrones en los datos. En este entorno, técnicas como las redes bayesianas y los bosques aleatorios atesoran éxito a nivel de aplicación. Sin embargo, desarrollos teóricos para el campo en general y para muchos métodos en particular son menos abundantes, y el consenso general es que aún no entendemos muchos aspectos de porqué funcionan los mejores algoritmos. En esta disertación, exploramos tanto la vertiente teórica como la práctica del aprendizaje automático con un enfoque multienfático que cubre varias tecnologías. Para la vertiente más teórica, nuestras contribuciones abarcan dos ramas: Estadística pura y teoría de bosques aleatorios. En el primer caso desarrollamos la distribución de probabilidad circular von Mises truncada univariante y bivariante. Estas distribuciones pueden ser entendidas como una generalización de la conocida distribución von Mises, que implica la adicción de dos o cuatro nuevos parámetros en el caso de la univariante o bivariante, respectivamente. Las contribuciones incluyen la definición, propiedades de la distribución y estimadores de máxima verosimilitud para los casos univariante y bivariante. Adicionalmente, el análisis del caso bivariante muestra cómo la distribución condicionada es una distribución von Mises truncada, mientras que la marginal es una generalización de la marginal no truncada. También mostramos su rendimiento a la hora de modelar datos sobre los ángulos de inclinación de las hojas. En el segundo caso abordamos el problema de bosques aleatorios para regresión expresados como sumas de puntos. Estudiamos el comportamiento teórico de los fc-vecinos potenciales más cercanos bajo agregación de muestras bootstrap {bagging) y obtenemos una cota superior en los pesos de un punto para bosques aleatorios equipados con cualquier tipo de regla de corte {splitting criterion), si utilizamos árboles sin poda que dejan de crecer cuando hay k o menos puntos en sus hojas. Además, utilizamos la cota anterior junto con el nuevo concepto de b-terms (o términos de bootstrap) para derivar expresiones explícitas para los pesos de puntos del selector aleatorio de fc-vecinos potenciales más cercanos, una estrategia de selección de puntos que también introducimos, y para construir un marco de trabajo que nos permite derivar otros estimadores que utilizan agregación de muestras bootstrap mediante un procedimiento similar. Finalmente, derivamos la expresión explícita de los pesos de un estimador de regresión equivalente a un estimador bosque aleatorio para regresión equipado con una regla de corte aleatoria y demostramos su equivalencia tanto a nivel teórico como práctico. Para la vertiente más práctica de esta disertación, desarrollamos dos trabajos: Un análisis estadístico que emplea la distribución von Mises truncada anteriormente definida y un clasificador multidimensional con redes bayesianas. En ambos casos, estudiamos datos neuronales en un esfuerzo por adquirir conocimiento de valor neurocientífico. Para el primer trabajo, analizamos ángulos de bifurcación de dendritas básales de neuronas piramidales de las capas III y V del cortex temporal humano. Para ello, utilizamos la distribución von Mises truncada, mostrando que es capaz de describir con mayor precisión los ángulos de bifurcación dendritica que anteriores propuestas. A continuación, realizamos estudios comparativos utilizando éste y otros métodos estadísticos para determinar similitudes y/o diferencias entre ramas y ángulos de bifurcación que pertenecen a diferences capas corticales y regiones, entre otras comparativas. Finalmente, presentamos un classificador gaussiano multidimensional clase-puente descomponible (class-bridge decomposable multidimensional Gaussian network classifier) como un modelo de alto rendimiento e interpretable, para procesar las diferencias morfológicas que existen entre diferentes neuronas cuando variamos la especie, el género, la región del cerebro, el tipo de célula y el estado de desarrollo del animal de origen, así como para tratar de avanzar en la resolución del problema de la complejidad de inferencia en clasificadores multidimensionales. Además, este trabajo incluye un algoritmo de aprendizaje de estructura que hace uso de la propiedad clase-puente descomponible para aliviar la complejidad de inferencia, que usamos para aprender estructuras de redes complejas no limitadas topológicamente que tienen en cuenta relaciones entre diferentes clases. El modelo es entrenado con datos de NeuroMorpho (v5.7) y después es utilizado para realizar predicciones precisas de todas las clases simultáneamente para nuevas muestras y, dada su interpretabilidad, para la extracción de conocimiento en neurociencia. ----------ABSTRACT---------- In artificial intelligence, the discipline of machine learning has emerged as the flagship of the field of study. The era of big data, where increasingly large amounts of data are available to the public, requires of tools that summarize and manipulate it correctly. For this reason, substantial effort is invested nowadays in the development of new methods for learning and detecting patterns in the data. In this environment, techniques such as Bayesian networks and random forests enjoy success at a practical level. However, theoretical developments for the field in general and for many methods in particular are less abundant than desired, and the general consensus is still that we do not understand many aspects of why the best performing algorithms work. In this dissertation, we explore both the theoretical and practical branches of machine learning with a multi-focused approach that spans across various technologies. In the purely theoretical side, we cover contributions to two branches: pure statistics and the theory of random forests. In the first case we develop the univariate and bivariate truncated von Mises probability distributions for circular statistics. These distributions can be understood as a generalization of the well-known von Mises distribution that implies the addition of two or four new truncation parameters in the univariate and, bivariate cases, respectively. The contributions include the definition, properties of the distribution and maximum likelihood estimators for the univariate and bivariate cases. Additionally, the analysis of the bivariate case shows how the conditional distribution is a truncated von Mises distribution, whereas the marginal is a generalization of the non-truncated marginal distribution. We also show its performance modeling data of leaf inclination angles. In the second case we tackle the problem of random forests for regression expressed as weighted sums of datapoints. We study the theoretical behavior of k-potential nearest neighbors under bagging and obtain an upper bound on the weights of a datapoint for random forests with any type of splitting criterion, provided that we use unpruned trees that stop growing only when there are k or less datapoints at their leaves. Moreover, we use the previous bound together with the new concept of b-terms (i.e., bootstrap terms), to derive the explicit expression of weights for datapoints in a random k-potential nearest neighbors selection setting, a datapoint selection strategy that we also introduce, and build a framework to derive other bagged estimators using a similar procedure. Finally, we derive from our framework the explicit expression of weights of a regression estimate equivalent to a random forest regression estimate with random splitting criterion and demonstrate its equivalence both theoretically and practically. For the practical branch of this dissertation, we have two remaining works: A statistical analysis that uses the previously defined truncated von Mises distribution and a multidimensional Bayesian network classifier. In both cases, we study neuronal data in an effort to gain insights of neuroscientific value. For the first work, we analyze branching angles of the basal dendrites of pyramidal neurons of layers III and V of the human temporal cortex. For this, we use the truncated von Mises distribution, showing that is able to describe more accurately the dendritic branching angles than previous proposals. Then, we perform comparative studies using this and other statistical methods to determine similarities and/or differences between branches and branching angles that belong to different cortical layers and regions, among other comparisons. Finally, a class-bridge decomposable multidimensional Gaussian network is presented as an interpretable and high-performing model, to account for the morphological differences that exist between different neurons when varying the species, gender, brain region, cell types and developmental stage of the animal of origin, and to tackle the problem of inference complexity in multidimensional classifiers. This work includes a structural learning algorithm that, for continuous nodes and discrete features, makes use of the CB-decomposability property to alleviate the inference complexity and uses it to learn topologically unrestricted complex network structures that take into account relationships between classes. The model is trained with data from NeuroMorpho (v5.7) and it is then used for accurate prediction of all classes simultaneously for new examples and, given its interpretability, to extract knowledge at a neuroscience level.