Nonparametric Models and Bayesian Networks. Applications to Anomaly Detection

<< Volver atrás

Tesis:

Nonparametric Models and Bayesian Networks. Applications to Anomaly Detection

Autor: ATIENZA GONZÁLEZ, David

Título: Nonparametric Models and Bayesian Networks. Applications to Anomaly Detection

Fecha: 2021

Materia: Sin materia definida

Escuela: E.T.S DE INGENIEROS INFORMÁTICOS

Departamentos: INTELIGENCIA ARTIFICIAL

Acceso electrónico: https://oa.upm.es/69348/

Director/a 1º: LARRAÑAGA MÚGICA, Pedro
Director/a 2º: BIELZA LOZOYA, Concha

Resumen: Nowadays, machine learning has become an important tool to create models from the large amount of available data. These models are usually useful to solve many different tasks such as classification, clustering, probability density estimation, anomaly detection, etc. This thesis is primarily concerned with dealing with uncertainty, which is usually present in data. Analyzing this uncertainty can be helpful to better understand the proccess under study. A commonly used technique is to estimate the underlying probability distribution that generated the data, which is unknown for most real world data. This estimation can be performed with two different types of models: parametric and nonparametric. Parametric models make assumptions about the class of the underlying probability distribution and the objective is to find the best parameter values that provide the best fit to the data. In contrast, nonparametric models alleviate the assumptions on the underlying probability distribution, and generate the estimate direclty from data. However, nonparametric models do not provide a good performance when dealing with high-dimensional data, a problem often referred to as the curse of dimensionality in the literature. Bayesian networks are a probabilistic graphical model that factorizes a joint probability distribution into the product of multiple conditional probability distributions, taking advantage of the conditional independences in the probability distribution. This is helpful for converting the estimation of a high-dimensional probability distribution into the estimation of several low-dimensional conditional probability distributions. Thus, in this thesis we propose the class of semiparametric Bayesian networks, which model the low-dimensional conditional probability distributions using either parametric or nonparametric models. This novel class of Bayesian networks generalizes two common classes of Bayesian networks in the state of the art. Moreover, the semiparametric Bayesian networks can be learned using an adaptation of standard learning algorithms for Bayesian networks. In addition, an extension to semiparametric Bayesian networks is proposed which can model hybrid data containing both discrete and continuous data. Anomaly detection is the proccess of detecting events that differ significantly from the normal behavior of the system. This task is often approached by detecting low-probability events, since anomalies are rare. This has many applications, particularly in industry where errors in production must be identified as early as possible. In this thesis, we perform anomaly detection in a real laser heat-treatment process used in the automative industry. Two different approaches are proposed to detect anomalies. In the first approach, the laser movement is tracked, so the source high-dimensional data is transformed into low-dimensional data. Then, a grid of nonparametric models is used to detect anomalies. The second approach models the source high-dimensional data using semiparametric Bayesian networks. Both approaches take into account the temporal characteristics of the data and exhibit promising capabilities to detect anomalies. ----------RESUMEN---------- En la actualidad, el aprendizaje automático se ha convertido en una herramienta importante para crear modelos a partir de la gran cantidad de datos disponibles. Estos modelos suelen ser útiles para resolver muchas tareas diferentes, como la clasificación, el clustering, la estimación de la densidad de probabilidad, la detección de anomalías, etc. Esta tesis se ocupa principalmente de tratar la incertidumbre que suele estar presente en los datos. El análisis de esta incertidumbre puede ser útil para comprender mejor el proceso estudiado. Una técnica comúnmente utilizada es estimar la distribución de probabilidad subyacente que generó los datos, que es desconocida para la mayoría de los datos del mundo real. Esta estimación puede realizarse con dos tipos de modelos diferentes: paramétricos y no paramétricos. Los modelos paramétricos hacen asunciones sobre la clase de la distribución de probabilidad subyacente y el objetivo es encontrar los valores de los parámetros que proporcionen el mejor ajuste a los datos. Por el contrario, los modelos no paramétricos reducen las asunciones sobre la distribución de probabilidad subyacente y generan la estimación directamente a partir de los datos. Sin embargo, los modelos no paramétricos no obtienen buen rendimiento cuando se trabaja con datos de alta dimensionalidad, un problema que a menudo se conoce como la maldición de la dimensionalidad en la literatura. Las redes Bayesianas son un modelo gráfico probabilístico que factoriza una distribución de probabilidad conjunta en el producto de múltiples distribuciones de probabilidad condicionales, aprovechando las independencias condicionales en la distribución de probabilidad. Esto es útil para convertir la estimación de una distribución de probabilidad de alta dimensión en la estimación de varias distribuciones de probabilidad condicional de baja dimensión. Así, en esta tesis proponemos la clase de redes Bayesianas semiparamétricas, que modelan las distribuciones de probabilidad condicionales de baja dimensión utilizando modelos paramétricos o no paramétricos. Esta nueva clase de redes Bayesianas generaliza dos clases comunes de redes Bayesianas en el estado del arte. Además, las redes Bayesianas semiparamétricas pueden aprenderse utilizando una adaptación de los algoritmos de aprendizaje estándar para redes Bayesianas. Adicionalmente, también se propone una extensión de las redes Bayesianas semiparamétricas que puede modelar datos híbridos formados por datos discretos y continuos. La detección de anomalías es el proceso de detección de eventos que difieren significativamente del comportamiento normal del sistema. Esta tarea se suele abordar detectando eventos de baja probabilidad, ya que las anomalías son poco frecuentes. Esto tiene muchas aplicaciones, especialmente en la industria, donde los errores en la producción deben ser identificados lo antes posible. En esta tesis, realizamos la detección de anomalías en un proceso real de tratamiento térmico por láser utilizado en la industria automovilística. Se proponen dos enfoques diferentes para detectar las anomalías. En el primer enfoque, se rastrea el movimiento del láser, por lo que los datos originales se transforman de una alta dimensionalidad a baja dimensionalidad. A continuación, se utiliza una retícula de modelos no paramétricos para detectar las anomalías. El segundo enfoque modela directamente los datos originales de alta dimensionalidad utilizando redes Bayesianas semiparamétricas. Ambos enfoques tienen en cuenta las características temporales de los datos y muestran capacidades prometedoras para detectar anomalías.