Tesis Doctorales UPM: Consulta online

Autor: PUERTO SANTANA, Carlos

Título: Asymmetric hidden Markov models and extensions applied to industry

Fecha: 2023

Materia: ---

Escuela: E.T.S DE INGENIEROS INFORMÁTICOS

Departamento: INTELIGENCIA ARTIFICIAL

Acceso electrónico: https://oa.upm.es/73192/

Director/a(s):

Director/a: BIELZA LOZOYA, María Concepción
Director/a: LARRAÑAGA MÚGICA, Pedro María

Resumen: The Internet of things is a paradigm with the goal of creating customizable goods and services based on user experience. This paradigm has been applied in industrial environments generating what is called the industrial Internet of things. This new paradigm measures industrial assets continuously. The collected information is processed to extract data insights regarding the assets status or health. Depending on the asset status, maintenance policies can be planned to prevent the assets failure or degradation. To elaborate such insights, artificial intelligence models are usually applied to learn and predict industrial data patterns and behaviors. Nonetheless, in many cases, computational and reliability restrictions are present, and fast and explainable models are required to satisfy the industry needs. Hidden Markov models (HMMs) are statistical models that are capable of learning data patterns and detect non-stationary behavior in data. When HMMs are compared to other models, HMMs are economic, explainable and reliable. They are economic because their learning and inference algorithms can run in a reasonable time without the need for graphic cards or other power-intensive computing devices. They are explainable since all the learned parameters are interpretable from a probabilistic and area-of-knowledge points of view. They are reliable, because, if a mistake is committed by the model, it is possible to detect and infer its causes from the models parameters and structure. Due to the previous discussion, the motivation and results of this thesis aim to extend theoretically current HMMs, to make them more relevant, general and useful for industrial applications. For all the proposed models, the expectation-maximization algorithm was used for the learning phase. The first contribution appears in Chapter 4, where context-specific Bayesian networks were used to model the emission probabilities of continuous variables. That model is referred as AsLG-HMM since linear Gaussian Bayesian networks were used. The model was compared to a mixture of Gaussian HMM, where improvements in log-likelihoods by the proposed model were observed in both synthetic data and real data from ball-bearings. Nonetheless, such model was further developed in Chapter 5, where autoregressive values of the observable variables were considered in the context-specific Bayesian networks. This model is referred to AR-AsLG-HMM. In this case, the model was studied with further mathematical rigor. Also, a forward greedy algorithm was proposed to discover structures of Bayesian networks for the emission probabilities. The model was tested with synthetic and real data incoming from air quality and ball-bearing data. For this model, several types of HMMs were used for comparison. The learning times were also considered for evalua tion. The proposed model showed improvements in log-likelihood with fair learning times, and additional data insights were provided due to the learned Bayesian networks. As comment, AR-AsLG-HMM served as a cornerstone model for other contributions in this thesis. In Chapter 6, AR-AsLG-HMM was endowed with feature saliencies to enable the model to perform an embedded feature selection procedure. This implies that the model during its learning procedure determined the relevant features. This model is referred to FS-AsHMM. In this case, the model was compared to other HMMs with feature saliencies. Synthetic data and real data from ball-bearings and cameras with face- expressions data were used for validation. The model obtained better results regarding expression recognition and detection of non-relevant features. The previous contributions were focused to offline analysis. Nevertheless, this thesis is focused on working in industrial environments, where data-streams are generated and the models are expected to adapt to changes in data. To address such issue, in Chapter 7 the AR-AsLG-HMM was adapted to be used in data-stream and perform continuous learning. Novel-concept detection techniques were used to determine when new unobserved patterns appeared. Based on the data-insights of the AR-AsLG-HMM from the data-stream, a healthindex and a regression model were proposed to determine the health status and remaining useful life of ball-bearings. Two datasets were used to validate the proposed methodology: open access datasets with ball-bearings which are run to failure, and a ball-bearing testbed from a company promoting the thesis, Aingura IIoT. Additionally, in collaboration with the Barcelona Supercomputer Center, the methodology code was optimized to be embedded into edge devices and use it in real life applications. The methodology was compared to others in the state of the art. It obtained better results in terms of health estimation, and fair results regarding the remaining useful life prediction. Next, in Chapter 8 a feature saliency model for HMMs was adapted to determine relevant harmonics of ball-bearings data in online environments. However, this study was a preliminary work for what was done in Chapter 9, where local feature saliencies were applied on AR-AsLG-HMMs. This model is referred to LFS-AsHMM. This model was adapted to be used in data-streams with novel-concept detection techniques to keep track of the evolution of relevant features. This model updated the relevant features only when the data needed it. Synthetic and real open access data from ball-bearings was used for validation. The model was compared to other strategies and methodologies that perform feature selection in data-streams. However, these strategies did the feature selection whenever a new instance arrived and not when needed. Unfortunately, this model did not get to be implemented into edge devices during the writing of this thesis. Finally, the proposed models assume linear Gaussian data and if such assumption fails, the models are no longer valid. To address such problem, in Chapter 10, the ideas used on AR-AsLG-HMM were imposed over HMMs with non-parametric emission probabilities, more precisely, kernel density estimations were used to approximate the emission probabilities, and the estimations depended on context-specific Bayesian networks. The proposed model is referred to KDE-AsHMM. The proposed model is validated using synthetic non-linear Gaussian data and open access real data from sound recognition problems and drill milling processes. The model showed improvements in likelihood and sound recognition accuracy when compared to other HMMs. Nonetheless, the learning times and computational resources were high demanding. At the end of the thesis, in Chapter 11, the corresponding conclusions, final remarks and future research lines were proposed. RESUMEN El internet de las cosas es un paradigma con el objetivo de crear bienes y servicios perzonalizados basados en la experiencia del usuario. Este paradigma se ha aplicado en entornos industriales generando lo que se denomina el Internet de las cosas industriales. Este nuevo paradigma mide los activos industriales de forma continua. La información recopilada se procesa para extraer información sobre el estado o la salud de los activos. Según el estado de los activos, se pueden planificar políticas de mantenimiento para evitar fallas o degradación de los activos. Para elaborar tales conocimientos, modelos de inteligencia artificial se aplican para aprender y predecir patrones y comportamientos de datos industriales. No obstante, en muchos casos existen restricciones computacionales y de confiabilidad, y se requieren modelos rápidos y explicables para satisfacer las necesidades de la industria. Los modelos ocultos de Markov (HMM) son modelos estadísticos que son capaces de aprender patrones de datos y detectar comportamientos no estacionarios en los datos. Cuando los HMMs se comparan con otros modelos, los HMMs son económicos, explicables y confiables. Son económicos porque sus algoritmos de aprendizaje e inferencia pueden ejecutarse en un tiempo razonable sin necesidad de tarjetas gráficas u otros dispositivos informáticos que consumen mucha energía. Son explicables ya que todos los parámetros aprendidos son interpretables desde un punto de vista probabilístico y de área de conocimiento. Son confiables, puesto que si el modelo comete un error, es posible detectar e inferir sus causas a partir de los parámetros y la estructura del modelo. Debido a la discusión anterior, la motivación y los resultados de esta tesis tienen como objetivo extender los HMM teóricamente actuales, para hacerlos más relevantes, generales y útiles para aplicaciones industriales. Para todos los modelos propuestos se utilizó el algoritmo de maximización de expectativas para la fase de aprendizaje. La primera contribución aparece en el Capítulo 4, donde se utilizaron redes bayesianas específicas del contexto para modelar las probabilidades de emisión de variables continuas. Ese modelo se conoce como AsLG-HMM ya que se utilizaron redes lineales gaussianas bayesianas. El modelo se comparó con una mezcla de Gaussian HMM, donde se observaron mejoras en las probabilidades logarítmicas del modelo propuesto tanto en datos sintéticos como en datos reales de rodamientos de bolas. No obstante, dicho modelo se desarrolló más en el Capítulo 5, donde se consideraron los valores autorregresivos de las variables observables en las redes bayesianas específicas del contexto. Este modelo se denomina AR-AsLG-HMM. En este caso, el modelo fue estudiado con mayor rigor matemático. Además, se propuso un algoritmo voraz directo para descubrir estructuras de redes bayesianas para las probabilidades de emisión. El modelo se probó con datos sintéticos y reales provenientes de la calidad del aire y datos de cojinetes de bolas. Para este modelo, se usaron varios tipos de HMM para comparar. Los tiempos de aprendizaje también fueron considerados para la evaluación. El modelo propuesto mostró mejoras en la probabilidad de registro con tiempos de aprendizaje justos, y se proporcionaron conocimientos de datos adicionales debido a las redes bayesianas aprendidas. Como comentario, AR-AsLG-HMM sirvió como modelo fundamental para otras contribuciones en esta tesis. En el Capítulo 6, se dotó a AR-AsLG-HMM con variables destacadas para permitir que el modelo realice un procedimiento de selección de variables incorporado. Esto implica que el modelo durante su procedimiento de aprendizaje determinó las variables relevantes. Este modelo se denomina FS-AsHMM. En este caso, el modelo se comparó con otros HMM con variables sobresalientes. Para la validación se utilizaron datos sintéticos y datos reales de rodamientos de bolas y cámaras con datos de expresiones faciales. El modelo obtuvo mejores resultados en cuanto al reconocimiento de expresiones y detección de variables no relevantes. Las contribuciones anteriores estaban enfocadas al análisis fuera de línea. Sin embargo, esta tesis se centra en trabajar en entornos industriales, donde se generan flujos de datos y se espera que los modelos se adapten a los cambios en los datos. Para abordar este problema, en el Capítulo 7, el AR-AsLG-HMM se adaptó para usarse en flujo de datos y realizar un aprendizaje continuo. Se utilizaron técnicas de detección de conceptos novedosos para determinar cuándo aparecían nuevos patrones no observados. Con base en los conocimientos de datos del AR-AsLG-HMM del flujo de datos, se propusieron un índice de salud y un modelo de regresión para determinar el estado de salud y la vida útil restante de los rodamientos de bolas. Se utilizaron dos conjuntos de datos para validar la metodología propuesta: conjuntos de datos de acceso abierto con rodamientos de bolas que funcionan hasta el fallo y un banco de pruebas de rodamientos de bolas de la empresa promotora de la tesis, Aingura IIoT. Además, en colaboración con el Barcelona Supercomputing center, se optimizó el código de la metodología para integrarlo en edge devices y usarlo en aplicaciones de la vida real. La metodología fue comparada con otras en el estado del arte. Obtuvo mejores resultados en cuanto a la estimación de la salud, y resultados regulares en cuanto a la predicción de la vida útil remanente. A continuación, en el Capítulo 8, se adaptó un modelo de prominencia de variable para HMM para determinar los armónicos relevantes de los datos de rodamientos en entornos en línea. Sin embargo, este estudio fue un trabajo preliminar para lo que se hizo en el Capítulo 9, donde se aplicaron las prominencias de variables locales en AR-AsLG-HMM. Este modelo se denomina LFS-AsHMM. Este modelo se adaptó para usarse en flujos de datos con técnicas de detección de conceptos novedosos para realizar un seguimiento de la evolución de las variables relevantes. Este modelo actualizó las variables relevantes solo cuando los datos lo necesitaban. Para la validación se utilizaron datos de acceso abierto sintéticos y reales de rodamientos de bolas. El modelo se comparó con otras estrategias y metodologías que realizan la selección de variables en flujos de datos. Sin embargo, estas estrategias hacían la selección de funciones cada vez que llegaba una nueva instancia y no cuando era necesario. Desafortunadamente, este modelo no llegó a implementarse en dispositivos de Edge durante la redacción de esta tesis. Finalmente, los modelos propuestos asumen datos gaussianos lineales y si tal suposición falla, los modelos ya no son válidos. Para abordar tal problema, en el Capítulo 10, las ideas utilizadas en AR-AsLG-HMM se impusieron sobre los HMM con probabilidades de emisión no paramétricas, más precisamente, se utilizaron estimaciones de densidad kernel para aproximar las probabilidades de emisión, y las estimaciones dependían de redes bayesianas específicas del contexto. El modelo propuesto se refiere a KDE-AsHMM. El modelo propuesto se valida utilizando datos gaussianos no lineales sintéticos y datos reales de acceso abierto de problemas de reconocimiento de sonido y procesos de fresado de perforación. El modelo mostró mejoras en la probabilidad y la precisión del reconocimiento de sonido en comparación con otros HMM. No obstante, los tiempos de aprendizaje y los recursos computacionales fueron muy exigentes. Al final de la tesis, en el Capítulo 11, se propusieron las correspondientes conclusiones, comentarios finales y futuras líneas de investigación.