Tesis:
Clustering probabilístico dinámico para la búsqueda de patrones de degradación de elementos de máquina en el ámbito del Industrie 4.0
- Autor: DÍAZ ROZO, Javier
- Título: Clustering probabilístico dinámico para la búsqueda de patrones de degradación de elementos de máquina en el ámbito del Industrie 4.0
- Fecha: 2019
- Materia: Sin materia definida
- Escuela: E.T.S DE INGENIEROS INFORMÁTICOS
- Departamentos: INTELIGENCIA ARTIFICIAL
- Acceso electrónico: http://oa.upm.es/56472/
- Director/a 1º: LARRAÑAGA MÚGICA, Pedro
- Director/a 2º: BIELZA LOZOYA, Concha
- Resumen: La Cuarta Revolución Industrial y en particular, los sistemas ciberfísicos (CPS), han abierto una amplia gama de oportunidades en términos de análisis de rendimiento. Estas oportunidades pueden ser aplicables a sistemas de diagnóstico y predicción de fallos pero también, pueden contribuir a la mejora del diseño de los productos y a la optimización de los procesos industriales. Las capacidades de comunicación de los CPS a alta velocidad permiten adquirir, pre-procesar y procesar los datos que se extraen, por ejemplo, de las máquinas, pilar fundamental de los procesos productivos. Como resultado, la degradación de los elementos de máquina sujetos a comportamientos dinámicos puede detectarse de una manera más rápida mediante el estudio de los patrones que forman sus principales variables de funcionamiento a lo largo del tiempo. Esto permite generar herramientas de monitorización de elementos productivos, aplicables principalmente al mantenimiento y al control de calidad. Sin embargo, este tipo de aproximaciones trabajan con sensores que envían datos de procesos dinámicos a alta velocidad en donde no es fácil generar información útil en el momento adecuado. Una parte del problema se refiere al procesamiento de una gran cantidad de datos, mientras que los fenómenos dinámicos subyacentes relacionados con la máquina posiblemente evolucionen con el tiempo dando lugar a un concept drift. Esto se debe a factores como la degradación, algo completamente normal en los sistemas físicos. Como resultado, cualquier modelo de datos puede volverse obsoleto y es necesaria su constante actualización. Para hacer frente a este problema, se propone una aproximación desde el aprendizaje automático no supervisado. Específicamente, el uso de algoritmos de clustering dinámicos. Para ello, se trabaja en una metodología que primero estudia el rendimiento de los algoritmos de clustering en aplicaciones industriales. Posteriormente, se seleccionan aquellos algoritmos que tengan la capacidad de aportar nuevo conocimiento relacionado con los elementos productivos y sus patrones de degradación. El siguiente paso es adaptar el algoritmo seleccionado al comportamiento dinámico de las máquinas y al trabajo con data streams, mucho más cercano a la realidad industrial. De esta manera, partiendo de algoritmos de clustering como: -fí-medias, jerárquico aglomerativo, espectral, propagación de afinidad y modelos de mixturas de Gaussianas, se selecciona este último tipo como el más apto para esta aplicación. Se propone un nuevo algoritmo de aprendizaje no supervisado, denominado clustering probabilístico dinámico basado en mixturas de Gaussianas (GDPC). GDPC integra y adapta tres algoritmos conocidos para poder ser usados en escenarios dinámicos: el algoritmo de esperanza-maximización (EM) responsable de estimar los parámetros del modelo de mixturas y el test de hipótesis de Page–Hinkley que junto con las cotas de Chernoff permiten detectar los concept drift. A diferencia de otros métodos no supervisados, el modelo inducido por el GDPC proporciona las probabilidades de asignación de cada instancia a cada clúster o componente. Esto permite determinar, a través de un análisis con el Brier score, la robustez de esta asignación y su evolución una vez detectado un concept drift. El GDPC trabaja con una ventana óptima de datos reduciendo de manera importante las necesidades de potencia de cómputo. Sin embargo, el algoritmo requiere un conocimiento del dominio profundo con el fin de seleccionar correctamente los parámetros (por ejemplo, el número de componentes). Además, puede ser inestable debido a otro fenómeno encontrado comúnmente en datos industriales relacionado con fases no estacionarias que ocurren cuando los elementos cambian de estado y se estabilizan en su valor esperado. De esta manera, se proponen una nueva versión con serie de mejoras con el objetivo de aumentar el grado de robustez del algoritmo ante estas problemáticas. Esta nueva versión, denominada GDPC+, introduce las siguientes mejoras: (a) la selección automática del número de componentes de la mixtura de Gaussianas en función del criterio de información Bayesiano; y (b) la estabilización debida a los efectos transitorios, no estacionarios, durante el concept drift gracias a la integración de la divergencia de Cauchy–Schwarz con el test de Dickey–Fuller aumentado. Por lo tanto, el GDPC+ tiene un mejor desempeño que el GDPC en términos del número de falsos positivos en aplicaciones altamente dinámicas. El desarrollo de estos algoritmos ha sido validado con pruebas sobre data stream de origen sintético y también originados a partir de un banco de pruebas y una máquina-herramienta produciendo piezas reales, en este caso, cigüeñales de automoción. Estos resultados se han validado en términos de diferentes medidas como precisión, recall, especificidad y F-score. Adicionalmente, partiendo de los resultados de clustering de datos reales de máquina, se han desarrollado conjuntos de reglas inducidas mediante un algoritmo de clasificación supervisada con el fin de proporcionar información sobre el proceso subyacente y sus concept drift asociados. ----------ABSTRACT---------- The Fourth Industrial Revolution and in particular, the cyber-physical systems (CPS), have opened a wide range of opportunities in terms of performance analysis. They can be applied to fault diagnosis and prediction systems but also to improve the design of industrial products and processes optimization. In this way, the CPS communication capabilities at high-speed allow us to acquire, pre-process and process the data extracted from, e.g., machines, fundamental part of production processes. As a result, the degradation of machine elements subject to dynamic behavior can be detected more quickly by studying the patterns that produce the main operating variables over time. This allows the generation of fundamental monitoring tools, mainly applicable to maintenance and quality control. However, this type of approach works with sensors that send data from dynamic processes at high speed, where it is not easy to generate actionable insights at the right time. One part of the problem concerns the processing of a large amount of data, while the underlying dynamic phenomena related to the machine, possibly evolve over time giving rise to a concept drift. This is due to factors such as degradation, something common in physical systems. Thus, if the model becomes obsolete, an update is necessary. To deal with this problem, an approach from unsupervised machine learning is proposed. Specifically, through dynamic clustering algorithms. To do this, we work on a methodology that first allows us to study the behavior of clustering algorithms in industrial applications. Then, we select those algorithms that have the capabilities to provide new knowledge related to the productive elements and their degradation patterns. The next step is to adapt the selected algorithm to the dynamic behavior of the machines, working with data streams, much closer to the industrial reality. In this way, starting from clustering algorithms such as: K-means, agglomerative hierarchical, spectral, affinity propagation and Gaussian mixture models, the last one is selected as the most suitable for this type of application. A new unsupervised learning algorithm called Gaussian-based dynamic probabilistic clustering (GDPC) is proposed. GDPC integrates and adapts three known algorithms for use in dynamic scenarios: the expectation–maximization algorithm (EM) responsible for parameter estimation of the mixture model and the Page–Hinkley test together with the Chernoff bounds, to detect concept drift. Unlike other unsupervised methods, the model induced by GDPC provides the membership probabilities of each instance to each cluster or component. This allows us to determine, through an analysis with the Brier score, the membership robustness and its evolution each time a concept drift is detected. In addition, the algorithm works with few data needs and significantly less computing power, which allow the algorithm to decide when to change the model. However, this algorithm requires a thorough knowledge of the analyzed domain to correctly select parameters such as the number of components. Also, it may be unstable due to another common phenomenon found in industrial data related to non-stationary phases. Therefore, a series of improvements are proposed to increase the degree of robustness of the algorithm. This new version, called GDPC+, introduces the following improvements: (a) the automatic selection of the number of components of the mixture based on the Bayesian information criterion; and (b) the stabilization due to the transient effects during the concept drift thanks to the integration of the Cauchy–Schwarz divergence with the augmented Dickey– Fuller test. Therefore, GDPC+ can outperform the GDPC in highly dynamic scenarios in terms of the number of false positives. The development of these algorithms has been supported with tests on synthetic data streams and also data originated on testbeds and a machine-tool during real production, in this case, automotive crankshafts. These results have been validated in terms of different figures of merit like accuracy, recall, specificity and F-score. Additionally, based on the results of clustering of real machine data, sets of rules induced by a supervised algorithm were developed in order to provide insights about the underlying process and its related algorithm.