Tesis:
Distributed Systems Failure Management Through Applied Machine Learning
- Autor: NAVARRO GONZÁLEZ, José Manuel
- Título: Distributed Systems Failure Management Through Applied Machine Learning
- Fecha: 2018
- Materia: Sin materia definida
- Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION
- Departamentos: INGENIERIA DE SISTEMAS TELEMATICOS
- Acceso electrónico: http://oa.upm.es/51350/
- Director/a 1º: DUEÑAS LÓPEZ, Juan Carlos
- Resumen: Esta tesis trata el problema de la gestión de los fallos en sistemas distribuidos, especialmente en redes de ordenadores y clusters de computación de alto rendimiento. En ella, expongo y analizo la importancia de éste problema y cómo las investigaciones actuales son extensas pero fragmentadas y aisladas, con un enfoque demasiado estrecho. Especialmente, hay un vacío de conocimiento entre los problemas académicos y los problemas industriales. Además, la necesidad de un experto humano y todas las tareas que esto conlleva es algo que no se ha tratado en profundidad. Partiendo de esta situación, tomo dos conjuntos de datos reales: uno público, que contiene los errores ocurridos en un supercomputador en Los Álamos, EE. UU., y el otro obtenido de una red de ordenadores de un banco español, que detalla eventos extraídos de un gestor comercial de red. Con ellos, propongo cuatro contribuciones diferentes: un estudio detallado de un conjunto de algoritmos de Aprendizaje Automático, un método novedoso de optimización que permite decidir qué periódo temporal observar para realizar predicción de fallos, una manera de extraer causas de errores potenciales de los mismos modelos de predicción y una implementación práctica de estos conceptos utilizando software Big Data. Los resultados muestran que mis propuestas son capaces de conseguir soluciones exitosas con una interacción humana mínima, además de satisfacer los requerimientos y limitaciones técnicas. ----------ABSTRACT---------- This thesis deals with the problem of managing failures on distributed systems, specially on computer networks and high performance computing clusters. Through it, I expose and analyze the importance of the problem and how its current research landscape, while extensive, is fragmented, isolated and takes a too narrow approach. Specially, there is a gap of knowledge between academic and industrial problems and the need for a human expert and all of the problems that this entails have been overlooked. Based on this situation, I take two real datasets, a public one, detailing errors occurred on a supercomputer at Los Alamos, USA, and the other obtained from a Spanish bank’s computer network, containing events extracted from a commercial network manager. With them, I propose four different contributions: a detailed study of an array of Machine Learning models, a novel optimization method to decide which time period to observe in the past to perform future prediction, a way to extract potential error causes from the prediction models and a practical implementation of these concepts utilizing Big Data software. Results show that my proposals are able to achieve successful solutions with minimal human interaction needed and satisfying technical requirements and limits.