Tesis:

Machine Learning based predictive modelling and simulation of network failure events


  • Autor: ANDIÓN JIMÉNEZ, Javier

  • Título: Machine Learning based predictive modelling and simulation of network failure events

  • Fecha: 2020

  • Materia: Sin materia definida

  • Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

  • Departamentos: INGENIERIA DE SISTEMAS TELEMATICOS

  • Acceso electrónico: http://oa.upm.es/65828/

  • Director/a 1º: DUEÑAS LOPEZ, Juan Carlos

  • Resumen: Proactive failure management can produce high cost saves for companies. Machine Learning has proven to be an excellent tool for creating fault prediction models, and there are numerous scientific publications with examples of applications in different domains. In the area of information technologies, its use in the management of distributed systems stands out. However, these failure prediction publications with Machine Learning typically do not present a detailed description of data preprocessing, or in other cases, they are specific to the application scenario. These facts difficult to reuse the results of the literature or its application in new scenarios. This thesis’s first contribution is the proposal of a generic methodology for creating prediction models with Machine Learning algorithms. This contribution is based on a research line in which several articles have been published in the last five years. This methodology aims to propose a guide that starts with the raw data and ends with prediction models adapted to the problem and validated correctly. The second contribution is the architectural proposal of a simulator based on the use of prediction models. Prediction models can detect patterns of activity in the monitored system that trigger failures. This capability can be used in reverse to simulate the occurrence of failures when certain conditions occur. Both contributions are validated using a dataset provided by a Spanish bank. The dataset consists of a network monitoring system’s logs working on a production network for nine months. Contributions are designed as scalable and extensible solutions that can be applied to larger or more complex scenarios. ----------RESUMEN---------- La gestión proactiva de fallos permite ahorrar costes independientemente del domino de aplicación. El Machine Learning ha probado ser una excelente herramienta para crear modelos de predicción de fallos y existen numerosas publicaciones científicas con ejemplos de aplicación a distintos dominios. En el área de las tecnologías de información destaca su uso en la gestión de sistemas distribuidos. Sin embargo, estas publicaciones de predicción de fallos con Machine Learning no suelen presentar un proceso detallado del tratamiento de los datos que se lleva a cabo, o en otros casos, pueden ser específicas del escenario de trabajo. Estos hechos dificultan la reutilización de los resultados de la literatura o su aplicación en nuevos escenarios. La primera contribución de este trabajo es la propuesta de una metodología genérica para la creación de modelos de predicción con algoritmos de Machine Learning. Esta contribución se sustenta en una línea de investigación de varios años en la que se han generado y publicado en revistas varios artículos. El objetivo de esta metodología es proponer una guía que comience con los datos en bruto y finalice con unos modelos de predicción adaptados al problema y validados correctamente. La segunda contribución es la propuesta de arquitectura de un simulador basada en la utilización de los modelos de predicción. Los modelos de predicción son capaces de detectar patrones de actividad en el sistema monitorizado que desencadenan la aparición de fallos, esta capacidad puede emplearse de forma inversa para simular la aparición de fallos cuando se den las condiciones adecuadas. Ambas contribuciones se validan utilizando un conjunto de datos cedido por un banco español. Este conjunto consiste en los registros de un sistema de monitorización de red que trabaja sobre una subred de producción durante nueve meses. Las contribuciones se diseñan como soluciones escalables y extensibles que puedan ser aplicados a escenarios de mayor dimensión o complejidad.