Tesis:
Optimization of intrusion detection systems based on machine learning for cybersecurity by boosting feature engineering and model selection techniques
- Autor: LARRIVA NOVO, Xavier Andrés
- Título: Optimization of intrusion detection systems based on machine learning for cybersecurity by boosting feature engineering and model selection techniques
- Fecha: 2021
- Materia: Sin materia definida
- Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION
- Departamentos: INGENIERIA DE SISTEMAS TELEMATICOS
- Acceso electrónico: https://oa.upm.es/69604/
- Director/a 1º: VILLAGRÁ GONZÁLEZ, Victor Abraham
- Director/a 2º: VEGA BARBAS, Mario
- Resumen: This PhD Thesis Works was developed in the context of intrusion detection systems based on Machine Learning techniques and contribute to the performance of intrusion detection systems based on feature engineering and Machine Learning model optimization. Machine Learning is in a fortunate position that makes systematic experimentation easy and profitable. In this way, the development of new systems such as intrusion detection systems based on Machine Learning has proven their effectiveness in terms of accuracy and reduced the number of false alarms. However, these systems are constantly evolving and need further research to become even more efficient and accurate. Intrusion detection systems based on Machine Learning are able to extrapolate data and detect anomalies. Nevertheless, these systems need optimal features to detect the possibility of an attack. The main objective of this PhD Thesis work is to design, implement and validate an intrusion detection system capable of reliably detecting cyber attacks. This system will respond to potential attacks by considering the optimization of different phases of a Machine Learning model, such as feature selection, data preprocessing, and model selection. This system will process information quickly and efficiently, considering the current state of the art in the area. In this PhD thesis work, an intrusion detection system has been designed based on feed-forward neural network and recurrent neural networks. Also, a characterization of cybersecurity datasets based on these models has been developed. The result is a model that allows a characterization to be applied to different network scenarios for cybersecurity anomaly detection. Based on this model, a distributed preprocessing model for intrusion detection systems based on Machine Learning was developed for real cybersecurity datasets with current attacks. The result was an intrusion detection system capable of processing real-world, large-scale cybersecurity datasets with high accuracy. In addition, this PhD Thesis proposes the development of a dynamic model selector capable of making the best prediction for individual Machine Learning-based intrusion detection systems, thus increasing the overall accuracy in terms of detection rate for different types of attacks. Finally, all contributions were evaluated against related state-of-the-art studies and are presented through this document as a compendium of articles for this PhD Thesis work. ----------RESUMEN---------- Este trabajo de tesis doctoral se desarrolló en el contexto de los sistemas de detección de intrusos basados en técnicas de aprendizaje automático y contribuye al rendimiento de los sistemas de detección de intrusos basados en la ingeniería de atributos y la optimización del modelo. El aprendizaje automático se encuentra en una posición afortunada que hace que la experimentación sistemática sea fácil y rentable. De esta forma, el desarrollo de nuevos sistemas como los sistemas de detección de intrusos basados en aprendizaje automático han demostrado su eficacia en cuanto a precisión y reducido el número de falsas alarmas. Sin embargo, estos sistemas están en constante evolución y necesitan más investigación para ser aún más eficientes y precisos. Los sistemas de detección de intrusos basados en el aprendizaje automático son capaces de extrapolar datos y detectar anomalías. Sin embargo, estos sistemas necesitan características óptimas para detectar de manera acertada la posibilidad de un ataque. El objetivo principal de esta tesis es diseñar, implementar y validar un sistema de detección de intrusos capaz de detectar ciberataques de manera confiable. Este sistema responderá a posibles ataques considerando la optimización de diferentes fases de un modelo de aprendizaje automático, como la selección de características, el preprocesamiento de datos y la selección del modelo. Este sistema procesará la información de manera rápida y eficiente, considerando el estado del arte actual en el área. En esta tesis doctoral se ha diseñado un sistema de detección de intrusiones basado en una red neuronal feed-forward y una red neuronal recurrente. Asimismo, se ha desarrollado una caracterización de conjuntos de datos de ciberseguridad en base a estos modelos. El resultado es un modelo que permite aplicar una caracterización a diferentes escenarios de red para la detección de anomalías de ciberseguridad. Sobre la base de este modelo, se desarrolló un modelo de preprocesamiento distribuido para sistemas de detección de intrusos para conjuntos de datos reales con ataques reales. El resultado fue un sistema de detección de intrusos capaz de procesar datos a gran escala con alta precisión. Además, esta Tesis Doctoral propone el desarrollo de un selector de modelo dinámico capaz de realizar la mejor predicción para sistemas individuales de detección de intrusos basados en aprendizaje automático, aumentando así la precisión global en términos de tasa de detección para diferentes tipos de ataques. Finalmente, todas las contribuciones fueron evaluadas en comparación con estudios del estado del arte relacionados y se presentan a través de este documento como un compendio de artículos para esta Tesis Doctoral.