Logotipo de la Universidad Politécnica de Madrid

Design of Deep Learning Classification Algorithms based on Information and Complexity Metrics

Autor: SQUICCIARINI, Antonio

Título: Design of Deep Learning Classification Algorithms based on Information and Complexity Metrics

Fecha: 2025

Materia: ---

Escuela: E.T.S. DE INGENIEROS INDUSTRIALES

Departamento: MATEMATICA APLICADA A LA INGENIERIA INDUSTRIAL

Acceso electrónico: https://oa.upm.es/92220/

Director/a(s):

  • Director/a: ZARZO ALTAREJOS, Alejandro
  • Director/a: GONZÁLEZ GUILLÉN, Carlos Eduardo

Resumen: Deep neural networks have achieved extraordinary success in supervised learning, driving major breakthroughs in fields such as computer vision, speech recognition, and natural language processing. Their ability to automatically learn complex patterns from large datasets has made them a cornerstone of modern artificial intelligence. However, their practical deployment still leaves room for improvement. Challenges such as data imbalance, label noise, and overfitting are particularly prevalent in real-world scenarios, especially in time-series applications. Furthermore, although these models can autonomously extract relevant features from raw data, numerous studies have shown that effective feature extraction and preprocessing can still significantly enhance their performance. Moreover, it is not yet fully understood how these models consistently achieve generalization. To address these limitations, this thesis explores how novel information theory divergences and functionals can be systematically integrated into the deep learning pipeline. The work is structured around two complementary contributions: preprocessing of the input data and optimization of the learning process. From a preprocessing perspective, this thesis proposes a novel methodology for transforming non-stationary time-series signals into an ordered sequence of differential entropic, informational, and complexity-based metrics (EICs) to enhance machine learning performance. For inference, the methodology relies on Kernel density estimation, specifically tuned with a new data-driven bandwidth selection method designed for time-series data. The resulting feature extraction approach is evaluated on both synthetic signals and real-world electroencephalographic (EEG) recordings. In particular, its application to seizure detection in scalp-EEG shows that this preprocessing strategy improves the performance of various neural architectures compared to alternative preprocessing methods. On the optimization side, this thesis introduces the Jensen Tsallis divergence loss function to address dataset imbalance. This loss function incorporates a tunable parameter that regulates the penalization of output confidence, effectively acting as a regularizer. This formulation enhances generalization and mitigates overfitting, particularly in scenarios with severe class imbalance. Extensive experiments on diverse benchmark datasets show that this approach consistently outperforms traditional loss functions, especially under highly imbalanced conditions. Also on the optimization side, this thesis addresses the problem of overfitting in the presence of label noise by introducing a novel metric: the Class-Conditional Neuron Pre-Activation Divergence (CND). When exposed to label-noise-polluted datasets, neural networks tend to initially learn well-labeled samples and later overfit noisy labels, thereby reducing their generalization capability. The CND captures this transition from generalization to memorization by analyzing the evolution of class-dependent neuron activations across training epochs. Since it is computed directly on the training dataset, CND can be used as a proxy for early stopping by identifying the point of peak generalization, eliminating the need for a clean validation set. Additionally, CND serves as a guide for neuron pruning, helping to identify and retain neurons that are most relevant for generalization. In summary, this thesis proposes several approaches to enhance deep learning model performance by integrating information-theoretic principles at two critical stages: data preprocessing and optimization. The proposed methods are validated across diverse datasets and use cases, showing how information-based functionals can act as regularizers and thereby improve the performance of deep learning algorithms. RESUMEN Las redes neuronales profundas han alcanzado un éxito notable en el aprendizaje supervisado, impulsando avances en visión por computador, reconocimiento del habla y procesamiento del lenguaje natural. Su capacidad de aprender patrones complejos a partir de grandes volúmenes de datos las ha convertido en un pilar de la inteligencia artificial moderna. Sin embargo, su aplicación práctica aún presenta retos. Problemas como el desbalance de clases, el ruido en las etiquetas y el sobreajuste son frecuentes en escenarios reales, especialmente en aplicaciones con series temporales. Además, aunque estos modelos pueden extraer características relevantes de forma autónoma, diversos estudios muestran que un preprocesamiento adecuado puede potenciar significativamente su rendimiento. Asimismo, no se comprende del todo cómo logran generalizar de manera consistente. Para abordar estas limitaciones, esta tesis explora cómo integrar divergencias y funcionales de la teoría de la información en el flujo de trabajo del aprendizaje profundo. El trabajo se organiza en dos contribuciones: el preprocesamiento de datos y la optimización del aprendizaje. En cuanto al preprocesamiento, se propone una metodología novedosa para transformar señales temporales no estacionarias en secuencias de métricas diferenciales de entropía, información y complejidad (EICs), con el fin de mejorar el rendimiento de los algoritmos. Para la inferencia, se emplea la estimación de la densidad de Kernel, ajustada mediante un nuevo método de selección de ancho de banda diseñado para series temporales. Esta estrategia se evalúa tanto en señales sintéticas como en registros EEG reales. En particular, su aplicación a la detección de crisis epilépticas en scalp-EEG demuestra mejoras frente a métodos alternativos en diversas arquitecturas neuronales. Respecto a la optimización, se introduce la función de pérdida basada en la divergencia de Jensen Tsallis para abordar el desbalance de clases. Esta incorpora un parámetro que regula la penalización de la confianza en las salidas del modelo, actuando como regularizador. Con ello, se mejora la generalización y se mitiga el sobreajuste, especialmente en contextos con fuerte desbalance. Experimentos en distintos conjuntos de referencia muestran que este enfoque supera a las funciones de pérdida tradicionales en escenarios altamente desbalanceados. Asimismo, se aborda el sobreajuste en presencia de ruido en las etiquetas mediante una métrica novedosa: la Class-Conditional Neuron Pre-Activation Divergence (CND). En conjuntos con ruido, las redes primero aprenden correctamente las muestras bien etiquetadas y luego tienden a memorizar las erróneas, reduciendo su capacidad de generalización. La CND captura esta transición analizando la evolución de las activaciones neuronales dependientes de la clase a lo largo del entrenamiento. Al calcularse directamente sobre el conjunto de entrenamiento, permite identificar el punto de máxima generalización y utilizarse como criterio de parada temprana, sin necesidad de un conjunto de validación limpio. Además, sirve como guía para la poda de neuronas, conservando las más relevantes. En resumen, esta tesis propone enfoques que mejoran el rendimiento de los modelos de aprendizaje profundo mediante la incorporación de principios de la teoría de la información en dos etapas clave: el preprocesamiento y la optimización. Los métodos se validan en diversos casos de uso, mostrando cómo los funcionales basados en información actúan como regularizadores que fortalecen la generalización y el desempeño de los algoritmos de aprendizaje profundos.