Tesis:

Clustering-Based Framework for Efficient Biometric ECG Recognition


  • Autor: MELTZER CAMINO, David

  • Título: Clustering-Based Framework for Efficient Biometric ECG Recognition

  • Fecha: 2024

  • Materia:

  • Escuela: E.T.S.I. Y SISTEMAS DE TELECOMUNICACIÓN

  • Departamentos: INGENIERIA AUDIOVISUAL Y COMUNICACIONES

  • Acceso electrónico: https://oa.upm.es/80515/

  • Director/a 1º: LUENGO GARCÍA, David

  • Resumen: En esta tesis abordamos el problema del reconocimiento biométrico utilizando el electrocardiograma (ECG). La idea más importante que subyace en este trabajo es que las técnicas de Aprendizaje Máquina (ML) pueden utilizarse para reducir la complejidad en el contexto de un novedoso marco biométrico generalizado que constituye una aportación de esta tesis. Esto puede lograrse, por un lado, mediante métodos de extracción y reducción de rasgos (features) y prototipos específicamente diseñados. Por otro lado, la literatura reciente sobre ML proporciona técnicas para la reducción y clasificación de ejemplos (examples) que pueden ser utilizadas dentro del marco propuesto tanto en modo por lotes (batch) como en línea (online). Nuestros trabajos dirigidos a construir diccionarios de complejos QRS tomados de electrocardiograms (ECGs) reales están pensados para su uso en clasificación utilizando representaciones dispersas de ejemplos de ECG de prueba, tal y como se describe en la Sección 3.2.1. Hemos realizado un trabajo de investigación para identificar señales representativas para construir estos diccionarios. En este sentido, hemos trabajado en la normalización de las señales para su posterior comparación con métricas de similitud, agrupándolas por similitud y extrayendo sus medoides como formas de onda representativas. Este trabajo supone una contribución concreta en la construcción de diccionarios con señales no sintéticas. Aún no se ha aplicado en los experimentos de reconocimiento biométrico, ya que nos hemos centrado en alternativas menos exigentes en recursos, pero es una línea de investigación abierta en la que pretendemos trabajar en el futuro. El estudio realizado en la Sección 3.3 y los resultados del Capítulo 4 demuestran que es posible utilizar nuestro método Hibrido de Extracción de Rasgos (Hybrid Features Extraction (HFE) en la versión en inglés) propuesto basado en el dominio del tiempo para obtener ejemplos a partir de señales ECG de forma simplificada sin afectar negativamente a la sensibilidad de la clasificación. Este método, junto con una técnica generalizada de reducción de características que se puede adaptar tanto a los modos por lotes (batch) como en línea (online), como se explica en la Sección 3.4, nos permite procesar ejemplos de baja dimensión que aún transmiten la mayoría de las características que se necesitan para la etapa final de clasificación en la fase de reconocimiento. La sensibilidad media máxima obtenida es TPR = 0, 985, lo que corresponde a una precisión media de ACC = 0, 999907. El método HFE en el dominio del tiempo representa otra importante contribución de esta tesis. Finalmente, para simplificar aún más el procesamiento durante el reconocimiento, hemos diseñado un método para reducir el número de prototipos (centroides de cluster) que componen la galería de patrones mediante técnicas de clustering, tal y como se describe en la Sección 3.5. Este método sirve para otro propósito aún más relevante: capturar las variaciones intraclase del ECG. Por sí mismo, este método representa otra importante contribución de esta tesis. Los experimentos realizados demuestran que se obtienen excelentes resultados incluso cuando se consigue una elevada reducción de prototipos. Por ejemplo, usando la base de datos PTB, la máxima sensibilidad promediada, descrita anteriormente, se obtiene utilizando una galería de patrones que contiene sólo un 14, 16% del número total de ejemplos de entrenamiento disponibles, como se muestra en la Sección 4.4. ABSTRACT In this thesis, we address the problem of biometric recognition using the electrocardiogram (ECG). The most important idea underlying this work is that Machine Learning (ML) techniques can be used for reducing the complexity within a novel generalized biometric framework that is a contribution of this thesis. This can be accomplished, on the one hand, by means of specifically designed feature extraction, and features and prototypes reduction methods. On the other hand, recent literature on ML provides techniques for feature reduction and classification that can be used within the proposed framework both in batch and online modes. Our works directed to build dictionaries of QRS complexes taken from actual ECGs are intended for their use in classification using sparse representations of ECG test examples, as described in Section 3.2.1. We have done a research work to identify representative signals for building these dictionaries. In this sense, we have worked towards a normalization of signals for further comparison with similarity metrics, grouping them by similarity and extracting their medoids as representative waveforms. This work results in a concrete contribution on dictionary building with non-synthetic signals. It has not been applied on the biometric recognition experiments yet, as we have focused on less resource demanding alternatives, but this is an unfinished line of research that we intend to work in the future. The study performed in Section 3.3 and the results in Chapter 4 prove that it is possible to use our proposed time-based Hybrid Features Extraction (HFE) method to obtain examples from ECG signals in a simplified way without negatively affecting the classification sensitivity. This method, together with a generalized features reduction technique that can be adapted both to batch and online modes, as explained in Section 3.4, allows us to process low dimensional examples that still convey most of the characteristics that are needed for the final classification stage in the recognition phase. The maximum averaged sensitivity obtained is TPR = 0.985, corresponding to an average accuracy of ACC = 0.999907. The time-domain HFE method represents another important contribution of this thesis. Finally, to further simplify the processing during recognition, we have designed a method for reducing the number of prototypes (i.e., cluster centroids) that compose the patterns gallery by means of clustering techniques, as described in Section 3.5. This method serves for another, even more relevant, purpose: capturing the intra-class ECG variations. By itself, this method represents another important contribution of this thesis. The performed experiments prove that excellent results are obtained even when a high prototype reduction is achieved. For instance, on the PTB database, the maximum averaged sensitivity, described above, is obtained using a patterns gallery containing only a 14.16% of the total number of available training examples, as shown in Section 4.4.