Autor: SOMOLINOS SIMÓN, Francisco Javier
Título: Propuesta de algoritmos de estratificación de pacientes y de predicción de riesgo en diabetes
Fecha: 2025
Materia: ---
Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION
Departamento: TECNOLOGIA FOTONICA Y BIOINGENIERIA
Acceso electrónico: https://oa.upm.es/91782/
Director/a(s):
- Director/a: GARCÍA SÁEZ, Gema
Resumen: Diabetes mellitus is a chronic disease characterized by an elevation of the blood glucose levels that occurs due to deficiencies in insulin production or insulin sensitivity. This condition causes various complications, which reduce quality of life and increase morbidity and mortality. The most common types of diabetes are Type 1, characterized by the presence of autoantibodies against antigens of the cells of the pancreatic islets, and Type 2, which is primarily associated with insulin secretory defects related to inflammation and metabolic stress. There has been an increase in the prevalence of diabetes in recent decades, contributing to rising healthcare costs and placing a burden on healthcare systems and their financial resources, making it a public health problem. Therefore, it is essential for people with diabetes to achieve and maintain blood glucose levels as close as possible to physiological ranges. The standard for glycaemic control is glycated haemoglobin. In recent years, there has been a major advance in the adoption of digital health. This has exponentially increased the amount of digitally available data, such as Electronic Health Records, allowing for the use of Real-World Data. The use of large databases allows for comparisons of drug treatment efficacy and adverse effects. The use of Artificial Intelligence techniques is on the rise, with multiple investigations demonstrating their usefulness and potential in the biomedical field. In this doctoral thesis, on the one hand, unsupervised machine learning models are developed in patients with diabetes, aiming to stratify them into subgroups with common characteristics to extract patterns regarding the most effective treatment combinations. In addition, on the other hand, different risk predictive models are proposed and evaluated to assist clinical decision-making in practice. Predictions include glycaemic control, mortality, and the risk of complications based on high-dimensional Real-World Data. Data used come from two databases in the United States (T1DExchange) and the United Kingdom (CPRD), in addition to using other data sources to validate the built predictive models. Unsupervised machine learning analysis has identified new subgroups in patients with Type 1 diabetes not found in previous works, as well as subgroups of patients with Type 2 diabetes with similarities to those previously reported in the literature. This doctoral thesis has demonstrated that patients with diabetes can be assigned to specific subgroups based on variables obtained in clinical practice, which reflect the pathophysiology and are associated with the risk of diabetic complications and comorbidities. Several predictive algorithms were developed, with RETAIN standing out as the best-performing model. This interpretable algorithm, based on bidirectional recurrent neural networks with long short-term memory, incorporates the complete temporal sequence of each patients clinical history across follow-up visits. This thesis demonstrates that RETAIN outperforms other models in predicting glycaemic control and can also be applied to the prediction of complications and mortality, as well as validated for transferability across different populations. Overall, the findings of this research show that the combination of unsupervised and supervised learning techniques makes it possible not only to identify clinically relevant subgroups in diabetes but also to accurately and reliably predict patient risk using Real-World Data. These findings provide robust evidence for personalized medicine, with application on patient stratification, treatment optimization, and therapy planning of clinical follow-up. RESUMEN La diabetes mellitus es una enfermedad crónica caracterizada por niveles elevados de glucosa en sangre debido a deficiencias en la producción o sensibilidad a la insulina. Esta afección es la causa de diversas complicaciones, que reducen la calidad de vida y aumentan la morbilidad y mortalidad. Los tipos de diabetes más prevalentes se clasifican en dos categorías principales: Tipo 1, caracterizada por la presencia de autoanticuerpos contra antígenos de las células de los islotes pancreáticos, y Tipo 2, que se asocia principalmente con deficiencias en la secreción de insulina relacionadas con procesos inflamatorios y el estrés metabólico. Se ha producido un aumento de su prevalencia durante las últimas décadas que contribuye a un aumento de los costes de atención médica. Esto conlleva una carga para los sistemas sanitarios y sus recursos económicos, suponiendo un problema de salud pública. Por eso, es fundamental que las personas con diabetes alcancen y mantengan los niveles de glucemia lo más cercano posible a los rangos fisiológicos. El estándar clásico del control glucémico es la hemoglobina glucosilada. En los últimos años, se ha producido un gran avance en la adopción de la salud digital. Esto ha incrementado exponencialmente la cantidad de datos disponibles, como las Historias Clínicas Electrónicas, lo que permite el uso de Datos del Mundo Real. La utilización de grandes bases de datos permite comparar la eficacia del tratamiento farmacológico y los efectos adversos. El uso de técnicas de Inteligencia Artificial se encuentra en auge, con múltiples investigaciones que han demostrado su utilidad y su potencial en el campo biomédico. En esta tesis se desarrollan, por un lado, modelos de aprendizaje automático no supervisado en pacientes con diabetes, teniendo como objetivo estratificar a estos en subgrupos con características comunes para extraer patrones sobre las combinaciones de tratamiento más efectivas. Por otro lado, se proponen y evalúan diferentes modelos predictivos para ayudar a la toma de decisiones en la práctica clínica. La predicción incluye el control glucémico, la mortalidad y el riesgo de complicaciones a partir de Datos del Mundo Real. Los datos empleados provienen de dos bases de datos: T1DExchange y CPRD, además de usar otras fuentes para validar los modelos predictivos construidos. El análisis actual de los modelos no supervisados ha identificado nuevos clusters en pacientes con diabetes Tipo 1 no encontrados en trabajos previos, así como subgrupos de pacientes con diabetes Tipo 2 con similitudes a los reportados previamente en la literatura. Esta tesis demuestra que los pacientes con diabetes pueden asignarse a subgrupos específicos basándose en variables obtenidas en la práctica clínica, que muestran la fisiopatología y se asocian con el riesgo de complicaciones diabéticas y comorbilidades. Se han desarrollado distintos algoritmos para la predicción, destacando RETAIN como el modelo con mejor desempeño. Este algoritmo interpretable, basado en redes neuronales recurrentes bidireccionales con memoria a corto y largo plazo, incorpora la secuencia temporal completa del historial clínico de cada paciente a lo largo de sus visitas. La tesis demuestra que RETAIN supera a otros modelos en la predicción del control glucémico y, además, puede aplicarse también a la predicción de complicaciones y mortalidad, así como valida su transferibilidad entre distintas poblaciones. En conjunto, los resultados de este trabajo muestran que la combinación de técnicas de aprendizaje no supervisado y supervisado permite identificar subgrupos clínicos relevantes en diabetes y predecir el riesgo de los pacientes de manera precisa y fiable a partir de Datos del Mundo Real. Estos resultados aportan evidencia sólida para avanzar hacia una medicina más personalizada, con aplicación en la estratificación de pacientes, la optimización de tratamientos y la planificación del seguimiento clínico.