Tesis Doctorales UPM: Consulta online

Autor: ZLOTNIK ENALIEV, Alexander

Título: Design and evaluation of analytical tools for emergency department management based on machine learning techniques

Fecha: 2016

Materia: Sin materia definida

Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

Departamento: INGENIERIA ELECTRONICA

Acceso electrónico: http://oa.upm.es/43029/

Director/a(s):

Director/a: MONTERO MARTÍNEZ, Juan Manuel
Director/a: GALLARDO ANTOLÍN, Ascensión

Resumen: The Spanish National Healthcare System (NHS) is mostly publicly funded and provided. It is considered highly cost-efficient according to international studies based on World Health Organization (WHO) data. However, the contention of healthcare costs increases while maintaining adequate levels of quality of care, is still a largely unsolved problem. In recent years, Emergency Departments (EDs) of specialized care hospitals have been subjected to budget restrictions, increased visits and increased clinical complexity of these visits. These circumstances require new approaches to ED management, which could benefit from decision support tools. In this Ph.D. thesis, we propose machine learning solutions for two problems common to most EDs of specialized care hospitals: ED census forecasting and real-time prediction of probabilities of inpatient admission for all triaged patients in the ED. These solutions could be used as decision support systems. Data for the development of these solutions were provided by the Ramon y Cajal University Hospital of Madrid, a large specialized care referral center with all medical specialties excepting Obstetrics. In years 2011 and 2012 it had approximately 1,100 beds and approximately 553,000 patients assigned to its clinical area. Another topic of this Ph.D. thesis are software tools for the generation of logistic regression and Cox regression nomograms, since nomograms can be used as clinical decision aids and as contingency procedures in case of failure of computer-based decision support systems. The first topic of this Ph.D. thesis is the development of models for ED census forecasting (i.e. prediction of the number of patients present at the ED at a given time). One of the uses of ED census forecasting is nursing personnel allocation, based on national and international recommendations. We chose an 8-hour granularity for our forecasts since many resources (such as nursing personnel) in the ED are organized in 8-hour shifts. Our aim was to generate forecasts for two dependent variables: average ED census levels and maximum ED census levels. Maximum ED census forecasts within 8-hour shifts could be used for nursing personnel allocation, while average ED census forecasts within 8-hour shifts could be used for the other needs (such as allocation of administrative personnel). We used a generalized regression approach to time series forecasting with several machine learning algorithms: M5P, Alternating Model Trees (AMT) and Support Vector Regression (SVR). We compared these to a series of benchmarks: usual nursing staffing levels (and usual resource allocation policies), stratified average (averages stratified by the three 8-hour shifts of a day), linear regression and Seasonal Autoregressive Integrated Moving Average (SARIMA) models. Forecasts were generated for both dependent variables: average ED census levels and maximum ED census levels. Four forecast horizons were tested: 1 week, 2 weeks, 4 weeks and 8 weeks. Underestimation risks, overestimation risks and approximations to monetary costs of resource allocations policies were defined for both average and maximum ED census forecasts. Maximum ED census forecasts were transformed into nursing personnel levels, and underestimation and overestimation risks for maximum ED census forecasts were transformed into understaffing and overstaffing risks. A custom training and evaluation scheme was used, with increasingly larger train sets and fixed-length test sets. The same scheme but with fixed-length train sets of 1 year and fixed-length test sets was also used. The latter approach did not improve the results. In the case of maximum ED census forecasts, M5P was the best choice for the reduction of major and medium nursing personnel understaffing risks, for all forecast horizons. Compared to the usual staffing levels, personnel planning with M5P could reduce major understaffing (>9 nurse) risks more than 10-fold (a reduction to ~1% with M5P compared to ~13% obtained with the usual nurse staffing levels); and could reduce medium understaffing (7-9 nurses) risks approximately 3-fold (a reduction to ~3% with M5P compared to ~10% obtained with the usual staffing levels). The usage of M5P also implied 5% - 6.1% increases in estimated nursing personnel costs (compared to the usual staffing levels), which are acceptable given the large reductions in understaffing risks. In the case of average ED census forecasts, once again, M5P was the best choice for the reduction of major and medium underestimation risks, for all forecast horizons. Relative risk reductions were similar to those of maximum ED census forecasts (more than 10-fold reduction in major underestimation and approximately 3-fold reduction in medium underestimation, compared to usual resource allocation policies). However, in this case, the usual resource allocation policies already had low risks of major and medium underestimation (~2% risk of major underestimation and ~3.7% risk of medium underestimation). On the other hand, most importantly, in the case of average ED census forecasts, M5P led to a cost reduction of more than 15% compared to the usual resource allocation policies. The second topic of this Ph.D. thesis is the development of models for real-time prediction of probabilities of inpatient admission from the ED. Our aim in this case was the development of classifiers with adequate performance in terms of both discrimination and calibration (goodness-of-fit), reliant on a small number of variables, available in most ED settings right after triage. In our setting, the Manchester Triage System (MTS) was used. Discrimination was evaluated with the area under the ROC curve (AUROC). Calibration was evaluated with Hosmer-Lemeshow (H-L) χ2 and p-values with 10 fixed probability intervals. We used logistic regression (LR) models, artificial neural networks (ANN) models and models based on an ad hoc ensemble classifier that optimized calibration (it combined a LR model with a tree of MTS chief complaints with LogitBoost on its leaves). A custom method was used for the evaluation of models, with increasingly larger train sets and 12 consecutive test sets of approximately monthly length. This evaluation method produced the results that follow, reported with 95 % confidence intervals (CIs). For LR models, average AUROC = 0.8531, 95% CI (0.8501, 0.8561); for ANN models, average AUROC = 0.8568, 95% CI (0.8531, 0.8606) and for ad hoc ensemble classifier models, average AUROC = 0.8635, 95% CI (0.8605, 0.8665). Confidence intervals of average AUROCs for LR and ad hoc ensemble classifier models did not overlap. Confidence intervals of average AUROCs for LR and ANN models slightly overlapped, although ANN models had higher AUROCs than LR models in all but one of the 12 test sets. Average H-L χ2 were, respectively, 35.15, 95% CI (32.57, 37.73) for LR models, 10.47, 95% CI (7.78, 13.17) for ANN models and 11.4, 95% CI (9.10, 13.75) for ad hoc ensemble classifier models. Both ANN and ad hoc ensemble classifier models possessed better calibration than LR models, with H-L p-values>0.05 in 10 of the 12 experiments. The third topic of this Ph.D thesis is the development and evaluation of software for the generation of logistic and Cox regression nomograms. We developed two programs (nomolog and nomocox) for these purposes, based on Stata (a statistical software package widely used in biomedical research). At the time of the writing of this Ph.D. thesis these programs are used by an international community of researchers in the fields of clinical medicine, epidemiology or biostatistics. We surveyed some of these users about their background, their user experience with nomolog and nomocox, as well as the ease-of-use and flexibility of our programs compared to those available in R (another well-known statistical software). Most respondents were “Promoters” (Net Promoter Score > 8), i.e. very likely to recommend the software to other researchers. All respondents (100%) who had used both our programs (nomolog and nomocox) and nomogram generators available for the R statistical software, found nomocox and nomolog easier to use; with a 95% adjusted Wald CI (75.83%, 100%). A raw proportion of 81.25%, with a 95% adjusted Wald CI (54.03%, 96.36%) found our programs to be more flexible than the nomogram generators available for the R statistical software. RESUMEN El Sistema Nacional de Salud (SNS) español es fundamentalmente público, tanto en su financiación, como en la titularidad de los entes proveedores. El SNS español es considerado altamente eficiente en términos de costes según estudios internacionales basados en datos de la Organización Mundial de la Salud (OMS). Sin embargo, la contención del incremento de los costes sanitarios, manteniendo a la vez niveles de calidad asistencial adecuados, sigue siendo un problema de difícil solución. En los últimos años los servicios de urgencias de los hospitales de atención especializada se han visto sometidos a restricciones presupuestarias, acompañadas de un incremento simultáneo del número de visitas y de la complejidad clínica de las mismas. Estas circunstancias exigen nuevos modelos de gestión de estos servicios de urgencias, que podrían beneficiarse de sistemas de soporte a la decisión. En esta tesis doctoral se proponen soluciones basadas en algoritmos de aprendizaje automático para dos problemas comunes a la mayoría de los servicios de urgencias de hospitales de atención especializada: la predicción del censo de urgencias y la predicción en tiempo real de las probabilidades de hospitalización para todos los pacientes triados presentes en el servicio de urgencias en un determinado momento. Dichas soluciones pueden emplearse en la construcción de sistemas de soporte a la decisión. Los datos para dichos estudios fueron proporcionados por el Hospital Universitario Ramón y Cajal de Madrid, un hospital de atención especializada con todas las especialidades médicas exceptuando Obstetricia. En los años 2011 y 2012 este hospital tenía aproximadamente 1.100 camas instaladas y aproximadamente 553.000 pacientes asignados a su área clínica. Otro tema tratado en esta tesis es el desarrollo y la evaluación de herramientas software para la generación de nomogramas para modelos basados en regresión logística y en regresión de Cox, dado que los nomogramas pueden emplearse para ayudar en la toma de decisiones clínicas o en procedimientos de contingencia en caso de fallo de sistemas de soporte a la decisión basados en sistemas de información. El primer tema de esta tesis doctoral es la generación de modelos para la predicción de niveles de censo de urgencias (número de pacientes en el servicio de urgencias en un determinado instante de tiempo). Una de las aplicaciones de la predicción del censo de urgencias es la planificación del personal de enfermería, basada en recomendaciones nacionales e internacionales. Se decidió emplear una granularidad de 8 horas en las predicciones dado que numerosos recursos de los servicios de urgencias hospitalarias están organizados en turnos de 8 horas. Nuestro objetivo era generar predicciones para dos variables dependientes: niveles máximos de censo de urgencias y niveles medios de censo de urgencias. Las predicciones de niveles máximos de censo de urgencias en turnos de 8 horas pueden emplearse para la planificación de personal de enfermería, mientras que las predicciones de niveles medios de censo de urgencias en turnos de 8 horas pueden emplearse para otros fines (tales como la asignación de personal administrativo). Se construyeron modelos de series temporales basados en métodos de regresión generalizada con los siguientes algoritmos de aprendizaje automático: M5P, Alternating Model Trees (AMT) y Support Vector Regression (SVR). Estos modelos fueron comparados con una serie de modelos de referencia: dotación de personal habitual (y niveles de dotación de recursos habituales), medias estratificadas (medias estratificadas por los tres turnos diarios, de 8 horas cada uno), regresión lineal y Seasonal Autoregressive Integrated Moving Average (SARIMA). Se generaron predicciones para las dos variables dependientes: niveles medios de censo de urgencias y niveles máximos de censo de urgencias. Se probaron cuatro horizontes de predicción: 1 semana, 2 semanas, 4 semanas y 8 semanas. Se definieron riesgos de subestimación, riesgos de sobreestimación y aproximaciones a costes de políticas de asignación de recursos para las predicciones de niveles de censo medios y máximos. Las predicciones de niveles de censo máximos fueron transformadas en requisitos de personal de enfermería; y los riesgos de subestimación y sobreestimación para niveles de censo máximos fueron transformados en riesgos de subestimación y sobreestimación de personal. Se empleó un esquema propio de entrenamiento y prueba, con conjuntos de entrenamiento de tamaño creciente y conjuntos de prueba de tamaño fijo. También se empleó el mismo esquema con una variación consistente en el uso de conjuntos de entrenamiento de tamaño fijo de un año y conjuntos de prueba de longitud fija. Este último esquema no produjo una mejora de los resultados. En el caso de las predicciones de niveles máximos de censo de urgencias, M5P fue la mejor opción para la reducción del riesgo de situaciones de subestimación de severidad alta y severidad media de personal de enfermería para todos los horizontes de predicción. En comparación con los niveles habituales de personal de enfermería, el uso de M5P podría reducir los riesgos de severidad alta de subestimación de personal de enfermería (> 9 enfermeros/as) en más de 10 veces (una reducción hasta el ~ 1 % con M5P en comparación con el ~13% obtenido con los niveles habituales de personal de enfermería); y podría reducir los riesgos de subestimación de severidad media de de personal de enfermería (7-9 enfermeros/as) en aproximadamente 3 veces (una reducción hasta el ~3 % con M5P en comparación con el ~10% obtenido con los niveles habituales de personal de enfermería). El uso de M5P también implicaría incrementos de costes estimados de personal de enfermería de 5% - 6,1% en comparación con los niveles de personal habituales. Dicho incremento de costes sería aceptable dadas las grandes reducciones de riesgos de subestimación de personal de enfermería. En el caso de las predicciones de niveles medios de censo de urgencias, M5P también fue la mejor opción para la reducción de los riesgos de subestimación de severidad alta y media para todos los horizontes de predicción. Las reducciones relativas de riesgos de subestimación eran similares a las de las obtenidas sobre las predicciones de niveles máximos de censo de urgencias (reducción en más de 10 veces de los riesgos de subestimación de severidad alta y reducción en aproximadamente 3 veces de los riesgos de subestimación de severidad media, en comparación con las políticas habituales de asignación de recursos). Sin embargo, en este caso, las políticas habituales de asignación de recursos ya presentaban riesgos reducidos de subestimación de severidades alta y media (~ 2% de riesgo de subestimación de severidad alta y ~ 3,7% de riesgo de subestimación de severidad media). No obstante, en el caso de las predicciones de niveles medios de censo de urgencias, el uso de M5P conduciría también a una reducción de costes superior al 15% en comparación con las políticas habituales de asignación de recursos. El segundo tema tratado en esta tesis doctoral es el desarrollo de modelos para la predicción de probabilidades de hospitalización procedente de urgencias en tiempo real. El objetivo en este caso era desarrollar modelos predictivos basados en un número reducido de variables disponibles en la mayor parte de los servicios de urgencias de atención especializada inmediatamente después del triaje. En nuestro caso se empleaba el Sistema de Triaje Manchester (MTS). Asimismo, era fundamental diseñar clasificadores con un rendimiento adecuado en términos de discriminación y calibración. La discriminación se evaluó con áreas bajo la curva ROC (AUROC). La calibración se evaluó con χ2 y p-valores de Hosmer- Lemeshow (H-L), con 10 grupos fijos de probabilidad. Se emplearon modelos de regresión logística (RL), redes neuronales artificiales (RNA) y modelos basados en un algoritmo ad hoc que optimizaba la calibración (combinaba un modelo base de regresión logística con un árbol de motivos de consulta del MTS con modelos LogitBoost en sus ramas). Se empleó un método de evaluación propio, con conjuntos de entrenamiento de tamaño creciente y 12 conjuntos de prueba consecutivos de una longitud aproximadamente mensual. Dicho método de evaluación produjo los resultados que se indican a continuación, con intervalos de confianza (ICs) al 95 %. Para los modelos de RL, AUROC media = 0,8531, IC 95% (0,8501 , 0,8561), para los modelos de RNA, AUROC media = 0,8568, IC 95% (0,8531 , 0,8606), y para los modelos ad hoc, AUROC media = 0,8635, IC 95% (0,8605 , 0,8665). Los intervalos de confianza de AUROCs medias para modelos de RL y ad hoc no se superponían. Los intervalos de confianza de AUROCs medias para modelos de RL y modelos de RNA sí se superponían ligeramente, aunque los modelos de RNA tenían AUROCs más elevadas que los modelos de RL en los 12 conjuntos de prueba exceptuando uno. Las χ2 de H-L promedio fueron, respectivamente, 35,15 IC 95% (32,57 , 37,73) para modelos de LR, 10,47; IC 95% (7,78 , 13,17) para los modelos de RNA y 11.4, IC 95% (9,10 , 13,75) para los modelos ad hoc. Tanto los modelos de RNA como los modelos ad hoc tenían una calibración mejor que los RL, con p-valor H-L > 0.05 en 10 de los 12 experimentos. El tercer tema de esta tesis doctoral es el desarrollo y evaluación de software para la generación de nomogramas basados en modelos de regresión logística binaria y regresión de Cox. Se han desarrollado dos programas (nomolog y nomocox) basados en Stata (un paquete de software estadístico ampliamente usado en la investigación biomédica). En el momento de la redacción de esta tesis doctoral, estos programas son usados por una comunidad internacional formada por investigadores en las disciplinas de medicina clínica, epidemiología y bioestadística. Se realizó una encuesta a dicha comunidad de usuarios sobre el perfil de cada investigador, así como sobre la experiencia de usuario de los programas nomolog y nomocox. También se evaluó la facilidad de uso y la flexibilidad de estos programas en comparación con los generadores de nomogramas disponibles en el software estadístico R (un software estadístico ampliamente conocido). La mayoría de los encuestados afirmaron ser "promotores" (Net Promoter Score > 8), es decir, muy propensos a recomendar el software a otros investigadores. Todos los encuestados (100%), que habían utilizado tanto los generadores de nomogramas disponibles para el software estadístico R como los generadores de nomogramas nomolog y nomocox, indicaron que estos últimos eran más fáciles de usar, con un IC 95% de Wald ajustado (75,83% , 100%). Asimismo, una proporción del 81,25%, IC 95% de Wald ajustado (54,03% , 96,36%) afirmó que nomolog y nomocox eran más flexibles que los generadores de nomogramas disponibles para el software estadístico R.