Real World Data Integration from Multiple Temporal and Geographical Sources for Clinical Research

<< Volver atrás

Tesis:

Real World Data Integration from Multiple Temporal and Geographical Sources for Clinical Research

Autor: HERNÁNDEZ IBARBURU, Gema

Título: Real World Data Integration from Multiple Temporal and Geographical Sources for Clinical Research

Fecha: 2024

Materia:

Escuela: E.T.S DE INGENIEROS INFORMÁTICOS

Departamentos: INTELIGENCIA ARTIFICIAL

Acceso electrónico: https://oa.upm.es/80537/

Director/a 1º: PÉREZ DEL REY, David

Resumen: Structured data from Electronic Health Records (EHR), generated in hospitals during healthcare activities, have enormous exploitable potential for research. Despite the growing trend in the adoption of standards that allow data from diverse origins to be analyzed altogether, linking data from different geographical and temporal origins that have been recorded with different standards remains a big challenge. The lack of harmonization of these standards is a problem that typically arises when aiming to use a collection of sets of data from different periods of time and geographical locations. This challenge has been addressed for billing and administrative purposes, but it remains to find a solution to make the data useful for clinical evidence generation on a large scale. COVID-19 pandemic has highlighted the importance of being able to generate medical knowledge about new diseases and medical treatments in a fast and reliable manner. Being able to integrate data sources from the same domain encoded in different standard terminologies would allow a larger scale analysis, leading to less biased results and more accurate conclusions. Due to the different needs of each region, it is not feasible to convince all stakeholders to adopt the same data models, standards and terminologies. Furthermore, migrating legacy data to modern terminologies with resources built for purposes other than research leads to an unreliable interpretation of study results.Therefore, this work defends that, with a semi-automatic approach, the harmonization of data encoded with different terminologies is possible to analyze it with the goal of generating scientific clinical evidence. Although the proposed methodology could be applied to other clinical data types, in this work we have focused on the medical domains of diagnoses and clinical procedures since they include data that is essential for research and is mostly stored in the EHR. In the areas of diagnoses and procedures, methodologies for integrating data encoded with ICD-9-CM with the terminologies ICD-10-CM and ICD-10-PCS are presented. Although there have been several attempts to solve this integration, none of the existing mappings is able to avoid some loss of information (i.e., part of the semantic meaning of a concept is not preserved when transitioning to another coding system) or increased noise (i.e., semantic information that is not present in a concept is added when transitioning to another coding system). While these two phenomena may be acceptable for medical practice, administration or billing tasks, this is not the case in research, as they can lead to erroneous analysis conclusions. A semi-automatic methodology is proposed for each domain to integrate past data encoded in legacy terminologies with the terminologies in current use. Unlike other solutions, this methodology is thought to be used in the context of research. It ensures that no unknown information is added to the data and enables data analysis using the inherent aggregation principles of modern medical terminologies. Using the General Equivalence Mappings (GEMs) of the Centers for Medicare as a baseline for comparison, the results show an increase of 14.98% (from 78.48% to 93.46%) of one-to-one mappings for ICD-9-CM codes for diagnoses and 74.67% (from 10.18% to 84.85%) of ICD-9-CM procedures can be integrated automatically, with the rest requiring a revision. In conclusion, diagnoses and procedures data from EHRs that originated in different geographic regions and time periods can be integrated together for research purposes through semi-automatic mappings and the extension of existing terminologies. This integration maximizes the clinical information of research interest that can be mapped and minimizes the inaccuracies introduced in the process, making it valid for its use in research. The methodology proposed in this thesis has enabled analysis of the impact of COVID-19 in patients with multiple myeloma, with data coming from several US and EMEA hospitals, and the analysis of the outcomes and patterns of chronic myeloid leukemia in the last 20 years. RESUMEN Los datos estructurados de la Historia Clínica Electrónica (HCE), generados en los hospitales durante la actividad asistencial, tienen un enorme potencial para su uso en investigación. A pesar de la tendencia creciente en la adopción de estándares que permiten analizar en conjunto datos de diversos orígenes, aún persiste el desafío de vincular datos de diferentes orígenes geográficos y temporales que han sido registrados con diferentes estándares. La falta de armonización de estos estándares es un problema que suele surgir cuando se utiliza una colección de conjuntos de datos provenientes de diferentes períodos de tiempo y localizaciones geográficas. Este desafío se ha abordado para fines administrativos y de facturación, pero queda por encontrar una solución para que los datos sean útiles para la generación de evidencia clínica a gran escala. La pandemia de COVID-19 ha puesto de manifiesto la importancia de poder generar conocimiento médico sobre nuevas enfermedades y tratamientos médicos de forma rápida y fiable. Ser capaz de integrar fuentes de datos del mismo dominio codificados en diferentes terminologías estándar permitiría un análisis a mayor escala, lo que conduciría a resultados menos sesgados y conclusiones más precisas. Debido a las diferentes necesidades de cada región, no es factible convencer a todas las partes interesadas para que adopten los mismos modelos de datos, estándares y terminologías. Además, migrar datos codificados en terminologías antiguas a las más modernas con mecanismos creados para propósitos distintos a la investigación lleva a una interpretación poco fiable de los resultados de estudios usando esos datos. Por lo tanto, este trabajo defiende que, con un enfoque semiautomático, es posible la armonización de datos codificados con diferentes terminologías para analizarlos con el objetivo de generar evidencia clínica científica. Se describe una propuesta detallada de dicho algoritmo. Aunque la metodología propuesta se puede aplicar a otros dominios de datos clínicos, este trabajo está enfocado en los dominios médicos de diagnósticos y procedimientos clínicos, ya que incluyen datos que son esenciales para la investigación y se almacenan principalmente en el EHR. En las áreas de diagnósticos y procedimientos médicos, se presentan metodologías para integrar datos codificados con ICD-9-CM con las terminologías ICD-10-CM e ICD-10-PCS. Aunque ha habido varios intentos de resolver esta integración, ninguno de los mapeos existentes es capaz de evitar alguna pérdida de información (es decir, parte del significado semántico de un concepto no se conserva cuando se pasa a otro sistema de codificación) o un aumento del ruido (es decir, la información semántica que no está presente en un concepto se agrega al pasar a otro sistema de codificación). Si bien estos dos fenómenos pueden ser aceptables para la práctica médica, tareas administrativas o de facturación, no es así en la investigación, ya que pueden llevar a conclusiones de análisis erróneas. Se propone una metodología semiautomática aplicada a cada dominio para integrar datos pasados codificados en terminologías obsoletas con las terminologías de uso actual. A diferencia de otras soluciones, esta metodología está pensada para usarse en el contexto de la investigación. Garantiza que no se agregue información desconocida a los datos y permite el análisis de datos utilizando los principios de agregación inherentes de las terminologías médicas modernas. Usando los "General Equivalence Mappings" (GEMs) de Centers for Medicare como base de comparación, los resultados muestran un aumento del 14,98% (de 78,48% a 93,46%) de mapeos uno a uno para códigos ICD-9-CM para diagnósticos y 74,67% (de 10,18% a 84,85%) de procedimientos ICD-9-CM pueden integrarse automáticamente, y el resto requiere una revisión. En conclusión, los datos de diagnósticos, procedimientos y medicamentos de EHR originados en diferentes regiones geográficas y períodos de tiempo pueden integrarse con fines de investigación a través de mapeos semiautomáticos y extensión de terminologías existentes. Esta integración maximiza la información clínica de interés para la investigación que se puede mapear y minimiza las incorrecciones introducidas en el proceso haciéndola válida para su uso en investigación. La metodología propuesta en este trabajo ha permitido el análisis del impacto de la COVID-19 en pacientes con mieloma múltiple, con datos provenientes de varios hospitales de EE. UU. y EMEA, así como el análisis de los resultados y patrones de la leucemia mieloide crónica en los últimos 20 años.