Tesis:
Applying deep semantics to the representation of clinical data to improve machine usability
- Autor: ALARCÓN MORENO, Pablo
- Título: Applying deep semantics to the representation of clinical data to improve machine usability
- Fecha: 2024
- Materia:
- Escuela: E.T.S. DE INGENIERÍA AGRONÓMICA, ALIMENTARIA Y DE BIOSISTEMAS
- Departamentos: BIOTECNOLOGIA-BIOLOGIA VEGETAL
- Acceso electrónico: https://oa.upm.es/83239/
- Director/a 1º: WILKINSON, Mark D.
- Resumen: In the healthcare domain, particularly within the rare disease community, there is a notable increase in the volume and variety of clinical information. Recent activities and efforts coming from the European Joint Programme on Rare Diseases (EJP-RD) aim to address this challenge by the use of Linked Data and Semantic Web technologies that enable descriptions of data in a machine-interpretable manner. Adhering to the FAIR data principles (Findable, Accessible, Interoperable, and Reusable), the objective of this thesis is to use this large-scale ongoing initiative to test the validity of the claim that FAIR data and semantic technologies lead to increased interoperability and machine-actionability.
In an attempt to harmonize the data landscape among the EJP-RD partners, a process of data modelling was undertaken, starting from a defined set of common data elements enumerated by the European Platform on Rare Disease (EU RD) Platform, and expanding that model with more data elements identified in European Rare Disease patient registries. This effort led to the creation of the Common Data Elements Semantic Model (CDE-SM) along with a set of Semantic Web services for data pre-evaluation and transformation, utilizing YARRRML and CSV templates.
Preliminary studies and experiments concerning data interoperability were done by integrating the CDE-SM with other standardized data models present in the healthcare community, such as Biolink Model and C-PATH. By leveraging the Biolink model to bridge between CDE-SM and the C-PATH data models, common SPARQL queries were formulated to identify and query shared structures across both models, increasing schema harmonization at the data querying level to a limited extent.
The semantic data model was extended to cover a wider range of data types, and was renamed to the Clinical and Registry Entries Semantic Model (CARE-SM). Consistency between data elements representations allowed several implementation improvements, including simplified data transformation, improved data discoverability, and deployment of a Beacon API service, enabling anonymous, federated querying and aggregation of patient data. Additionally, these improvements facilitated the conversion of data represented using the CARE-SM model to data compliant with the OMOP-CDM through the creation of a schema mapping between these data models and the implementation of an Extract, Transform, Load (ETL) workflow.
This thesis demonstrates the successful interoperability by implementing CARE-SM through the deployment of the Beacon API. This success is attributed to the use of a common structure and shared vocabularies, facilitating interoperability. However, our experiments revealed that the creation of a FAIR data model did not significantly enhance interoperability with other standards. The primary advantages of CDE-SM and CARE-SM lie in their structural consistency, showing how FAIR data is necessary but not sufficient for achieving interoperability.
RESUMEN
En el ámbito de la salud, particularmente dentro de la comunidad de enfermedades raras, hay un notable aumento en el volumen y la variedad de información clínica. Las actividades y esfuerzos recientes provenientes del European Joint Programme on Rare Diseases (EJP-RD) tienen como objetivo abordar este desafío mediante el uso de Datos Enlazados y tecnologías de la Web Semántica que permiten la descripción de datos de manera interpretable por máquinas. Adhiriéndose a los principios de datos FAIR (Findable, Accessible, Interoperable, and Reusable), el objetivo de esta tesis es utilizar esta iniciativa en curso a gran escala para probar la validez de la afirmación de que los datos FAIR y las tecnologías semánticas conducen a una mayor interoperabilidad y capacidad de acción por parte de las máquinas.
En un intento por armonizar el panorama de datos entre los socios del EJP-RD, se llevó a cabo un proceso de modelado de datos, comenzando con un conjunto de elementos de datos comunes enumerados por la Plataforma Europea sobre Enfermedades Raras (EU RD Platform) y ampliando ese modelo con más elementos de datos, identificados en los registros de pacientes con enfermedades raras de Europa. Este esfuerzo llevó a la creación del Modelo Semántico de Elementos de Datos Comunes (CDE-SM, por sus siglas en inglés), junto con un conjunto de servicios de la Web Semántica para la pre-evaluación y transformación de datos, utilizando plantillas YARRRML y CSV.
Se realizaron estudios y experimentos preliminares sobre la interoperabilidad de datos integrando el CDE-SM con otros modelos de datos estandarizados presentes en la comunidad de salud, como el Modelo Biolink y C-PATH. Al aprovechar el modelo Biolink para crear un puente entre CDE-SM y el modelo de datos C-PATH, se formularon consultas SPARQL comunes para identificar y consultar estructuras compartidas entre ambos modelos, aumentando la armonización del esquema a nivel de consulta de datos en cierta medida.
El modelo de datos semánticos se extendió para cubrir una gama más amplia de tipos de datos y se renombró como Modelo Semántico de Entradas de Registros Clínicos (CARE-SM, por sus siglas en inglés). La consistencia entre las representaciones de los elementos de datos permitió varias mejoras en la implementación, incluyendo la simplificación de la transformación de datos, la mejora del descubrimiento de datos y el despliegue de un servicio API Beacon, que permite la consulta federada anónima y la agregación de datos de pacientes. Además, estas mejoras facilitaron la conversión de datos representados utilizando el modelo CARE-SM a datos compatibles con OMOP-CDM mediante la creación de un mapeo de esquemas entre estos modelos de datos y la implementación de un flujo de trabajo de Extracción, Transformación y Carga (ETL).
Esta tesis demuestra la interoperabilidad exitosa mediante la implementación de CARE-SM a través del despliegue de la API Beacon. Este éxito se atribuye al uso de una estructura común y vocabularios compartidos, facilitando la interoperabilidad. Sin embargo, nuestros experimentos revelaron que la creación de un modelo de datos FAIR no mejoró significativamente la interoperabilidad con otros estándares. Las principales ventajas de CDE-SM y CARE-SM radican en su consistencia estructural, demostrando cómo los datos FAIR son necesarios, pero no suficientes para lograr la interoperabilidad.