Tesis:

Artificial intelligence for data-driven decision support systems in clinical cancer research: implementation guidelines


  • Autor: LÓPEZ PÉREZ, Laura

  • Título: Artificial intelligence for data-driven decision support systems in clinical cancer research: implementation guidelines

  • Fecha: 2022

  • Materia: Sin materia definida

  • Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

  • Departamentos: TECNOLOGIA FOTONICA Y BIOINGENIERIA

  • Acceso electrónico: https://oa.upm.es/70347/

  • Director/a 1º: FICO, Giuseppe

  • Resumen: El cáncer es la principal causa de mortalidad en el mundo y uno de los principales obstáculos para conseguir una esperanza de vida razonable. Los retos actuales en la adopción adecuada de la inteligencia artificial (IA) y la gestión de datos heterogéneos, complejos y masivos, dificultan el traslado de los resultados en investigación a la práctica clinica. Esta tesis tiene como objetivo abordar estos retos desarrollando un conjunto de guías para implementar IA en sistemas de ayuda a la decisión basados en datos para la investigación clínica del cáncer. La metodología y resultados de este trabajo se han dividido en tres fases: 1) comprender las necesidades de investigación del cáncer, 2) establecer las guías de implementación y 3) verificar las guías. En la primera fase, se llevó a cabo una investigación sistemática para comprender las necesidades actuales y las características que tienen las investigaciones en cáncer en la actualidad, realizando una revisión rápida de literatura, una encuesta a expertos en el campo, y una revisión sistemática. Treinta publicaciones científicas fueron analizadas en la primera revisión de literatura, a la encuesta respondieron 37 participantes de nueve países y 250 estudios resultaron elegibles en la revisión sistemática de la literatura. Las principales necesidades identificadas fueron acceder a datos interoperables y de calidad, tener herramientas usables y accesibles para poder gestionarlos, promover y acelerar la generación de conocimiento, de forma compartida, la evaluación de la evidencia generada, y la usabilidad y fácil interpretación de los resultados para investigadores clínicos. Según la revisión sistemática, la mayoría de los estudios sobre cáncer necesitan gestionar conjuntos de datos heterogéneos, combinando datos clinicopatológicos y sociodemográficos con datos de imágenes y, más recientemente, con datos ómicos. En concreto, el 55,2 % de los estudios publicados utilizan una combinación de tipos de datos, y el 81,6 % no menciona ningún procedimiento de control de calidad realizado en el conjunto de datos utilizado. En este contexto, el uso de técnicas de aprendizaje automático para explotar de manera eficiente dichos conjuntos de datos está aumentando lentamente, pero aún está lejos de ser ampliamente adoptado. La mayoría de los estudios analizados (los retrospectivos fueron los más recurrentes (31,6%)) han involucrado a médicos para la interpretabilidad clínica de los resultados, lo que indica que en la actualidad se estén realizando trabajos colaborativos. Además, los resultados de la revisión sistemática sugieren que se necesita más trabajo para formalizar la generación, el intercambio y la entrega de evidencia. En la segunda fase, para establecer y verificar las guías de implementación, se utilizó la metodología CeHRes, un marco holístico y basado en evidencia para el desarrollo de tecnologías de eSalud. Los resultados de la primera fase fueron re-elaborados en la fase de investigación contextual del CeHRes, analizando, mapeando y modelando las guias de reporte existentes para investicación clínica. Asimismo, se examinó el proceso de desarrollo de guías clínicas para entender como los resultados en investigación son usados para generar evidencia y ser usados en entornos clínicos. Por último, se realizaron una serie de entrevistas con varios profesionales para reunir diferentes perspectivas de la situación. Durante esta fase se identificaron ocho usuarios potenciales: pacientes y organizaciones de pacientes; expertos en TI de hospitales; desarrolladores de tecnologías de eSalud; organismos reguladores y de evaluación de tecnologías sanitarias y expertos legales; legisladores y expertos en guías clínicas; directores y administradores de hospitales; investigadores no clínicos; y profesionales de la salud, que son los usuarios finales de los sistemas de ayuda a la decisión. La fase de investigación contextual permitió identificar necesidades y brechas en tres áreas principales: gestión de datos, gestión del conocimiento y gestión de visualización. Los procedimientos en gestión de datos deben garantizar la recopilación de datos accesibles e interoperables de alta calidad para evitar inducir errores relacionados con los datos en la toma de decisiones guiada por IA. Del mismo modo, los procesos de integración, armonización y uso compartido de datos deben manejar conjuntos de datos heterogéneos de forma fluida. Desde la perspectiva de la gestión del conocimiento, el procesamiento de datos de distintas instituciones y recursos accesibles aún son necesarios para respaldar el análisis sistémico y la toma de decisiones multidisciplinaria. La generación y transferencia eficiente de conocimiento basado en evidencia es fundamental para entregar adecuadamente los resultados de la investigación del cáncer en entornos clínicos. Finalmente, con respecto a la gestión de visualización, los médicos buscan tener herramientas de fácil uso para la recogida, acceso y visualización de datos, que respalden la ejecución de modelos confiables de IA y guíen la evaluación de evidencia y la toma de decisiones de forma colaborativa. En vista de estas necesidades, se identificó un conjunto de seis valores fundamentales que se tradujeron en requisitos específicos, concretamente: fácil acceso y gestión de datos, generación basada en evidencia, mejora de la investigación de calidad, fomento de la IA, ética y empoderamiento de los médicos. A partir de estos, se formularon cuarenta requisitos específicos siguiendo la plantilla de especificación de requisitos de Volere. Ocho requisitos formalizaron los problemas de salud de gestión de datos, trece requisitos se produjeron para indicar qué características debe cubrir el sistema para mejorar la gestión del conocimiento, y diecisiete requisitos detallaron las características del sistema desde la perspectiva de la visualización. Finalmente, se incluyeron dos requisitos transversales para considerar las reglas y regulaciones existentes sobre IA en el cuidado de la salud y la governanza, privacidad y seguridad de los datos. Las guías de implementación de IA para sistemas de ayuda a la decisión basados en datos para la investigación clínica del cáncer se desarrollaron a partir de estos requisitos. Las guías siguen un enfoque de tres capas. Cada capa está formada por diferentes componentes que incluyen su propio conjunto de instrucciones. En primer lugar, la capa de datos guía la implementación de soluciones de gestión de datos que permiten el acceso, la estandarización y el modelado de datos eficientes, y también respalda la identificación de diferentes fuentes de datos. Seguidamente, las pautas de la capa de conocimiento respaldan el desarrollo del procesamiento de datos, la generación y el intercambio de conocimientos, la creación y evaluación de evidencia, y los flujos de trabajo para la toma de decisiones que aprovechan las capacidades de la IA. Finalmente, la capa de visualización guía la provisión de una interfaz fácil de usar para seguir flujos de trabajo y procedimientos estándares para la gestión de la investigación clínica. Además, las pautas incluyen consideraciones transversales para cumplir con las regulaciones de datos y de IA. En la tercera y última fase, las guías de implementación generadas se han verificado en un caso de estudio retrospectivo a través de un método mixto: observación participativa y evaluación de la experiencia del usuario de una prueba de concepto del sistema. El caso de estudio ha servido para demonstrar que el uso de las guías de implementación puede producir resultados alentadores, como la creación de la base de datos más grande y de calidad para cáncer de cabeza y cuello y un modelo de datos común formalizado en una ontología. Del mismo modeo, también se verificó que al no seguirse estrictamente las guías, y desde el principio, se pueden perder elementos potenciales, como la implementación del análisis ciego o el proceso de evaluación de la evidencia. Además, la IA confiable puede respaldar una mejor aceptación por parte de los médicos de la IA en un sistema basado en datos para la investigación clínica del cáncer. Durante el estudio, se descubrió que permitir la evaluación de la validación general del estudio es crucial para comprender la relevancia de los resultados obtenidos. Además, los expertos que evaluaron el caso estudiado destacaron la importancia de ofrecer tecnologías de eSalud que integren modelos computacionales para ayudar a los médicos en el proceso de toma de decisiones. Se considera y concluye que el trabajo de investigación realizado en esta tesis pueda contribuir a mejorar los flujos de trabajo de gestión en la investigación clínica del cáncer. Se espera que las guías propuestas sirvan como referencia para la implementación futura de sistemas de ayuda a la decisión basados en datos y en IA para la investigación clínica del cáncer. Dichos sistemas desempeñarán un papel clave en la reducción de la carga de esta compleja enfermedad y en la mejora de la calidad de vida de los pacientes. En este sentido, las directrices de implementación formarán parte de la propuesta de la nueva ISO/DTS 9491:2022 entregada por el proyecto EU-STANDS4PM. ----------ABSTRACT---------- Cancer is the leading cause of mortality and one of the major obstacles to a reasonable life expectancy worldwide. Current challenges in clinical cancer research (e.g., adoption of artificial intelligence (AI) or heterogeneous data management) difficult the translation of research results into clinical practice. This thesis aims to address these challenges by developing a set of guidelines for the implementation of AI for data-driven Decision Support Systems (DSS) in clinical cancer research. The methodology and results of this work have been organised in three phases: 1) understanding cancer research needs, 2) establishing the implementation guidelines and 3) verifying the guidelines. In the first phase, a systematic research was performed to understand the current needs, gaps and characteristics of clinical cancer research. To do so, a rapid literature review, a survey targeting expert professionals in the field, and a systematic review were conducted: 30 scientific publications were assessed in the first review, 37 survey answers were received from nine countries, and 250 eligible studies resulted from the literature review. The primary needs identified were accessing quality and interoperable data, having usable and accessible tools to manage them, promoting and accelerating the generation of knowledge in a shared way, the evaluation of the evidence generated, and the usability and easy interpretation of the results for clinical users. According to the systematic review, most cancer studies need to handle heterogeneous datasets, by combining clinicopathological and sociodemographic data with imaging data, and more recently, with omics. Specifically, 55.2% of the published studies use a combination of data types, while the 81.6% do not mention any quality control procedures performed on the dataset used. In this context, the use of machine learning techniques to efficiently exploit such datasets is slowly increasing, but still far from being widely adopted by the community. Most of the studies analysed (retrospective were the most recurrent (31.6%)) have involved physicians for the clinical interpretability of the results, which means that collaborative work is being conducted today. In addition, review outcomes suggest that further work is needed to formalise evidence generation, sharing and delivery. In the second phase, to establish and verify the guidelines, the CeHRes roadmap was used, an evidence-based and holistic framework for eHealth technologies development. The findings of the previous phase were re-elaborated in the CeHRes' contextual inquiry phase, by analyzing, mapping and modelling the existing reporting guidelines for clinical research. Likewise, the process of developing clinical guidelines was examined to understand how the research outcomes are exploited to generate evidence in clinical settings. Finally, a series of interviews and focus groups were conducted to gather first-hand insights from professionals in the field. Eight different stakeholders were identified during this phase: patients and patient organizations; hospital IT experts; producers of eHealth technologies; regulatory and health technology assessment bodies and legal experts; policymakers and guideline experts; hospital managers and administrations; non-clinical researchers; and healthcare professionals, who are the end-users of decision support systems. The contextual inquiry phase allowed for identifying needs and gaps in three major areas: data management, knowledge management and presentation management. Data management procedures should ensure accessible and interoperable high-quality data collection to avoid inducing data-related errors in AI-guided decision making. Similarly, data integration, harmonisation and sharing processes need to handle heterogeneous datasets seamlessly. From the knowledge management perspective, multisite data processing and usable resources are still required to support systemic analysis and multidisciplinary decision-making. Efficient evidence-based knowledge generation and transfer are critical for adequately delivering cancer research outcomes into clinical settings. Finally, regarding presentation management, physicians seek to have user-friendly data collection, access and visualisation tools, supporting the execution of trustable AI models and guiding evidence assessment and collaborative decision-making. In view of these needs, a set of six core values were identified and translated into specific requirements, namely: easy data access and management, evidence generation, enhancing quality research, promoting AI, ethics, and empowering physicians. From these, forty specific requirements were formulated following the Volere Requirements Specification template. Eight requirements formalised the data management healthcare problems, thirteen requirements were produced to indicate what features the system should cover to improve knowledge management, and seventeen requirements detailed the system's characteristics from the presentation perspective. Finally, two transversal requirements were included to consider existing rules and regulations on AI in healthcare and data governance, privacy and security. The implementation guidelines for AI for data-driven DSS in clinical cancer research were developed from these requirements. The guidelines follow a three-layer approach. Each layer is formed of different components that include their own set of instructions. First, the data layer guides the implementation of data management solutions enabling efficient data access, standardisation and modelling, also supporting the identification of different data sources. Then, the knowledge layer guidelines support the development of data processing, knowledge generation and sharing, evidence creation and assessment, and decision-making pipelines and workflows exploiting AI capabilities. Finally, the presentation layer guides the provision of a user-friendly interface to follow standard workflows and procedures for managing clinical research. Moreover, the guidelines include cross-cutting considerations to comply with data and AI regulations. In the third and last phase, the resulting implementation guidelines have been verified in a retrospective case study through a mixed-method: participatory observation and user experience assessment of a proof of concept system. The case study demonstrated that using the guidelines can produce encouraging results, such as the creation of the largest well-curated database for HNC and a common HNC data model formalized in the HNC ontology. Moreover, it was also verified that when not following the guidelines strictly, and from the beginning, potential components could be lost, such as the implementation of blind analysis or the evidence assessment process. Also, trustable AI may support physicians' better acceptance of AI for data-driven DSS in clinical cancer research. During the study, it was discovered that enabling the assessment of the overall study validation is crucial to understanding the relevance of the outcomes achieved. Besides, experts assessing the case studied highlighted the importance of delivering eHealth technologies integrating computer models to assist physicians in the decision-making process. In conclusion, the research work carried out in this thesis contributes to improving the data management processes and workflows in clinical cancer research. The proposed guidelines are expected to serve as a reference for the future implementation of AI-powered, data-driven DSS in clinical cancer research. Such systems will play a key role in reducing the burden of this complex disease and improving the patients' quality of life. In this respect, the implementation guidelines will be part of the new proposed ISO/DTS 9491:2022 delivered by the EU-STANDS4PM project.