Tesis:

Understanding Clinical Narratives in Oncological Domain


  • Autor: NAJAFABADIPOUR, Marjan

  • Título: Understanding Clinical Narratives in Oncological Domain

  • Fecha: 2020

  • Materia: Sin materia definida

  • Escuela: FACULTAD DE INFORMATICA

  • Departamentos: AEROTECNIA

  • Acceso electrónico: http://oa.upm.es/65991/

  • Director/a 1º: MENASALVAS RUÍZ, Ernestina

  • Resumen: Digital data generation has increased rapidly in 21st century with the explosion of data generated by the healthcare industry. The rate of clinical data generation is growing dramatically as the result of adaption of Electronic Health Records (EHRs) worldwide. EHRs are creating rich databases, containing a large amount of clinical data about the patient’s medical care. Transforming clinical data into knowledge for improving patient’s care has been the goal of biomedical informatics professionals for decades. However, this is still a challenging task due to the imitations of processing ability; accuracy and completeness of records; interoperability and lack of standardization; cost; security and privacy concerns; and inability to extract unstructured information in particularly, texts of EHRs. Retrieval of textual information from clinical narratives is challenging because of: (1) limitations of ontologies to cover all the medical concepts mentioned in the texts; (2) difficulty in extraction of time expressions due to the presence of various categories, formats, and styles a time expression can be written in; existence of abbreviations; mentions of ambiguous time expression; and uncertainty for interpretation of relative time expressions; and (3) complexity in identification of temporal relations because of ungrammatical nature of clinical texts, which has a distinct sub-language, ignoring several restrictions needed in grammar for mentioning temporal relations in texts. In oncological domain, especially for lung cancer disease, which has higher prevalence and mortality rate worldwide, the exploitation of data stored in EHRs can lead to better understanding of the treatment responses and outcomes. However, the treatment of lung cancer does not only depend on the current condition of a patient, but also on his/her past medical history. Therefore, it is very helpful for clinicians to have a complete knowledge of the patient’s natural history, which includes the disease and its progression over time. The process of reconstructing a patient’s natural history from EHRs requires the identification of several key elements, like medical concepts, time expressions, and temporal relations. Motivated by all these challenges, this Thesis focuses on the analysis of textual information written in Spanish EHRs with the ultimate goal of reconstructing the patient’s natural history. Therefore, the main contributions of the Thesis are: (1) development of specific rule-based Natural Language Processing (NLP) annotators for extracting lung cancer concepts. These annotators identify tumor mutation status related to the patient’s disease diagnosis, the various tumor stage codes written in laboratory test results and performance status concepts, which are used for determining the severity of patient’s disease; (2) creation of a rule-based Temporal Tagger for recognition and normalization of time expressions from free texts. The performance of the temporal tagger is compared against the Spanish versions of SUTime and HeidelTime; and (3) building a Temporal Reasoning System for finding temporal relations between medical concepts and date expressions mentioned at sentence, section and document level. The Temporal Reasoning system implements a set of heuristic rules and dependency parsing technique and its performance is compared with the Spanish version of TIPSem. Finally, this Thesis presents the validation of the proposed NLP modules in a real case study in which more than 200,000 clinical notes of patients, who were diagnosed with lung cancer are analyzed. ----------RESUMEN---------- La generación de datos digitales ha aumentado rápidamente en el siglo XXI con la explosión de datos generados por la industria de la salud. La generación de datos está creciendo dramáticamente como resultado de la inserción de la historia clínica digital (HCE). La HCE está generando bases de datos enriquecidas, que contienen una gran cantidad de datos clínicos sobre la atención médica del paciente. Transformar los datos clínicos de la HCE en conocimiento para mejorar la atención del paciente ha sido el objetivo de los profesionales de la informática biomédica durante décadas. Sin embargo, esto sigue siendo una tarea desafiante debido entre otros a: i) la imitación de la capacidad de procesamiento; ii) exactitud e integridad de los registros; iii) interoperabilidad y falta de estandarización; iii) coste; iv) temas relacionados con la seguridad y privacidad; y v) por la incapacidad para extraer información de los datos no estructurados en particular los datos en lenguaje natural que contiene la HCE. La recuperación de información textual de narrativas clínicas es una tarea difícil debido en primer lugar a la limitación de las ontologías y diccionarios para cubrir todos los conceptos médicos que se pueden mencionar en las notas clínicas. En segundo lugar, la extracción de expresiones de tiempo almacenadas en la HCE también es un reto debido a la presencia de varias categorías, formatos y estilos cuando expresamos expresiones temporales en lenguaje natural. Por otra parte, la existencia de abreviaturas; menciones de expresión temporal ambiguas generan incertidumbre para la interpretación de expresiones de tiempo en lenguaje natural. Por último, la manera en la que están escritas las notas clínicas con estructuras gramaticales que a menudo no son las tradicionales complica la interpretación de las expresiones de tiempo en textos médicos. En el dominio oncológico, y en particular si nos referimos al cáncer de pulmón, que es el que tiene mayor tasa de prevalencia y mortalidad en todo el mundo, la explotación de los datos almacenados en los HCE podría conducir a una mejor comprensión de la enfermedad y a proporcionar respuestas sobre el tratamiento y sus resultados. Sin embargo, el tratamiento del cáncer de pulmón no solo depende de la condición actual de un paciente, sino de todo su historial médico anterior. Por lo tanto, es muy útil para los médicos tener un conocimiento completo de la historia natural del paciente, que incluye desde antes del diagnóstico de la enfermedad así como, su progresión. El proceso de reconstruir la historia natural de un paciente a partir de la HCE requiere de la identificación de varios elementos clave, como conceptos médicos, expresiones de tiempo y relaciones temporales entre los conceptos encontrados. Motivados por todos estos desafíos, esta tesis se enfoca en el análisis de información textual en español de la HCE con el objetivo final de reconstruir la historia natural del paciente oncológico. Por tanto, en esta Tesis proponemos un conjunto de anotadores de procesamiento de lenguaje natural (NLP) basados en reglas para extraer conceptos de cáncer de pulmón. En particular: estadio, mutaciones, Performance Status. Por otra parte, se desarrolla un anotador temporal basado en reglas para el reconocimiento y normalización de expresiones temporales. Para terminar se presenta un sistema de razonamiento temporal para encontrar relaciones temporales entre conceptos médicos y las expresiones temporales mediante la implementación de reglas heurísticas y técnicas de análisis de dependencias. La tesis presenta la validación de los módulos presentados en un caso de estudio real en el que se analizan más de 200,000 notas de pacientes que han sido diagnosticados con cáncer de pulmón.