Tesis Doctorales UPM: Consulta online

Autor: SOLARTE PABÓN, Oswaldo

Título: Exploitation of Clinical notes of Cancer Patients for Knowledge Extraction using Intelligent Data Analysis Techniques

Fecha: 2022

Materia: ---

Escuela: E.T.S DE INGENIEROS INFORMÁTICOS

Departamento: LENGUAJES Y SISTEMAS INFORMATICOS E INGENIERIA DE SOFTWARE

Acceso electrónico: https://oa.upm.es/72262/

Director/a(s):

Director/a: MENASALVAS RUIZ, Ernestina

Resumen: The wide adoption of electronic health records (EHR) provides a potential information resource to enhance clinical decision-making. In the cancer domain, the oncology care process generates a huge amount of information about the evolution of the patients. Physicians register this information using clinical notes written in narrative form. Mining this information is crucial to support oncology research, designing treatment plans, and improving patient outcomes. However, extracting this information is a challenge due to the complexity of natural language. One of the first challenges in extracting information in the cancer domain is performing named entity recognition (NER). The cancer domain is a complex and specialized medical field that requires the extraction of detailed information recorded in clinical narratives. Another challenge in medical information extraction is that clinical narratives frequently contain uncertain and negated findings. Therefore, detecting negation and uncertainty is crucial for medical text mining applications because extracted medical findings can be incorrectly identified as real or factual events. The natural language processing (NLP) community has paid considerable attention to information extraction in the clinical domain. However, most studies have focused on the English language, while information extraction represents its own challenges in languages other than English. This thesis addresses the information extraction challenges described above, focusing on the Spanish language. Specifically, this thesis proposes computational methods to perform named entity recognition (NER) in the cancer domain and to detect negation and uncertainty in clinical texts. Moreover, we used the proposed methods for extracting automatically the cancer diagnosis from clinical narratives. Obtaining an accurate cancer diagnosis requires both extracting named entities and detecting negation and uncertainty. Obtained results showed that the proposed methods in this thesis are feasible for extracting and structuring information from clinical narratives. RESUMEN La amplia adopción de registros electrónicos de salud (EHR) proporciona una fuente potencial de información para mejorar la toma de decisiones clínicas. En el dominio del cáncer, el proceso de atención oncológica genera una gran cantidad de información sobre la evolución de los pacientes. Los médicos registran esta información mediante notas clínicas escritas en forma narrativa. La extracción de esta información es crucial para respaldar la investigación oncológica, diseñar planes de tratamiento y mejorar los resultados de los pacientes. Sin embargo, extraer esta información es un desafío debido a la complejidad del lenguaje natural. Uno de los primeros desafíos en la extracción de información en el dominio del cáncer es realizar el reconocimiento de entidades nombradas (NER). El dominio del cáncer es un campo médico complejo y especializado que requiere la extracción de información detallada registrada en notas clínicas. Otro desafío en la extracción de información médica es que las narrativas clínicas frecuentemente contienen hallazgos inciertos y negados. Por lo tanto, detectar la negación y la incertidumbre es crucial para las aplicaciones de minería de textos médicos porque los hallazgos médicos extraídos pueden identificarse incorrectamente como eventos reales o fácticos. La comunidad de procesamiento del lenguaje natural (NLP) ha prestado una atención considerable a la extracción de información en el dominio clínico. Sin embargo, la mayoría de los estudios se han centrado en el idioma inglés, mientras que la extracción de información representa sus propios desafíos en otros idiomas. Esta tesis aborda los desafíos anteriores relacionados con la extracción de información clínica centrándose en el idioma español. La tesis propone nuevos métodos computacionales para realizar el reconocimiento de entidades nombradas (NER) en el campo del cáncer y para detectar la negación y la incertidumbre en textos clínicos. Además, utilizamos los métodos propuestos para extraer automáticamente el diagnóstico de cáncer de las narrativas clínicas. Obtener un diagnóstico de cáncer preciso requiere tanto la extracción de entidades nombradas como la detección de la negación y la incertidumbre. Los resultados obtenidos mostraron que los métodos propuestos en esta tesis son factibles para extraer y estructurar información de narrativas clínicas.