Tesis:
Caracterización de enfermedades basada en su información fenotípica recuperada mediante la extracción de conocimiento biomédico de fuentes de información públicas
- Autor: LAGUNES GARCÍA, Gerardo
- Título: Caracterización de enfermedades basada en su información fenotípica recuperada mediante la extracción de conocimiento biomédico de fuentes de información públicas
- Fecha: 2020
- Materia: Sin materia definida
- Escuela: E.T.S DE INGENIEROS INFORMÁTICOS
- Departamentos: LENGUAJES Y SISTEMAS INFORMATICOS E INGENIERIA DE SOFTWARE
- Acceso electrónico: http://oa.upm.es/64801/
- Director/a 1º: RODRÍGUEZ GONZÁLEZ, Alejandro
- Resumen: El conocimiento diagnóstico es el primer elemento básico que se utiliza para descartar o identificar una enfermedad. Y estudiar enfermedades es una tarea compleja pero que es necesaria para mejorar la salud de la población mundial. Y para ello es importante tener información diagnóstica de calidad al alcance. La pandemia del Coronavirus entre finales de 2019 y principios de 2020 es un claro ejemplo del problema que supone a la humanidad no tener conocimientos sólidos sobre una enfermedad. El presente trabajo hace uso de diferentes análisis y experimentos para demostrar que la caracterización y definición de las enfermedades en base a sus elementos de conocimiento diagnóstico (DKE, por sus siglas en inglés) permite identificar parejas de enfermedad – enfermedad que pueden ser usadas para mejorar el conocimiento que tenemos de las enfermedades. En este trabajo se realiza por lo tanto una revisión de la literatura de los trabajos más relevantes relativos a bases de datos biomédicas, enfoques de extracción y generación de conocimiento biomédico, enfoques novedosos de análisis de enfermedades como las redes de enfermedades y enfoques de similitud entre enfermedades. Además de este profundo análisis del estado del arte, se plantearon las hipótesis a verificar, que se han permitido enfocar los esfuerzos en preparar un conjunto de datos médico para caracterizar sus enfermedades usando el tiempo como un aspecto relevante para observar como el contenido médico diagnóstico ha ido cambiando. El método que ha generado el conocimiento diagnóstico y que ha permitido caracterizar las enfermedades es capaz de ejecutarse periódicamente según defina el usuario para hacer capturas de las fuentes de información relevantes para esta tesis: Wikipedia, PubMed y Mayo Clinic. En el contexto de extracción de datos necesarios para el desarrollo de la tesis, esta periodicidad se estableció en 2 veces por mes para la fuente Wikipedia, pues es la fuente más susceptible de cambios de interés dado que puede ser modificada por cualquier usuario y puede presentar cambios incrementales (añadir contenido en artículos existentes y añadir nuevos artículos), decrementales (borrar contenido de artículos existentes y borrar artículos) y pseudoestacionarios (modificación de contenido existente, sin alterar significamente en términos de incremento o decremento), mientras que la fuente de la clínica Mayo depende de la propia clínica y es altamente estática, y PubMed solo representaría cambios incrementales. Después, a través de herramientas de NLP MetaMap, que es ejecutada sobre los textos se obtiene la lista de conceptos médicos que posteriormente se procesará para obtener una mayor calidad de los datos. El resultado es un conjunto de datos médicos (enfermedad – DKE), por el cual se ha desarrollado también un proceso de validación para verificar la precisión con la que el sistema obtiene los DKE y cuyo resultado se considera adecuado. En esta tesis también presenta el sistema web que es capaz de integrar información de diversas fuentes médicas que permitirá aumentar el grueso de datos del conjunto postulado en este documento y así compartir cada dato generado para poder crear redes de enfermedades diversas y por consiguiente abordar el complejo estudio las relaciones entre enfermedades. En esta tesis también postula una serie de experimentos y análisis que han permitido caracterizar y definir las enfermedades del conjunto de datos médicos ya validado. En primera lugar, se desarrollo un análisis descriptivo que ha servido para observar y comprender como esta compuesto el nuevo conocimiento generado: cantidad de enfermedades, cantidad de DKE, textos recuperados, códigos recuperado, las fuentes de conocimiento de donde provienen los códigos, entre otros elementos. Esto ha permitido definir las enfermedades según los DKE obtenido, así como también mostrar las distribuciones de los DKE según diferentes aspectos como, secciones, enfermedades, fuentes, snapshots y otros más. Se desarrollo un análisis evolutivo sobre Wikipedia (fuente, que habilitada para este tipo de estudio) que ha permitido observar el estado del conocimiento a lo largo de dos años de capturar conocimiento. La observación sobre la evolución sugiere que tanto los artículos de enfermedad de Wikipedia como su contenido aumenta con el tiempo y se va mejorando. Así se ha observado como el tiempo ha caracterizado y definido las enfermedades en Wikipedia. En mismo contexto de la evolución se presenta otro análisis evolutivo pero ahora enfocado en como ha ido cambiando el contenido de los artículos de enfermedad. Esta evolución del contenido ha caracterizado las enfermedades mediante la observación del comportamiento del conocimiento médico en Wikipedia según, el tamaño total de caracteres del documento de enfermedad, la cantidad de referencias científicas PubMed y la cantidad de DKE. Algunos hallazgos muestran una relación fuerte entre la cantidad de texto y la de DKE, pero no así con las referencias. Finalmente, se desarrollaron los cálculos de tres diferentes coeficientes de similitud con los que se han caracterizado las enfermedades en base a los DKE en común. Este análisis muestra el potencial del conjunto de datos para encontrar parejas enfermedad – enfermedad. Relaciones altamente interesantes porque sugieren que las enfermedades esas enfermedades pueden compartir no solo DKE sino genes, o alguna otra característica biológica. Este el primer paso del proyecto DISNET para conseguir apoyar el reposicionamiento de fármacos. ----------ABSTRACT---------- Diagnostic knowledge is the first basic element that is used to discard or identify a disease. And studying diseases is a complex task but one that is necessary to improve the health of the world's population. And to do so, it is important to have quality diagnostic information at hand. The Coronavirus pandemic between the end of 2019 and the beginning of 2020 is a clear example of the problem that humanity faces when there is no solid knowledge about a disease. The present work makes use of different analyses and experiments to demonstrate that the characterisation and definition of diseases based on their diagnostic knowledge elements (DKE) allows us to identify disease - disease pairs that can be used to improve our knowledge of diseases. In this work, therefore, a literature review of the most relevant works related to biomedical databases, approaches to the extraction and generation of biomedical knowledge, novel approaches to disease analysis such as disease networks and disease similarity approaches is carried out. In addition to this in-depth analysis of the state of the art, the hypotheses to be verified were raised, which have allowed to focus the efforts in preparing a set of medical data to have a characterisation of their diseases using time as a relevant aspect to observe how the medical diagnostic content has been changing. The method that has generated the diagnostic knowledge and that has allowed to characterize the diseases is able to be executed periodically as defined by the user to make captures of the relevant information sources for this thesis: Wikipedia, PubMed and Mayo Clinic. In the context of extracting data necessary for the development of the thesis, this periodicity was established at twice a month for the source Wikipedia, as it is the source most susceptible to changes of interest given that it can be modified by any user and can present incremental changes (adding content in existing articles and adding new articles), The Mayo Clinic's source is highly static and PubMed would only represent incremental changes. Then, through MetaMap NLP tools, which is executed on the texts, the list of medical concepts is obtained which will later be processed to obtain a higher quality of data. The result is a set of medical data (disease - DKE), for which a validation process has also been developed to verify the accuracy with which the system obtains the DKE and whose result is considered adequate. This thesis also presents the web system that is capable of integrating information from various medical sources that will increase the bulk of data from the set postulated in this document and thus share each data generated in order to create networks of various diseases and therefore address the complex study relationships between diseases. This thesis also postulates a series of experiments and analyses that have made it possible to characterise and define the diseases in the already validated medical data set. Firstly, a descriptive analysis was developed that has served to observe and understand how the new knowledge generated is composed: number of diseases, number of DKE, texts recovered, codes recovered, the sources of knowledge from which the codes come, among other elements. This has allowed to define the diseases according to the DKE obtained, as well as to show the distributions of the DKE according to different aspects like, sections, diseases, sources, snapshots and others. An evolutionary analysis was developed on Wikipedia (source, which is enabled for this type of study) that has allowed us to observe the state of knowledge over two years of capturing knowledge. The observation on evolution suggests that both the Wikipedia disease articles and their content increase over time and are being improved. This is how time has characterised and defined diseases in Wikipedia. In the same context of evolution another evolutionary analysis is presented but now focused on how the content of the disease articles has changed. This evolution of content has characterised diseases by observing the behaviour of medical knowledge in Wikipedia according to, the total character size of the disease document, the amount of PubMed scientific references and the amount of DKE. Some findings show a strong relationship between the amount of text and the amount of DKE, but not with the references. Finally, calculations were developed for three different similarity coefficients with which diseases have been characterised based on common DKE. This analysis shows the potential of the data set to find disease - disease pairs. These relationships are highly interesting because they suggest that diseases can share not only DKE but genes, or some other biological characteristic. This is the first step of the DISNET project to get support for drug repositioning.