Tesis:
Creation, integration, and analysis of disease networks towards a better disease understanding and drug repurposing
- Autor: PRIETO SANTAMARÍA, Lucía
- Título: Creation, integration, and analysis of disease networks towards a better disease understanding and drug repurposing
- Fecha: 2023
- Materia:
- Escuela: E.T.S DE INGENIEROS INFORMÁTICOS
- Departamentos: LENGUAJES Y SISTEMAS INFORMATICOS E INGENIERIA DE SOFTWARE
- Acceso electrónico: https://oa.upm.es/76526/
- Director/a 1º: RODRÍGUEZ GONZÁLEZ, Alejandro
- Director/a 2º: PÉREZ GALLARDO, Yuliana
- Resumen: Developing a drug for a specific condition is a remarkably costly task in terms of money, time, and risks. An alternative approach to this lengthy process is drug repurposing, which tries to identify other uses for drugs that already exist. The problem is addressed by using already known drugs to treat other diseases different from the ones they were developed for. This way, some of the phases of developing a drug can be skipped, being more efficient and reducing the investment. Although this process used to occur by chance in the beginning, nowadays drug repurposing can be targeted. Some of the most promising strategies derive from data-driven methodologies. In this context, one of the emerging paradigms to structure enormous amounts of biomedical data comes with the so-called “network medicine”. This field abandons the individual study of each disease, integrating large-scale and heterogenous data in the form of graphs to achieve a better understanding of how diseases work and how they are connected. In particular, a disease network is a complex network in which the nodes are the different diseases or disorders, while the edges represent the relationships among them. The first human disease network was based on diseasecausing genes, but other networks have been designed around different factors such as metabolic pathways, drugs, or symptoms, among others.
Following the ideas and concepts of disease networks, one can find the DISNET project, which had the ultimate goal of dug repurposing. The present doctoral thesis has been developed under the scope of this project, pursuing the general objective of obtaining and integrating biomedical knowledge from public sources to create disease networks that enable a better disease understanding and, ultimately, enhance drug repurposing. Within this thesis and the DISNET project, a large-scale multi-layered heterogeneous biomedical knowledge base around the concept of disease has been built. The data has been obtained from publicly accessible sources, both structured and unstructured. This information has been integrated and organized in three different levels: the phenotypic (with information regarding diseases and their associated symptoms), the biologic (which stores molecular-shifted data related to diseases including genes, proteins, metabolic pathways, genetic variants, non-coding RNAs and so on) and the pharmacologic (containing information of the drugs, their interactions, and their connections to diseases).
The two main lines in which the present thesis has delved into are disease understanding and drug repurposing. On the one hand and regarding disease understanding, a set of new arrangements of disease groups has been proposed via clustering techniques. These groups can be thought as novel nosological models that integrate molecular information, in contrast with traditional taxonomies mostly relying on solely phenotypic data. On the other hand and with respect to drug repurposing, two complementary methodologies to repurpose drugs have been put forward. Differences between data related to known successful repurposing cases and non-repurposing data have been identified, and analyses within the genes, symptoms and categories have been performed to uncover patterns. Threshold values in the association scores between diseases and different features have been pinpointed in order to evaluate the potential of new repurposing hypotheses. Moreover, a straightforward methodology consisting of five information paths and based on gene and symptom relationships has been developed to suggest repurposing candidates to treat COVID-19. A list of 13 drugs was obtained.
This doctoral thesis has followed the structure of a compendium of publications: it comprises three articles published in scientific journals with high impact factor. The publications have contributed to accomplish the different research objectives and have been developed under the same thematic unit.
RESUMEN
Desarrollar un fármaco para una enfermedad específica es una tarea muy costosa en términos de dinero, tiempo y riesgos. Una alternativa a este largo proceso es el reposicionamiento de fármacos, que trata de identificar otros usos para medicamentos ya existentes. Es decir, se utilizan fármacos ya conocidos para tratar enfermedades diferentes de aquellas para las que fueron desarrollados. De esta forma, se pueden saltar algunas de las fases del desarrollo de un fármaco, acortando los tiempos y reduciendo la inversión. Aunque al principio este proceso solía producirse por casualidad, hoy en día se puede dirigir el reposicionamiento de fármacos. Algunas de las estrategias más prometedoras derivan de metodologías basadas en datos. En este contexto, uno de los paradigmas emergentes para estructurar las enormes cantidades de datos biomédicos surge con la llamada “medicina de redes”. Este campo abandona el estudio individual de cada enfermedad, integrando datos heterogéneos y a gran escala en forma de grafos para lograr una mejor comprensión de cómo funcionan y se conectan las enfermedades. En concreto, una red de enfermedades es un grafo complejo en el que los vértices son las distintas enfermedades y las aristas representan las relaciones entre ellas. La primera red se basó en los genes causantes de las enfermedades, pero se han desarrollado otras redes en torno a diferentes factores como rutas metabólicas, fármacos o síntomas, entre otros.
Siguiendo las ideas de las redes de enfermedades, se encuentra el proyecto DISNET, cuyo objetivo final es el reposicionamiento de fármacos. La presente tesis doctoral se ha desarrollado en el marco de este proyecto, persiguiendo el objetivo general de obtener e integrar conocimiento biomédico de fuentes públicas para crear redes de enfermedades que permitan un mejor entendimiento de las mismas y potenciar el reposicionamiento de fármacos. En esta tesis y en el proyecto DISNET se ha construido una base de conocimiento biomédico heterogéneo a gran escala y multicapa en torno al concepto de enfermedad. La información se ha obtenido de fuentes públicas, aunando datos tanto estructurados como no estructurados. Esta información se ha integrado y organizado en tres niveles: el fenotípico (con información relativa a las enfermedades y sus síntomas), el biológico (que almacena datos de las enfermedades de tipo molecular, incluyendo genes, proteínas, rutas metabólicas, variantes genéticas, etc.) y el farmacológico (que contiene información de los fármacos, sus interacciones y sus conexiones con las enfermedades).
Las dos líneas principales en las que se ha profundizado en la presente tesis son el entendimiento de las enfermedades y el reposicionamiento de fármacos. Por una parte, y en relación al entendimiento de las enfermedades, se ha propuesto un conjunto de nuevos grupos de enfermedades mediante técnicas de clustering. Estos grupos pueden concebirse como nuevos modelos nosológicos que integran información de tipo molecular, a diferencia de las taxonomías tradicionales, que se basan principalmente en datos fenotípicos. Por otra parte, y con respecto al reposicionamiento de fármacos, se han propuesto dos metodologías complementarias para sugerir hipótesis de reposicionamiento. Se han identificado diferencias entre los datos relacionados con casos conocidos y exitosos de reposicionamiento y los datos no relacionados con reposicionamiento, y se han realizado análisis a nivel de los genes, síntomas y categorías para descubrir patrones. Se han identificado umbrales en los valores de asociación entre enfermedades y diferentes características con el fin de evaluar el potencial de nuevas hipótesis de reposicionamiento. Además, se ha desarrollado una metodología directa que consta de cinco vías de información y que se basa en las relaciones entre genes y síntomas para sugerir candidatos de reposicionamiento para tratar la COVID-19, obteniendo una lista de 13 fármacos.
Esta tesis doctoral ha seguido la estructura de un compendio de publicaciones: consta de tres artículos publicados en revistas científicas con alto factor de impacto. Las publicaciones han contribuido a alcanzar los diferentes objetivos de la investigación y se han desarrollado bajo una misma unidad temática.