Novel Bioinformatics Tools for Analysis and Visualization of Phylogenomic Data at Scale

<< Volver atrás

Tesis:

Novel Bioinformatics Tools for Analysis and Visualization of Phylogenomic Data at Scale

Autor: DENG, Ziqi

Título: Novel Bioinformatics Tools for Analysis and Visualization of Phylogenomic Data at Scale

Fecha: 2024

Materia:

Escuela: E.T.S. DE INGENIERÍA AGRONÓMICA, ALIMENTARIA Y DE BIOSISTEMAS

Departamentos: SIN DEPARTAMENTO DEFINIDO

Acceso electrónico: https://oa.upm.es/81232/

Director/a 1º: HUERTA CEPAS, Jaime

Resumen: Phylogenomics is an emerging interdisciplinary field that uses whole genome sequencing to study the evolutionary history of genes and organisms. Originally used to predict gene function from genome-scale data, phylogenomics has diversified to include applications in phylogenetic inference, metabolic reconstruction, ortholog prediction, comparative genomics, and detection of horizontal gene transfer. However, the phylogenomic workflow is complicated and involves multiple steps and complex computational analyses. This work focuses on several specific challenges in the field of phylogenomic data analysis and interpretation, a research area that currently faces many obstacles due to the large amount of data generated. In particular, we address problems in the annotation, profiling, and visualization of very large phylogenies. Today, this is a very common scenario for many genomic and metagenomic studies, but we still lack bioinformatic tools that facilitate access to new analytical methods at scale. In this thesis, we developed: i) new programmatic methods for annotating and visualizing large phylogenies; ii) a new bioinformatics tool for phylogenetic profiling of large and custom datasets; and iii) an interactive online platform that facilitates the handling, visualization, and analysis of massive phylogenomic datasets. We also demonstrate the usefulness of these tools by applying them to several challenging phylogenomic datasets that were difficult to handle with previous tools. The results of the thesis are organized in four chapters: In chapter 1, we describe several new modules and improvements made to the ETE Toolkit software, a Python package for programmatic analysis and visualization of phylogenetic trees. Most importantly, we have implemented a new taxonomic annotation system for prokaryotes, a versatile tree comparison method, and a new tree format standard for storing large annotated trees. Chapter 2 describes TreeProfiler, an easy-to-use command-line tool designed to facilitate automated phylogenetic profiling by accurately annotating massive phylogenetic trees with diverse external data sources, including taxonomic, functional, sequence alignment, protein domain, and other metadata. A unique feature of TreeProfiler is its ability to automatically summarize annotations from individual leaf nodes to higher internal nodes, providing consensus overviews which are critical for evolutionary interpretations. The tool also allows configurable visualization of large phylogenetic profiles using advanced layouts covering sequence alignments, protein domains and more. Chapter 3 describes PhyloCloud, an innovative online platform designed to assist researchers by providing an intuitive yet powerful solution for storing, sharing, exploring, and analyzing large collections of phylogenetic trees and related data. Its advanced search engine and interactive tree explorer make it easy to navigate and analyze vast amounts of interrelated data. PhyloCloud also provides one-click access to built-in phylogenetic workflows for rapid tree construction from user-defined data. Additionally, it makes it easy to graphically compare tree topologies, query external taxonomic databases and interactively explore huge trees with tens of thousands of nodes. Finally, in chapter 4, we demonstrate some of these new bioinformatics tools by addressing several challenges faced in large-scale phylogenomic analysis. We show the ease of annotating, profiling, and visualizing a bacterial phylogeny from the GTDB database, and a large gene family such as the NifH gene family. We also use TreeProfiler to automatically annotate over 82,000 trees from single cell data, which can be further explored as a PhyloCloud tree collection. Overall, the results of this thesis fill several gaps in the current phylogenomic workflow, enabling the analysis of very large datasets that were previously limited. RESUMEN La filogenómica es un campo interdisciplinario emergente que utiliza la secuenciación del genoma completo para estudiar la historia evolutiva de genes y organismos. Utilizada originalmente para predecir la función de los genes a partir de datos genómico, la filogenómica se ha diversificado para incluir aplicaciones en la inferencia filogenética, la reconstrucción metabólica, la predicción de ortólogos, la genómica comparativa y la detección de la transferencia horizontal de genes. Sin embargo, los métodos de análisis filogenómico son complicados e implican múltiples pasos y costosos análisis computacionales. Este trabajo se centra en varios retos específicos en el campo del análisis de datos filogenómicos, un área de investigación que actualmente se enfrenta a muchos obstáculos debido a la gran cantidad de datos generados. En particular, abordamos problemas en la anotación, perfilado y visualización de filogenias grandes. Este es un escenario común para muchos estudios genómicos y metagenómicos, pero aún carecemos de herramientas bioinformáticas que faciliten el acceso a nuevos métodos analíticos a gran escala. Los resultados de la tesis se organizan en cuatro partes: En el capítulo 1, desarollamos varios módulos nuevos y mejoras introducidas en el software ETE Toolkit, un paquete de Python para el análisis programático y la visualización de árboles filogenéticos. La contribución más importante al respecto ha sido la implementación de un nuevo sistema de anotación taxonómica para procariotas, un método versátil de comparación de árboles y un nuevo estándar de formato de árbol para almacenar grandes filogenias anotadas. El capítulo 2 describe TreeProfiler, una herramienta diseñada para facilitar la creación automatizada de perfiles filogenéticos mediante la anotación precisa de árboles filogenéticos masivos con diversas fuentes de datos externas, incluyendo metadatos taxonómicos, funcionales, de alineación de secuencias, de dominios proteicos y otros. Una característica única de TreeProfiler es su capacidad para resumir automáticamente las anotaciones de los nodos terminales de un árbol en sus respectivos nodos internos superiores, proporcionando una visión consensuada de dichas anotaciones y facilitando interpretaciones evolutivas. La herramienta también permite la visualización configurable de grandes perfiles filogenéticos mediante diseños avanzados que abarcan alineamientos múltiples de secuencia, dominios de proteínas y muchos otros aspectos. El capítulo 3 describe PhyloCloud, una innovadora plataforma online diseñada para ayudar a los investigadores proporcionándoles una solución intuitiva pero potente para almacenar, compartir, explorar y analizar grandes colecciones de árboles filogenéticos y datos relacionados. Su avanzado motor de búsqueda y su explorador interactivo de árboles facilitan la navegación y el análisis de grandes cantidades de datos interrelacionados. PhyloCloud también proporciona acceso a flujos de trabajo filogenéticos integrados para la construcción rápida de árboles a partir de datos definidos por el usuario. Además, facilita la comparación gráfica de topologías arbóreas, la consulta de bases de datos taxonómicas externas y la exploración interactiva de árboles enormes con decenas de miles de nodos. Por último, en el capítulo 4, mostramos cómo estas nuevas herramientas bioinformáticas permiten abordar varios retos a los que se enfrenta el análisis filogenómico a gran escala. Por ejemplo, cómo estas nuevas herramientas permiten anotar, perfilar y visualizar grandes filogenias procariotas de la base de datos GTDB, y la amplia familia de genes NifH. También utilizamos TreeProfiler para anotar automáticamente más de 82.000 árboles a partir de datos de células individuales, las cuales pueden explorarse más a fondo como una colección de árboles en PhyloCloud. En suma, esta tesis aporta soluciones significativas a los desafíos en análisis filogenómico, permitiendo trabajar con datasets más allá de lo que eran previamente posible.