Tesis:
Comparative Genomics of Environmental DNA : Functional, Ecological and Evolutionary Characterization of Genes from Uncultivated Taxa
- Autor: RODRÍGUEZ DEL RÍO, Álvaro
- Título: Comparative Genomics of Environmental DNA : Functional, Ecological and Evolutionary Characterization of Genes from Uncultivated Taxa
- Fecha: 2022
- Materia: Sin materia definida
- Escuela: E.T.S. DE INGENIERÍA AGRONÓMICA, ALIMENTARIA Y DE BIOSISTEMAS
- Departamentos: BIOTECNOLOGIA-BIOLOGIA VEGETAL
- Acceso electrónico: https://oa.upm.es/70710/
- Director/a 1º: HUERTA CEPAS, Jaime
- Resumen: Microorganisms dominate Earth. They represent a biomass of approximately 70 gigatons of carbon, only surpassed by plants (Jo, Oh, and Park 2020), and are present in all kinds of conditions, colonizing inhospitable environments like deep sea vents (Wooley, Godzik, and Friedberg 2010) or extreme saline lakes (Belilla et al. 2021). Moreover, microbes are not passive inhabitants, but life-forms in a constant cross-talk with their environments, being crucial to their shaping and functioning (Falkowski, Fenchel, and Delong 2008; Wooley, Godzik, and Friedberg 2010; Sauret et al. 2014; Jo, Oh, and Park 2020). Microorganisms have also a deep influence on macroscopic life: the more we dig into the microbiomes associated with animals and plants, the more we learn about their striking importance, which has motivated some authors to consider microbial populations as an additional organ (Berendsen et al. 2012; Berg et al. 2020). The study of this tiny-sized but key part of biodiversity started in the XVII century and has been intermittently boosted by technological advances. The microscope revealed that microbes existed at all, and culturing allowed the study of the limited fraction that could be isolated. However, the most revolutionary technology in the history of microbiology was DNA sequencing, which exposed the genetic content of microbes, yielding much more resolution than any other previous attempt. The first genome sequences and their comparisons – comparative genomics– revealed that, besides pervasive efforts for gene characterization, most of their predicted genes were functionally unknown. Deciphering the role of unknown genes has been one of the most important aims of biology ever since. For such a purpose, several computational approaches have been applied, among which the detection of characterized homologs in alternative genomes and genomic context conservation analysis have proven extremely valuable. However, the function of most microbial genes remains a mystery. In recent decades, conceptual and technical advances boosted DNA amplification and sequencing from environmental samples without the need of previous isolation, revealing critical microbial ecology features so far ignored. 16S rRNA gene amplification and sequencing confirmed that the phylogenetic diversity of microbes was immense, and that only a small fraction had been cultured. Soon later, metagenomics accessed the genes of these uncultivated populations and allowed for higher-resolution descriptions of the microbiomes. The application of metagenomics to answer biological questions was later boosted by Metagenome- Assembled Genomes (MAGs), which cluster metagenomic sequences into species bins. Recent MAG surveys have given access to the genomic sequences of thousands of uncultivated species and have pinpointed their phylogenetic distribution, importance and striking biology. Metagenomic catalogs and MAGs have also drastically increased the pool of unknown genes by incorporating those from uncultivated taxa. However, despite the great interest in characterizing the function of unknown genes and in recovering the genomes of uncultivated organisms from metagenomes, little effort has been put into deciphering the genetic innovations within candidate species. Even though recent work has provided evidence of the great value of these novel sequences, they have not been characterized at the large scale, and are usually discarded from metagenomic surveys. The work presented in this PhD thesis aims to shed light on the global diversity of metagenomic genes by comparative genomics techniques, which, despite their power, have barely been applied to metagenomic data. We specially focused on investigating genes exclusive to uncultivated taxa, around which several questions remain unsolved: there is no clear idea on their abundance, phylogenetic identity, ecological distribution, evolutionary significance and functional role. To tackle these matters, we first worked in the compilation and analysis of a Global Microbial Gene Catalog (GMGC), covering more than 13,000 samples from 14 habitats, which revealed that most genes are habitat-specific, rare, and usually cluster into big gene families, most of which show narrow ecological distributions. Moreover, even though most gene variants do not seem to have specifically contributed to the adaptation to specific niches, ecologically rare gene family members seem to be subject to weaker positive selection than more prevalent homologs. We also found that most gene families identified on the GMGC are exclusive to uncultivated taxa. Thousands of them meet strict quality filters (are complete, coding-sequence and show a conserved domain in the alignment) and are widely distributed across the GMGC samples, probably encoding for relevant and yet not sampled ecological traits. However, we could only make limited functional inferences based on sequence signatures and on correlations of their expression levels with environmental variables. Their functional characterization via genomic context analysis and the description of their phylogenetic distribution remains challenging because most do not have homologs in full genomes or MAGs, which gather longer contigs and provide better taxonomic information of the genes they encode. Hence, intrigued by the taxonomic distribution and functional roles of novel functions across uncultivated taxa, we next combined thousands of MAGs from the GMGC and other genome collections and identified a set of high-quality novel gene families under strong purifying selection, actively expressed and showing a conserved domain that doubles the number of orthologous groups described in cultured species so far. These families are ecologically widespread, span the entire microbial phylogeny, and may have been relevant for the evolution of important microbial lineages – some are synapomorphic of entire phyla, classes and orders. In order to get insights into their possible functional role, we developed a comparative genomics framework for calculating genome context conservation around metagenomic contigs, revealing that many novel families are tightly coupled with important metabolic, degradation and antibiotic resistance genes. For facilitating the finding of novel families candidate to participate in any process, we developed an online tool (https://novelfams.cgmlab.org/) specifically designed for browsing novel gene families co-locating with any known gene and visualizing their genomic context together with taxonomic, ecological and sequence based predictions. Finally, motivated by the high number of unknown function genes in cultivated genomes and the limitations of previous genome context visualization approaches, we also developed GeCoviz, a highly interactive genomic context visualization tool built upon the genomes of thousands of reference genomes. Overall, this PhD thesis provides an in-depth description of the global distribution of environmental genes, especially of those only encoded by uncultivated taxa. We have advanced in their ecological, evolutionary and functional characterization, and created resources for browsing and visualizing our predictions, which we later applied on reference genomes. ----------RESUMEN---------- Los microorganismos dominan la tierra. Su biomasa total ronda los 70 gigatoneladas de carbono, solo superados por las plantas (Jo, Oh, and Park 2020), y están presentes en todo tipo de ambientes, desde los fondos oceánicos (Wooley, Godzik, and Friedberg 2010) hasta lagos de salinidad extrema (Belilla et al. 2021). Además, los microorganismos no son hospedadores pasivos, sino que moldean los ecosistemas y son fundamentales para su funcionamiento (Falkowski, Fenchel, and Delong 2008; Wooley, Godzik, and Friedberg 2010; Sauret et al. 2014; Jo, Oh, and Park 2020). Los microorganismos también tienen una gran influencia en sus hospedadores macrobióticos, hasta el punto de que han llegado a considerarse como un órgano adicional de los mismos (Berg et al. 2020). El estudio de esta fracción microscópica de la biodiversidad comenzó en el siglo XVII y ha requerido de grandes avances tecnológicos. El microscopio reveló la existencia de los microorganismos, y su cultivo in vitro permitió el estudio de algunas de sus características. La secuenciación de ADN aumentó en gran medida la resolución de los estudios microbiológicos y supuso el mayor avance en la historia de la microbiología. Las primeras secuencias genómicas y su comparación (genómica comparada) revelaron que, a pesar de grandes esfuerzos para su caracterización funcional, la mayor parte de sus genes eran todavía desconocidos. Descifrar el papel de estos genes ha sido una prioridad desde entonces. Para ello, se han aplicado muchos enfoques computacionales, entre los que destacan los métodos de genómica comparada basados en la detección de homólogos conocidos y la reconstrucción de contextos genómicos. Sin embargo, la función de la mayor parte de la diversidad genética continúa siendo un misterio. El avance de la biología molecular promovió la amplificación y secuenciación de material genético de poblaciones microbianas a partir de muestras ambientales, y reveló muchos aspectos hasta entonces desconocidos. La amplificación y posterior secuenciación del gen 16S rRNA confirmó que la diversidad microbiana era inmensa, y que solo una pequeña parte había podido ser cultivada. Poco después, la metagenómica dio acceso a los genes de estas especies no cultivadas, que incrementaron la resolución de los estudios del microbioma y que pudieron empezar a ser agrupados en genomas completos (MAGs) a principios de siglo. Estudios recientes han recuperado MAGs de muchas especies no cultivadas, señalando su distribución filogenética, importancia y sus apasionantes características. A pesar del gran interés en la caracterización de genes desconocidos en genomas de especies cultivadas, y de los recursos invertidos en recuperar MAGs de especies desconocidas, las secuencias específicas de microorganismos no cultivados han recibido poca atención. A pesar de que estudios recientes han subrayado su gran valor ecológico y evolutivo, no se ha intentado una caracterización a gran escala de genes desconocidos exclusivos de procariotas no cultivadas, que son, de hecho, descartadas de la mayor parte de análisis metagenómicos. En esta tesis, describimos la distribución global de genes metagenómicos aplicando métodos de genómica comparada, que, a pesar de sus grandes aplicaciones, no ha sido apenas aplicada a secuencias ambientales. Nos centramos especialmente en aquellos genes exclusivos de microorganismos no cultivados, alrededor de los cuales hay muchas incógnitas: no se conoce su abundancia, distribución taxonómica, importancia evolutiva ni relevancia funcional. Para dar respuesta a estas cuestiones, hemos participado en la descripción de un catálogo global de genes (GMGC) computado a partir de más de 13,000 muestras metagenómicas de 14 habitats. Nuestros análisis han revelado que la mayor parte de los genes son específicos de habitat, generalmente poco abundantes y se agrupan en grandes familias génicas. Además, describimos cómo las variantes génicas, especialmente aquellas detectadas en pocas muestras, parecen estar sujetas a un bajo grado de selección positiva, lo que sugiere que podrían ser, al menos en parte, variantes neutrales que no han tenido un papel en la adaptación de los organismos a distintas condiciones. A pesar de que la mayor parte de los genes se agrupan en familias con homólogos conocidos, la mayoría de las familias génicas que calculamos sobre el GMGC tienen función desconocida y son exclusivas de organismos no cultivados. Algunas de estas familias génicas están presentes en numerosas muestras de múltiples habitats, cumplen parámetros de calidad muy estrictos (están formadas por secuencias completas, codificantes y muestran un dominio conservado en alineamientos), y representan rasgos relevantes a nivel ecológico que no han sido detectados por métodos clásicos. Sin embargo, dada su ausencia en MAGs, que permiten una asignación taxonómica precisa de sus genes y agrupan contigs sobre los que es posible calcular contexto genómico, solo pudimos hacer predicciones funcionales basándonos en las propiedades de sus secuencias y en sus valores de expresión bajo distintas condiciones. La caracterización taxonómica de familias génicas desconocidas y su predicción funcional a través de contexto genómico resulta imposible sin acceso a predicciones genómicas de alta calidad. Por eso, intrigados por la distribución de familias génicas desconocidas en linajes de procariotas no cultivados y por su posible papel funcional, compilamos una colección de MAGs reconstruidos a partir de las muestras del GMGC y de repositorios públicos, e identificamos cientos de miles de familias previamente desconocidas que doblan el número de familias descritas en organismos cultivados hasta la fecha y que cumplen parámetros de calidad muy estrictos. Estas familias están ampliamente distribuidas en la filogenia procariota y pueden haber sido importantes en la diversificación de linajes importantes - cientos de ellas representan sinapomorfías de filos, clases y órdenes enteros. Para predecir su posible papel funcional, reconstruimos su contexto genómico, lo que reveló que miles de familias exclusivas de procariotas no cultivados están embebidas en regiones genómicas involucradas en rutas del metabolismo central, la degradación de compuestos o la resistencia a antibióticos. Con la idea de facilitar la caracterización de familias relevantes a partir de nuestras predicciones, creamos un recurso online (https://novelfams.cgmlab.org/) que permite la búsqueda de familias génicas desconocidas cerca de cualquier gen conocido, y la visualización su contexto genómico. Además, motivados por el gran número de secuencias desconocidas en genomas de referencia y las limitación de las herramientas de visualización de contexto genómico existentes, también desarrollamos GeCoViz, un recurso online altamente interactivo que permite visualizar el contexto genómico de cualquier gen en los genomas en los que ha sido detectado. En resumen, esta tesis proporciona una descripción detallada de la distribución de secuencias ambientales a nivel global, específicamente de aquellos específicos de organismos no cultivados. Miles de estas familias génicas tienen una amplia dispersión ecológica, parecen estar involucradas en procesos importantes y pueden haber sido críticas en la radiación de linajes básales de la filogenia procariota. Además, hemos elaborado recursos para la caracterización funcional de genes desconocidos a partir de la visualización de su contexto genómico.