Tesis:
Desarrollo y optimización de aplicaciones de computación en la nube para el análisis bioinformático de datos de secuenciación masiva (RNA-seq y RAD-seq) de especies forestales leñosas
- Autor: MORA MÁRQUEZ, Fernando
- Título: Desarrollo y optimización de aplicaciones de computación en la nube para el análisis bioinformático de datos de secuenciación masiva (RNA-seq y RAD-seq) de especies forestales leñosas
- Fecha: 2021
- Materia: Sin materia definida
- Escuela: E.T.S.I. DE MONTES, FORESTAL Y DEL MEDIO NATURAL
- Departamentos: SISTEMAS Y RECURSOS NATURALES
- Acceso electrónico: https://oa.upm.es/67379/
- Director/a 1º: LÓPEZ DE HEREDIA LARREA, Unai
- Director/a 2º: VÁZQUEZ POLETTI, José Luis
- Resumen: Antecedentes La secuenciación masiva de alto rendimiento (Next-Generation Sequencing - NGS) permite secuenciar de una forma rápida y en paralelo millones de fragmentos de DNA de múltiples individuos. En el ámbito forestal, el uso de las metodologías que se basan en la secuenciación masiva se está empezando a utilizar de forma rutinaria para determinar la estructura del genoma de las especies forestales leñosas en un marco evolutivo y comparativo, la función de los genes y de las regiones reguladoras y las relaciones de los genotipos con los fenotipos. Las especies forestales leñosas presentan unas particularidades intrínsecas a sus genomas y a sus ciclos vitales y reproductivos, y una carencia generalizada de recursos genómicos de calidad, que hacen necesario el desarrollo y optimización de algoritmos, flujos de trabajo y aplicaciones especialmente adaptadas para el análisis bioinformático de los datos de secuenciación masiva a gran escala. Objetivo El desarrollo y el estudio de rendimientos de un sistema informático que ofrezca una plataforma global y unificada para el análisis de experimentos de dos de las técnicas NGS más populares (RNA-seq y RAD-seq) y la anotación funcional específicamente orientada a especies forestales leñosas de una forma eficiente, utilizando la computación en la nube como proveedor de recursos hardware. Metodología El sistema informático, NGScloud2, se desarrolló utilizando el lenguaje de programación Python3 y otras librerías y aplicaciones de uso libre. La plataforma pública de computación en la nube Amazon Web Services proporciona, con disponibilidad inmediata, la infraestructura hardware del sistema informático, facilitando una gran cantidad de instancias con distintas configuraciones de número de CPUs y cantidad de memoria RAM, lo que permite ajustar el hardware y, por tanto, el coste, a las necesidades de los datos del experimento. NGScloud2 dispone de una plataforma local con una interfaz gráfica para el manejo amigable y sencillo de la infraestructura hardware y el control de procesos. Se puede instalar en los principales sistemas operativos: Linux, macOS y Microsoft Windows. También se puede arrancar en modo consola por si es necesario ejecutarla desde un servidor que no disponga de entorno gráfico. Los flujos de trabajo que incluye NGScloud2 están enfocados a las técnicas de RNA-seq de novo, RNA-seq basado en referencias, RAD-seq y anotación funcional. Cada flujo de trabajo está compuesto por tareas que analizan de forma optimizada ficheros de gran volumen mediante aplicaciones bioinformáticas de acceso abierto y uso generalizado por parte de la comunidad científica. La operatividad funcional completa de NGScloud2 se ha comprobado utilizando datos de secuenciación masiva tanto simulados como de experimentos reales. Así, mediante estudios de rendimientos, se han identificado los procesos más limitantes para el análisis bioinformático y se proponen soluciones y pautas de selección de instancias de hardware y de procedimientos de análisis para distintos tipos de conjuntos de datos. Adicionalmente, se han desarrollado y validado dos aplicaciones que incorporan nuevos algoritmos para el análisis bioinformático: (i) ddRADseqTools, una aplicación para del diseño de experimentos ddRADseq que puede ejecutarse de forma independiente o desde la etapa de diseño en el flujo de trabajo RAD-seq de NGScloud2; y (ii) TOA, una aplicación para la anotación funcional automática de especies forestales leñosas, extensible a otras especies vegetales, que se puede utilizar tanto de forma independiente como encapsulada en el flujo de trabajo de anotación funcional de NGScloud2. Resultados y discusión Se ha comprobado la plena operatividad funcional de NGScloud2 para los cuatro flujos de trabajo implementados: (i) RNA-seq de novo; (ii) RNA-seq basado en referencia; (iii) RAD-seq; y (iv) anotación funcional. Dentro de los flujos de trabajo de RNA-seq, se han identificado como procesos más limitantes para el análisis: el mapeo de lecturas a ensamblajes genómicos de referencia y, particularmente, el ensamblaje de novo de lecturas de RNA-seq. En el caso de los ensambladores de novo Trinity y SOAPdenovo-Trans los requerimientos de hardware crecen de forma lineal con el tamaño de los ficheros de lectura de entrada mientras que, en los tiempos de ejecución, esta evolución es lineal en el caso de Trinity y exponencial con SOAPdenovo-Trans. Además, se ha determinado que la selección de instancias bajo demanda es más eficiente para ejecutar estos procesos intensivos, mientras que para la práctica totalidad del resto de procesos es recomendable la utilización de instancias spot, con la consiguiente reducción en el coste del análisis. Los flujos de trabajos de RAD-seq en NGScloud2 permiten el análisis flexible y eficiente de distintos tipos de datos mediante flujos de trabajo integrales o bien mediante estrategias mixtas de mapeo a genomas y/o pseudogenomas de referencia. En particular, NGScloud2 incorpora una etapa de diseño de experimentos que incluye ddRADseqTools, aplicación diseñada específicamente para este cometido, que se adapta a una amplia gama de condiciones de experimentos de ddRADseq, como la construcción de bibliotecas de ddRADseq utilizando adaptadores con uno o dos índices y secuencias de nucleótidos degeneradas (DBRs) para la cuantificación de los duplicados de PCR. Las simulaciones generadas pueden usarse para estimar la combinación óptima del par de enzimas en la digestión en función del genoma implicado en el experimento y el rango de tamaño de los fragmentos que deben ser secuenciados. ddRADseqTools también permite simular escenarios para predecir el impacto en la cobertura y los datos perdidos de errores técnicos producidos por duplicados de PCR o por la pérdida de alelo. La anotación funcional desarrollada para secuencias generadas en experimentos NGS se ha implementado como la aplicación de escritorio TOA y como flujo de trabajo en NGScloud2. TOA está orientada a especies de plantas y destaca por la flexibilidad de las bases de datos genómicas que maneja y por la cantidad y calidad de los resultados de la anotación. TOA se puede utilizar con cualquier tipo de secuencias genómicas o transcriptómicas provenientes de experimentos de NGS, como ensamblajes genómicos y transcriptómicos, o como RAD-seq. TOA es una buena alternativa a otras aplicaciones existentes para mejorar la anotación funcional en plantas, especialmente en coníferas, o cuando los datos de la secuencia de entrada sean de baja calidad debido a un ensamblaje de novo genómico o transcriptómico defectuoso o pertenezcan a regiones de baja confianza debido a una cobertura de profundidad insuficiente. En comparación con otras plataformas de análisis bioinformático que utilizan computación en la nube, como Galaxy, NGScloud2 destaca por la inmediatez en la generación de recursos hardware prácticamente ilimitados, por su flexibilidad en la ejecución de flujos de trabajo y por la facilidad de uso a través de su interfaz gráfica, incluso para investigadores sin una fuerte base bioinformática o de computación en la nube. ----------ABSTRACT---------- Background High-throughput massive parallel sequencing (Next-Generation Sequencing - NGS) yields millions of DNA fragments sequenced quickly and in parallel from multiple individuals. The use of methodologies based on massive sequencing is beginning to be used routinely in forest genetics to determine the genome structure of woody plant species in an evolutionary and comparative framework, the function of genes and regulatory regions and the relationships of genotypes with phenotypes. Woody plant species present intrinsic peculiarities to their genomes and their vital and reproductive cycles, and a general lack of quality genomic resources, which imply to develop and optimize algorithms, workflows and applications specially adapted for the bioinformatic analysis of large-scale massive sequencing data. Aim The development and performance assessment of a computer system that offers a global and unified platform for the analysis of experiments of two of the most popular NGS techniques (RNA-seq and RAD-seq) and the functional annotation specifically oriented to woody plant species in an efficient way, using cloud computing as a hardware resource provider. Methods The computer system, NGScloud2, was developed using the Python3 programming language and other open access libraries and applications. The public cloud computing platform Amazon Web Services provides the hardware infrastructure of the computer system with immediate availability facilitating a large number of instances with different configurations of CPU number and RAM amount. This allows adjusting the hardware and, therefore, the cost, to the needs of the experiment data. NGScloud2 has a local platform with a user-friendly GUI to operate the hardware infrastructure and to control process runs. It can be installed on the main operating systems: Linux, macOS and Microsoft Windows. It can also be started in console mode to be able to run in a server that lacks a graphical environment. The workflows included in NGScloud2 are focused on de novo RNA-seq, reference-based RNA-seq, RAD-seq and functional annotation. Each workflow is integrated by tasks that optimally analyze large-volume files using open access bioinformatics applications that are widely used by the scientific community. The full functional operability of NGScloud2 has been verified using massive sequencing data from both simulated and real experiments. The most limiting processes for bioinformatic analysis have been identified through performance studies. Tips for hardware instance selection and reccomendations to run analytical procedures are provided for different types of data sets. Additionally, two applications that incorporate new algorithms for bioinformatic analysis have been developed and validated: (i) ddRADseqTools, an application for the design of ddRADseq experiments that can run independently or integrated in the NGScloud2 RAD-seq workflow; and (ii) TOA, an application for the automatic functional annotation of woody forest species, extensible to other plant species, which is presented as an standalone application or encapsulated in the NGScloud2 functional annotation workflow. Results and discussion The full functional operability of NGScloud2 has been verified for the four implemented workflows: (i) de novo RNA-seq; (ii) reference-based RNA-seq; (iii) RAD-seq; and (iv) functional annotation. The most limiting processes for the analysis of the RNA-seq workflows are the mapping of reads to reference genomic assemblies and, particularly, the de novo assembly of RNA-seq reads. In the case de novo Trinity and SOAPdenovo-Trans assemblers, the hardware requirements grow linearly with the size of the input read files, while the elapsed time evolution is linear in the case of Trinity and exponential with SOAPdenovo-Trans. Furthermore, it has been determined that on demand instances are more efficient to run these intensive processes, while the use of spot instances is recommended for the rest of the processes, with the consequent reduction in the analysis cost. NGScloud2 RAD-seq workflows allow flexible and efficient analysis of different types of data through complete workflows or through mixed strategies of reference genome and/or pseudogenome mapping. In particular, NGScloud2 incorporates an experiment design stage that includes ddRADseqTools, an application specifically designed for this purpose, which considers a wide range of ddRADseq experiment conditions, such as building ddRADseq libraries using adapters with one or two indexes and degenerate nucleotide sequences (DBRs) for the quantification of PCR duplicates. The simulations generated can be used to estimate the optimal combination of the pair of enzymes in the digestion based on the genome involved in the experiment and the range size of the fragments to be sequenced. ddRADseqTools also allows to simulate scenarios to predict the impact on coverage and missing data of technical errors caused by PCR duplicates or allele dropout. The functional annotation workflow developed for sequences generated in NGS experiments has been implemented as the desktop application TOA, and as a workflow in NGScloud2. TOA is oriented to plant species and it stands out for the flexibility of the use of genomic databases and for the quantity and quality of the annotation results. TOA can be used with any type of genomic or transcriptomic sequences obtained from NGS experiments, such as genomic and transcriptomic assemblies, or RAD-seq. TOA is a good alternative to other applications to improve functional annotation in plants, especially conifers or when the input sequence data is of low quality due to lack of de novo genomic or transcriptomic assemblies or when the sequences belong to regions of low quality confidence due to insufficient depth coverage. Compared to other bioinformatic analysis platforms that use cloud computing, such as Galaxy, NGScloud2 stands out for the immediacy in the generation of practically unlimited hardware resources, for its flexibility in the run of workflows and for the ease of use through its graphical interface, even for researchers without a strong bioinformatics or cloud computing knowledge.