Logotipo de la Universidad Politécnica de Madrid

Machine Learning Approaches Applied to Genomic-Assisted Plant Breeding

Autor: GARCÍA-ABADILLO VELASCO, Julián

Título: Machine Learning Approaches Applied to Genomic-Assisted Plant Breeding

Fecha: 2025

Materia: ---

Escuela: E.T.S. DE INGENIERÍA AGRONÓMICA, ALIMENTARIA Y DE BIOSISTEMAS

Departamento: BIOTECNOLOGIA-BIOLOGIA VEGETAL

Acceso electrónico: http://oa.upm.es/91869/

Director/a(s):

  • Director/a: ISIDRO SÁNCHEZ, Julio

Resumen: The convergence of large-scale data generation and advances in statistical and computational methodologies has led to a technological revolution in which data-driven decision-making is now central across multiple industries. In plant breeding, and especially within the field of quantitative genetics, the complexity and high dimensionality of the data pose a fascinating multidisciplinary challenge. This thesis investigates the genetic architecture and predictive modeling of complex quantitative traits in diverse plant breeding populations through genomics-based computational approaches, with an emphasis on data processing and statistical modeling. In grapevine, a genome-wide association study (GWAS) was conducted on 588 genotypes to identify novel marker-trait associations, particularly for postharvest traits, and to validate previously reported loci. Two statistical frameworks were developed for in silico marker validation, incorporating resampling techniques and gene ontology to explore trait associations. The same dataset was used to evaluated how heritability, genetic architecture, and population structure influence genomic selection (GS) model performance, with a particular focus on the integration of GWAS results into prediction models. Subsequent analyses explored strategies to improve phenotyping efficiency and resource allocation in GS. Fusarium head blight served as a disease model to develop alternative scoring metrics to optimize phenotyping efficiency and to assess the contribution of developmental covariates to prediction accuracy in a winter wheat population of 230 breeding lines. In sugarcane, sparse experimental designs were evaluated using a population of 186 breeding lines phenotyped across six environments. Together, these studies provide insights into the design of efficient genomic prediction pipelines across crop systems based on genomic features in a supervised machine learning framework. Key findings include the identification of 69 significant SNPs across 13 traits in the grapevine population, with 70% located within annotated genes, an unusually high proportion located within genes, suggesting strong biological relevance. This result supports the effectiveness of the BLINK model for this dataset. In particular, a novel QTL for berry width was discovered on chromosome 11, linked to a jasmonic acid-related gene, providing a potential target for breeding larger berries. Further experiments showed that traditional GS models effectively captured within-family variation, while general-purpose machine learning models struggled, highlighting the value of parametric models over free-model machine learning algorithms when datasets are limited. In wheat, adjusting disease resistance scores with phenological covariates did not improve prediction accuracy. However, a simplified metric, the percentage of infected spikelets at the time of highest variance, provided a practical and predictive trait. Additionally, GDD50, a novel method for estimating the inflection point based on interpolation between only two measurements, was found to correlate strongly with the area under the disease progress curve (AUDPC). In sugargane, significant genotype-by-environment (G×E) interactions were found. Prediction accuracy improved when each genotype was observed at least once, supporting sparse experimental designs. Models incorporating G×E effects reduced residual error and outperformed simpler approaches, especially in unbalanced training scenarios. In addition, some reduced training sets matched or outperformed larger ones. RESUMEN La generación de datos a gran escala y los avances en metodologías estadísticas y computa- cionales ha impulsado una revolución tecnológica donde la toma de decisiones basada en datos es fundamental en múltiples industrias. En fitomejoramiento, y especialmente dentro del campo de la genética cuantitativa, la complejidad y alta dimensionalidad de los datos plantean un fascinante desafío multidisciplinar. Esta tesis investiga la arquitectura genética y el modelaje de caracteres cuantitativos en diversas poblaciones de fitomejoramiento mediante enfoques computacionales basados en genómica, con énfasis en el procesamiento de datos y el modelado estadístico. Se utilizó una población de 588 genotipos de vid para realizar un estudio de asociación (GWAS), con especial énfasis en caracteres post-cosecha, para encontrar nuevos loci y validar otros previamente reportados. Se desarrollaron además dos algoritmos para la validación in-silico de marcadores candidatos incorporando técnicas de remuestreo e información de ontología génica. La misma población se utilizó para evaluar cómo la heredabilidad, la arquitectura genética y la estructura de población influyen en el rendimiento de los modelos de selección genómica (GS), con un enfoque particular en la integración de los resultados de GWAS en los modelos de predicción. Análisis posteriores exploraron estrategias para mejorar la eficiencia del fenotipado y la asignación de recursos en GS. Se estudió una población de 230 lineas de mejora de trigo utilizando la fusariosis de la espiga (FHB) como enfermedad modelo para desarrollar métricas que optimizaran la eficiencia del fenotipado y evaluar contribución de covariables fenológicas a la precisión de la predicción. Adicionalmente, Se evaluaron diseños experimentales incompletos utilizando una población de 186 líneas de mejora de caña de azúcar fenotipadas en seis ambientes. En conjunto, estos estudios proporcionan información sobre el diseño de protocolos de predicción genómica en diferentes sistemas de cultivo basados en el use de información genómico y bajo un marco de aprendizaje automático supervisado. Los resultados incluyen la identificación de 69 SNPs asociados con 13 caracteres en la población de vid, con un 70% de ellos localizados dentro de genes anotados, una proporción inusualmente alta, lo que sugiere una fuerte relevancia biológica y la efectividad del modelo BLINK para este problema. Se descubrió un nuevo QTL para el ancho de la baya en el cromosoma 11, vinculado a un gen relacionado con el ácido jasmónico, lo que ofrece un objetivo potencial para obtener uvas más grandes. Se demostró también que los modelos de GS tradicionales capturaron eficazmente la variación intrafamiliar, mientras que los modelos de aprendizaje automático de propósito general tuvieron dificultades, lo que destaca el valor de los modelos paramétricos sobre los algoritmos no paramétricos cuando los conjuntos de datos son limitados. En trigo, se encontró que ajustar las puntuaciones de resistencia a enfermedades con covariables fenológicas no mejora la precisión de la predicción. Sin embargo, una métrica simplificada, el porcentaje de espiguillas infectadas en el momento de mayor varianza, resultó ser un carácter práctico y predictivo. Además, GDD50, un nuevo método para estimar el punto de inflexión basado en la interpolación entre solo dos mediciones, mostró una fuerte correlación con el área bajo la curva de progreso de la enfermedad (AUDPC). En caña de azúcar, se encontraron interacciones significativas genotipo-ambiente (G×E). La precisión de predicción mejoró cuando cada genotipo se observó al menos una vez, lo que apoya los diseños experimentales incompletos. Los modelos que incorporan efectos G×E redujeron el error y superaron a los modelos más simples. Además, algunos conjuntos de entrenamiento reducidos igualaron o superaron a los más grandes en términos de precisión.