Tesis:

Machine learning applications for plant conservation


  • Autor: CIVANTOS GÓMEZ, Iciar

  • Título: Machine learning applications for plant conservation

  • Fecha: 2023

  • Materia:

  • Escuela: E.T.S. DE INGENIERÍA AGRONÓMICA, ALIMENTARIA Y DE BIOSISTEMAS

  • Departamentos: INGENIERIA FORESTAL

  • Acceso electrónico: https://oa.upm.es/74179/

  • Director/a 1º: GALEANO PRIETO, Javier
  • Director/a 2º: GARCÍA ALGARRA, Javier

  • Resumen: El aprendizaje automático es una disciplina dentro del ámbito de la inteligencia artificial que implica el desarrollo de algoritmos y modelos que permiten a los ordenadores aprender de los datos y hacer predicciones, sin ser programados explícitamente para ello. En el campo de la conservación y la biodiversidad, el aprendizaje automático tiene el potencial de mejorar la capacidad de predecir cómo evolucionarán las poblaciones ante condiciones ambientales cambiantes. Dada la creciente preocupación social, política y económica, la conservación de la biodiversidad se ha convertido en u n elemento clave para la preservación de nuestros recursos naturales, incluidos los que son vitales para nuestra alimentación y salud. Sin embargo, las presiones ocasionadas por parte del ser humano y el cambio climático suponen actualmente amenazas significativas para múltiples especies y hábitats, por lo que la predicción de las tendencias poblacionales es u n paso esencial para el establecimiento de políticas de conservación eficaces. A pesar de la importancia de la precisión en las predicciones para la conservación, los modelos existentes no siempre son tan precisos como se requiere. Los modelos de aprendizaje automático pueden proporcionar resultados fables y repetibles, así como descubrir relaciones desconocidas dentro de los conjuntos de datos. En esta tesis, hemos aplicado técnicas de aprendizaje automático en el ámbito de la conservación de plantas. El objetivo es demostrar su eficacia para mejorar la capacidad predictiva en escenarios de conservación y su potencial con el objetivo de contribuir a una gestión eficaz de las poblaciones vegetales frente al rápido cambio ambiental. Para ello, exploramos el uso del aprendizaje automático en dos escenarios comunes de conservación de plantas: cuando el ajuste de los parámetros de los modelos clásicos es inviable desde u n punto de vista práctico y cuando la recogida de datos de campo es prohibitiva en tiempo y presupuesto. Primero, aplicamos el aprendizaje automático para mejorar la precisión de predicción en la modelización de la abundancia de especies en u n ambiente hipersalino, concretamente las marismas de la Finca Caracoles del Parque Nacional de Doñana. El objetivo era predecir la abundancia de las comunidades vegetales, que forman una intrincada red de interacciones entre las especies y el medio abiótico. Utilizando información sobre la abundancia de diferentes especies vegetales y variables físicas, como la temperatura y la salinidad, se desarrollaron diferentes modelos predictivos para modular la abundancia de las múltiples especies que componen las comunidades ecológicas. Inicialmente, se desarrollaron modelos mecanicistas para comprender cómo diversos procesos abióticos y bióticos regulan la dinámica de las poblaciones de especies. Sin embargo, la complejidad de estimar todos los parámetros a partir de datos observacionales resultó ser un reto a la hora de parametrizar y validar estos modelos en comunidades reales. Para abordar esta limitación, combinamos el aprendizaje automático con fundamentos mecanicistas para desarrollar modelos que expliquen el comportamiento de las especies e identifiquen nuevas variables que afectan a la dinámica de las especies. Además, se implementó u n modelo secuencial en dos pasos para superar las limitaciones relacionadas con las interacciones entre especies. Primero inferimos las abundancias potenciales de las especies entrenando los modelos sólo con variables abióticas fáciles de obtener y luego utilizamos este resultado para afinar la predicción de las abundancias de especies realizadas al tener en cuenta el resto de las especies predichas en la comunidad. Este enfoque tiene la ventaja de no requerir un conocimiento previo de la abundancia de individuos competidores en la comunidad ni la necesidad de recopilar manualmente esta información. Nuestros hallazgos demuestran que es posible desarrollar modelos confiables para predecir sistemas complejos a través una combinación de conocimientos ecológicos y enfoques basados en datos, con posibles aplicaciones en la conservación. En un escenario diferente, aplicamos el enfoque de caracterización predictiva cuantitativa para identificar poblaciones de parientes de cultivos silvestres del género Lens para la conservación in situ. Esta caracterización cuantitativa tiene como objetivo comprender la vulnerabilidad de las poblaciones a cambios en las condiciones ambientales que afectan su sensibilidad a una enfermedad común, la roya. La resistencia a la roya se mide a través de un valor cuantitativo proxy llamado DSr (Disease Severity relative), que es difícil y costoso de evaluar en el campo. Para superar este obstáculo, implementamos modelos predictivos para identificar poblaciones potencialmente resistentes a la roya. También extendimos estos modelos para considerar los escenarios de Cambio Climático previstos por el Panel Intergubernamental sobre el Cambio Climático (IPCC, por sus siglas en inglés) y los escenarios socioeconómicos compartidos (SSP, por sus siglas en inglés) con el fin de evaluar los posibles cambios en la resistencia a la roya de las poblaciones de parientes silvestres de cultivos (CWR, por sus siglas en inglés) de lenteja bajo estas condiciones. Trabajos previos habían proporcionado un resultado binario, pero ese enfoque no fue suficientemente detallado para identificar candidatos óptimos para una evaluación posterior y conservación in situ de este rasgo. Nuestros resultados han identificado 16 poblaciones que prosperan en áreas protegidas, que han evolucionado para resistir la enfermedad y también serán resistentes bajo las condiciones de Cambio Climático previstas. Estas poblaciones pueden utilizarse para mejorar las variedades comerciales a través de técnicas de hibridación, con el objetivo de preservar los rendimientos de este cultivo crítico para la alimentación humana. ABSTRACT Machine Learning, ML, is a field in computer science and artifcial intelligence that involves the development of algorithms and models that enable computers to learn from data and make predictions. It is a way for computers to automatically learn from data, without being explicitly programmed. In the field of biodiversity conservation, Machine Learning has the potential to improve the ability to predict how populations will evolve in the face of changing environmental conditions. As a social, political, and economic concern, biodiversity conservation is of great importance for the preservation of our natural resources, including those that are vital for our nourishment and health. However, human pressures and climate change are currently posing signifcant threats to multiple species and habitats, making the accurate prediction of population trends an essential step in the establishment of effective conservation policies. Despite the importance of accurate predictions in conservation, available models are not always as precise as required. Machine Learning models can provide reliable and repeatable results, as well as discover unknown relationships within datasets. They have been widely adopted by researchers in light of increasing concerns over ecosystems and are a powerful tool for conservation management. In this thesis, we have applied Machine Learning in the field of plant conservation, a major concern in the face of climate change and other environmental pressures. The purpose is to show the effectiveness of Machine Learning in the improvement of predictive capacity in conservation scenarios and its potential as an aid in the effective management of plant populations in the face of environmental change. To this aim, we explore the use of Machine Learning in two common plant conservation scenarios: when tuning the parameters of classical models is unfeasible from a practical point of view and when gathering field data is prohibitive in time and budget. First, we applied Machine Learning to improve the prediction accuracy in species abundance modeling in a hypersaline environment, specifcally the marshes at Finca Caracoles in Doñana National Park. The objective was to predict the abundance of plant communities, which form an intricate network of interactions among species and the abiotic environment. Using the information on the abundance of different plant species and physical variables, such as temperature and salinity, different predictive models were developed to modulate the abundance of multiple species that make up ecological communities at fne-resolution scales. Initially, mechanistic models were developed to understand how various abiotic and biotic processes regulate species population dynamics. However, the complexity of estimating all parameters from observational data proved to be a challenge in the parameterization and validation of these models in real communities. To address this limitation, we combined Machine Learning with mechanistic foundations to develop models that explain the performance of species and identify missing variables that affect species dynamics. Moreover, a two-step sequential modeling framework was implemented to overcome constraints related to species interactions. We f r s t infer potential species abundances by training models just with easily obtained abiotic variables and then we use this outcome to fne-tune the prediction of the realized species abundances when taking into account the rest of the predicted species in the community. This approach has the advantage of not requiring prior knowledge of the abundance of competitor individuals in the community or the need for manual collection of this information. Our fndings show that it is possible to develop reliable models for predicting complex systems through a combination of ecological knowledge and data-driven approaches, with potential applications in conservation. In a quite different scenario, we apply the quantitative predictive characterization approach to identify wild crop relative populations of the genus Lens with high value for in situ conservation. This quantitative characterization aims to understand the populations’ vulnerability to changes in environmental conditions that impact their sensitivity to a common disease, rust, caused by the fungus Puccinia graminis. Rust resistance is measured through a proxy quantitative value called DSr (Disease Severity relative), which is diffcult, expensive, and time-consuming to evaluate in the field. To overcome this obstacle, we implemented ML predictive models to identify populations potentially resistant to lentil rust. We also extended these models to consider Climate Change scenarios predicted by the Intergovernmental Panel on Climate Change (IPCC) and Shared Socio-Economic Pathways (SSPs) to assess the potential changes in rust-resistance of lentil crop wild relatives (CWR) populations under these conditions. Previous works have provided a binary outcome, but that approach was not f n e enough to identify optimal candidates for further evaluation and in situ conservation of this valuable trait. Our results have identifed 16 populations that thrive in protected areas that evolved to resist the disease and will be resilient as well under predicted Climate Change conditions. These populations may be used to improve commercial varieties through interbreeding to preserve the yields of this critical crop for human feeding.