Tesis:
Desarrollo de metodología para la predicción de radiación solar basada en las observaciones meteorológicas e inteligencia artificial enriquecidas con información espaciotemporal
- Autor: BENAVIDES CÉSAR, Llinet
- Título: Desarrollo de metodología para la predicción de radiación solar basada en las observaciones meteorológicas e inteligencia artificial enriquecidas con información espaciotemporal
- Fecha: 2025
- Materia:
- Escuela: E.T.S.I. EN TOPOGRAFIA, GEODESIA Y CARTOGRAFIA
- Departamentos: INGENIERIA TOPOGRAFICA Y CARTOGRAFIA
- Acceso electrónico: https://oa.upm.es/88501/
- Director/a 1º: MANSO CALLEJO, Miguel Ángel
- Director/a 2º: CIRA, Calimanut-Ionut
- Resumen: Accurate prediction of the solar resource is important because of the inherent variability associated with solar energy and its significant cost impact on energy producers. To better predict solar variability, spatio-temporal methods exploit spatially distributed solar time series, attempting to improve prediction accuracy by including neighbouring solar information. Accurate solar prediction recently depends on advances in the field of artificial intelligence and the availability of databases with large amounts of information on meteorological variables. This thesis contributes to this field with contributions on key elements of the prediction process.
A large-scale, public solar irradiance dataset, CyL-GHI, containing cleaned data from 37 stations located in the Spanish region of Castilla y León, is introduced. The proposed dataset, published both in raw format and with quality processing applied, covers continuously 18 years (the period from January 1, 2002 to December 31, 2019), with a temporal resolution of 30 minutes. CyL-GHI can be of great importance in studies focused on the spatio-temporal characteristics of solar irradiance data, due to the geographical information considered that allows a regional analysis of the phenomena (the 37 stations cover a land area of more than 94,226 km2).
We evaluated the impact of the inclusion of a stationary index (e.g., clear sky or clearness index) in the modelling workflow in the realm of very short-term spatio-temporal predictions. Several prediction models were considered and it was observed that the impact is model dependent. Persistence does not benefit from it for such short time scales; however, statistical models achieved between 0.5 and 2.5 percentage points (pp) additional in terms of forecasting skill. Machine learning models achieved between 0.9 and 1.9 pp more than linear regression, indicating that stationarization reveals nonlinear patterns in the data. Finally, the inclusion of solar elevation and azimuth angles as input data was tested. This data from the sun's apparent position can compensate for the non-stationarity of solar inputs and can help models differentiate daily and seasonal variability from short-term weather-driven variability.
Three new convolutional neural network models, the spatio-temporal convolutional neural networks version 1 and 2 (ST_CNN_v1 and ST_CNN_v2) and the spatio-temporal dilated convolutional neural network (ST_Dilated_CNN), were contributed for solar prediction and processing of Global Horizontal Irradiance data enriched with meteorological and astronomical variables. The comparative analysis of the proposed models with two traditional reference models shows that the proposed ST_Dilated_CNN model outperforms the rest in capturing long-range dependencies to achieve a Mean Absolute Error of 31.12 W/m2, a Mean Squared Error of 54.07 W/m2 and a Forecast Skill of 37.21%. Statistical analyses performed on the test set indicated highly significant differences in performance, with the model with the lowest variability in performance being ST_CNN_v2. The statistical tests applied confirmed the robustness and reliability of the proposed models under different conditions.
As a final contribution, a novel end-to-end methodology for solar irradiance prediction is proposed. This methodology is based on three phases; namely, Phase_1, related to data acquisition and preparation, Phase_2, related to the proposed imputation with a BERT (Bidirectional Encoder Representations from Transformers) model, and Phase_3, related to training and prediction with new models based on deep learning. These phases can be applied disjoint and were used on two public datasets accessible to the scientific community. Each of the proposed phases proved to be valuable for the workflow, and the application of the novel method provided performance gains of up to 3 percentage points (3%) compared to the traditional approach.
RESUMEN
La predicción precisa del recurso solar es importante debido a la variabilidad inherente asociada a la energía solar y al impacto económico para los productores de energía. Para predecir mejor la variabilidad solar, los métodos espaciotemporales explotan series temporales solares distribuidas espacialmente, tratando de mejorar la precisión de la predicción mediante la inclusión de información solar vecina. Desarrollándose gracias a avances en el campo de la inteligencia artificial y de la disponibilidad de grandes bases de datos. Esta tesis contribuye a este campo con aportes en elementos claves del proceso de predicción.
Se introduce un conjunto de datos de irradiancia solar a gran escala y de carácter público, CyL-GHI, que contiene datos depurados de 37 estaciones situadas en la comunidad autónoma de Castilla y León. El conjunto de datos propuesto, se publica tanto en formato bruto como con el procesado de calidad aplicado, y cubre de forma continua 18 años (el período comprendido entre el 1 de enero de 2002 y el 31 de diciembre de 2019), con una resolución temporal de 30 minutos. CyL-GHI puede resultar relevante en estudios centrados en las características espaciotemporales de los datos de irradiancia solar, debido a la información geográfica considerada que permite un análisis regional de los fenómenos (comprende una superficie terrestre superior a 94.226 km2).
Evaluamos el impacto de la inclusión de un índice estacionario (el índice de cielo despejado o de claridad) en el flujo de trabajo de modelización en el ámbito de las predicciones espaciotemporales a muy corto plazo. Se han considerado varios modelos de predicción y se ha observado que el impacto depende del modelo. La persistencia no se beneficia de ello para escalas temporales tan cortas; sin embargo, los modelos estadísticos lograron entre 0,5 y 2,5 puntos porcentuales (pp) adicionales en términos de habilidad de predicción. Los modelos de aprendizaje automático obtienen entre 0,9 y 1,9 puntos porcentuales más que una regresión lineal, lo que indica que la estacionalización revela patrones no lineales en los datos. Por último, se ha probado que la inclusión de los ángulos de elevación y azimut solar como datos de entrada pueden compensar la falta de estacionariedad y ayudar a los modelos a diferenciar la variabilidad diaria y estacional de la variabilidad a corto plazo impulsada por las condiciones meteorológicas.
Se aportan tres nuevos modelos de redes neuronales convolucionales, las redes neuronales convolucionales espaciotemporales versión 1 y 2 (ST_CNN_v1 y ST_CNN_v2) y la red neuronal convolucional dilatada espaciotemporal (ST_Dilated_CNN), para la predicción solar, enriquecidos con variables meteorológicas y astronómicas. El análisis comparativo de estos modelos con dos modelos de referencia tradicionales muestra que el modelo ST_Dilated_CNN propuesto supera al resto capturando las dependencias a largo plazo arrojando un Error Medio Absoluto de 31,12 W/m2, un Error Medio Cuadrático de 54,07 W/m2 y una Habilidad de Predicción del 37,21%. Las pruebas estadísticas aplicadas confirman la robustez y fiabilidad de los modelos propuestos en diferentes condiciones.
Como contribución final se propone una novedosa metodología end-to-end para la predicción de la irradiancia solar. Esta metodología se basa en tres fases; Fase_1 relacionada con la adquisición y preparación de los datos, Fase_2 relacionada con la imputación propuesta con un modelo BERT (Bidirectional Encoder Representations from Transformers), y Fase_3 relacionada con el entrenamiento y predicción con modelos de aprendizaje profundo. Estas fases de la metodología propuesta pueden aplicarse de forma disjunta y se han utilizado sobre dos conjuntos de datos públicos accesibles para la comunidad científica. Cada una de las fases ha demostrado ser valiosa para el flujo de trabajo, y la aplicación en conjunto ha evidenciado mejoras de hasta 3 pp en comparación con el enfoque tradicional.