Logotipo de la Universidad Politécnica de Madrid

Data-Driven Resource Management of Reconfigurable Multi-Accelerator Systems in the Cloud-Edge Continuum

Autor: ENCINAS ANCHÚSTEGUI, Juan

Título: Data-Driven Resource Management of Reconfigurable Multi-Accelerator Systems in the Cloud-Edge Continuum

Fecha: 2025

Materia: ---

Escuela: E.T.S. DE INGENIEROS INDUSTRIALES

Departamento: AUTOMATICA, INGENIERIA ELECTRICA Y ELECTRONICA E INFORMATICA INDUSTRIAL

Acceso electrónico: https://oa.upm.es/91880/

Director/a(s):

  • Director/a: OTERO MARNOTES, Andres
  • Director/a: RODRÍGUEZ MEDINA, Alfonso

Resumen: Esta Tesis aborda la integración y gestión de recursos reconfigurables en el continuo cloud-edge. Se enfoca en sistemas reconfigurables multiacelerador sobre Field-Programable Gate Arrays (FPGAs), donde la reconfiguración dinámica parcial (DPR) permite explotar el paralelismo a nivel de datos (varias réplicas) y de tareas (varias tareas). La Tesis introduce una infraestructura que despliega y monitoriza cargas de trabajo dinámicas en nodos FPGA heterogéneos, desde placas de gama baja hasta dispositivos destinados al cloud, sin ajustes entre plataformas. La infraestructura amplía el framework ARTICo 3 , soportando dispositivos para el cloud y ejecución multiusuario; emplea un modelo cliente-servidor que coordina la aceleración en FPGA entre múltiples usuarios; y empaqueta aceleradores y software en contenedores orquestados con Kubernetes y Liqo para gestionar el movimiento y escalado de tareas de forma transparente, bajo restricciones de latencia, rendimiento o consumo. Se incluye un framework de monitorización que genera trazas de consumo y rendimiento, sin introducir penalizaciones de rendimiento en el sistema. Para afrontar la interacción entre kernels que se ejecutan en paralelo, esta Tesis propone una metodología de caracterización en tiempo de ejecución que entrena modelos basados en datos, para predecir consumo y rendimiento bajo los efectos de la interacción entre kernels. Se emplean modelos de aprendizaje automático (ML) incrementales que se actualizan durante la ejecución del sistema, evitando reentrenamientos completos cuando cambian las condiciones del sistema. La gestión del entrenamiento de estos modelos se realiza con un mecanismo de orquestación dedicado, que limita el impacto de los modelos en el sistema, reduciendo el impacto del modelado del >20% en alternativas de aprendizaje continuo a <5%, manteniendo la precisión de predicción dentro del 4% respecto al enfoque continuo. Los modelos son agnósticos al dispositivo y se han validado con distintas arquitecturas, métodos de reconfiguración y de medida de consumo, sin requerir ajustes por dispositivo. Basada en estas predicciones, una metodología adaptativa gestiona la planificación de tareas sobre los recursos de la FPGA, con un enfoque multiobjetivo. Se emplea la metaheurística Crow Search Algorithm, adaptada a la naturaleza discreta del problema de planificación en FPGA, y explora el espacio de soluciones, jugando entre rendimiento, energía y reparto justo de recursos. Las soluciones candidatas se evalúan con los modelos en tiempo de ejecución, que consideran el comportamiento aislado y el impacto de la interferencia entre kernels para tomar decisiones. En el peor escenario, esta optimización reduce el tiempo de ejecución en un 11% frente a implementaciones no adaptativas, logrando ahorros energéticos proporcionales, y tiempos de espera significativamente menores cuando se prioriza el reparto justo de los recursos. Al combinar virtualización, monitorización, modelado y planificación de tareas, esta Tesis aporta una implementación open-source de extremo a extremo que abstrae los detalles del hardware y es escalable en el continuo cloud-edge. La virtualización basada en contenedores habilita el uso de recursos remotos de forma transparente. La capa de monitorización proporciona las trazas necesarias para comprender el comportamiento del sistema. La capa de caracterización transforma las trazas en predicciones precisas de consumo y rendimiento. Por último, el planificador utiliza esas predicciones para guiar decisiones en tiempo de ejecución que minimizan las penalizaciones por interacción entre kernels. Una validación extensa (basada en benchmarks y casos de uso integrados) muestra que esta metodología mantiene sus beneficios en diferentes dispositivos, soporta escenarios tanto de alto rendimiento como de bajos recursos y ofrece una base sólida para la implementación de aceleración en FPGA en entornos modernos del continuo cloud-edge. ABSTRACT This Thesis targets the practical integration and resource management of reconfigurable computing into the cloud-edge continuum. The focus is on reconfigurable multi-accelerator systems on Field-Programmable Gate Arrays (FPGAs), where the use of Dynamic and Partial Reconfiguration (DPR) enables the exploitation of data-level parallelism (i.e., parallel replicas) and task-level parallelism (i.e., parallel tasks). This Thesis introduces a platform-agnostic infrastructure that deploys and monitors dynamic workloads on heterogeneous FPGA nodes, from low-end embedded boards to cloud-grade cards, without platform-specific changes. The infrastructure extends the ARTICo 3 framework for cloud support and multi-tenant operation; uses a client/daemon execution model to coordinate FPGA acceleration between multiple users while enforcing isolation; and packages accelerators and software into containers orchestrated with Kubernetes and Liqo for seamless multi-cluster resource sharing, migration and scaling under latency, throughput, or power constraints. A modular monitoring framework exposes synchronized power and performance traces with high-resolution and lightweight modes, keeping low overhead across platforms. To cope with interference among concurrently running kernels, the Thesis proposes a run-time workload-characterization methodology that learns data-driven models of power and performance under kernel-interaction effects. Starting from offline feasibility studies, it advances to incremental Machine Learning (ML) models that update online as the system operates, avoiding full retraining when workloads or platform conditions change. A dedicated learning-orchestration mechanism handles model updates to avoid competing with accelerator execution, reducing modeling overhead from >20% in continuous learning alternatives to <5% while keeping prediction accuracy within 4% of the continuous approach. The models are device-agnostic and have been validated on boards with diverse architectures and power-measurement capabilities, requiring minor device-specific tuning. Built on these predictions, an adaptive, conflict-aware workload optimization methodology addresses task scheduling as a multi-objective optimization over discrete FPGA resources. The strategy employs the Crow Search Algorithm (CSA) metaheuristic, adapted to the discrete nature of the FPGA scheduling problem, and explores the solution space, trading between makespan, energy and fairness. Candidate solutions are evaluated with the run-time models, which account for standalone behavior and interference-induced slowdowns to make decisions. A comprehensive sensitivity analysis guides parameter settings to meet different operational goals. Even under worst-case conditions, the scheduler reduces total execution time by up to 11% relative to non-adaptive baselines, yielding proportional energy savings that are essential on resource-constrained edge devices, and significantly lower waiting times when fair use of resources is prioritized. By combining virtualization, monitoring, modeling and scheduling, this Thesis delivers an open-source, end-to-end approach that abstracts hardware details and scales across the cloud-edge continuum. Container-based virtualization enables seamless migration and transparent use of remote resources. The monitoring layer provides the run-time traces needed to understand system behavior. The characterization layer turns traces into accurate predictions of power and performance. Finally, the scheduler uses those predictions to guide run-time decisions that minimize interaction penalties. Extensive validation, from dwarf-inspired High-Level Synthesis (HLS) benchmarks to integrated use cases, shows that the methodology sustains its benefits without per-platform tuning, supports both high-performance and resource-constrained scenarios and offers a foundation to practical, portable FPGA acceleration in modern cloud-edge continuum environments.