Tesis:

Deep Reinforcement Learning Implementation for Video Transmission Optimization in New Generation Networks


  • Autor: RÍO PONCE, Alberto del

  • Título: Deep Reinforcement Learning Implementation for Video Transmission Optimization in New Generation Networks

  • Fecha: 2025

  • Materia:

  • Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

  • Departamentos: TECNOLOGIAS ESPECIALES APLICADAS A LA TELECOMUNICACION

  • Acceso electrónico: https://oa.upm.es/85749/

  • Director/a 1º: JIMÉNEZ BERMEJO, David

  • Resumen: This thesis investigates the optimization of multimedia streaming through Deep Reinforcement Learning (DRL) algorithms within advanced network architectures. The study addresses the complex challenges inherent in high-bandwidth, low-latency environments, where fluctuating network conditions and diverse content types require adaptive solutions. Four distinct use cases were developed, three of them targeting specific aspects of Quality of Experience (QoE), while the last one offers a direct comparison on general environments. In the first use case, the Advantage Actor--Critic (A2C) algorithm was employed to optimize the QoE of video streaming services within the 5G-Media platform. The results demonstrated a significant improvement in the Mean Opinion Score (MOS), indicating a higher QoE in comparison to traditional streaming methods. Training the A2C model resulted in a more than 300% improvement in the average reward function. The percentage of poor QoE values (MOS 1-2) reduced from almost 25% to 10%, while the proportion of good quality values (MOS >3.5) increased from 65% to 90%. The second use case extended these principles to multisite gaming streaming optimization, utilizing the Asynchronous Advantage Actor-Critic (A3C) algorithm to manage the complexities of distributed environments on the 5G-EVE platform. The algorithm's ability to handle parallel environments resulted in a more responsive and immersive gaming experience, highlighting its effectiveness over A2C in such contexts. A3C demonstrated an exceptional increase in rewards, by 500% over the training periods. A3C achieved a 20% increase in good blockiness values (>0.65), a 15% reduction in the appearances of block loss artifacts and a bitrate improvement ranging from 5 to 7 Mbps during transmission. The third use case applied the Proximal Policy Optimization (PPO) algorithm to optimize cinematic experiences within the B5Gemini platform. This use case included additional information regarding network status, and PPO was particularly effective in balancing network performance with video quality. The PPO algorithm achieved a 66.87% reduction in block loss, improved the bitrate by 17.18%, and enhanced the reward metric by 73.02%. The last use case showcased a direct evaluation of the A3C and PPO algorithms across general environments. While A3C was more suitable for environments requiring rapid adaptation and parallel processing, PPO demonstrated superior stability and efficiency. In the CartPole scenario, A3C took around 90 seconds to meet the reward threshold, whereas PPO took up to 452 seconds. Nevertheless, PPO outperformed A3C, attaining 10.50% compared to 4.45% for values above the threshold. In the more complex Lunar Lander environment, PPO demonstrated greater stability with fewer fluctuations. The trend on training time is similar as previous environment, reducing on A3C almost half of the time in comparison with PPO. In terms of rewards above threshold, all of them surpassed the 20%. This thesis demonstrates that DRL algorithms are effective tools for multimedia streaming optimization. This research contributes to the field by not only showcasing the practical applications of DRL in real-world scenarios but also by providing a comparative analysis of leading algorithms in varied contexts. RESUMEN Esta tesis investiga la optimización de la transmisión multimedia a través de algoritmos de aprendizaje por refuerzo profundo (DRL) dentro de arquitecturas de red avanzadas. El estudio aborda los desafíos inherentes a los entornos de gran ancho de banda y baja latencia, donde las condiciones de red fluctuantes y los diversos tipos de contenido requieren soluciones adaptativas. Se desarrollaron cuatro casos de uso, tres de ellos orientados a aspectos específicos de la calidad de la experiencia (QoE), mientras que el último ofrece una comparación directa. En el primer caso de uso, se empleó el algoritmo Advantage Actor-Critic (A2C) para optimizar la QoE de la transmisión de video dentro de la plataforma 5G--Media. Los resultados demostraron una mejora significativa en la puntuación de opinión media (MOS). El entrenamiento del modelo A2C resultó en una mejora de más del 300% en la función de recompensa promedio. El porcentaje de valores de QoE deficientes (MOS 1-2) se redujo del 25% al 10%, mientras que los valores de buena calidad (MOS >3.5) aumentaron del 65% al 90%. El segundo caso de uso extendió estas ideas a la optimización de la transmisión de juegos en múltiples lugares, utilizando el algoritmo Asynchronous Advantage Actor-Critic (A3C) para gestionar los entornos distribuidos en la plataforma 5G-EVE. A3C demostró un aumento en las recompensas en un 500% durante los períodos de entrenamiento. Logró un aumento del 20% en los buenos valores de aparición de bloques (> 0.65), una reducción del 15% en la pérdida de bloques y una mejora de la tasa de bits que incrementa desde 5 a 7 Mbps durante la transmisión. El tercer caso de uso aplicó el algoritmo de Optimización de Políticas Proximales (PPO) para optimizar las experiencias cinematográficas dentro de la plataforma B5Gemini. Este caso de uso incluyó información adicional sobre el estado de la red, y PPO fue particularmente eficaz para equilibrar el rendimiento de la red con la calidad del video. El algoritmo PPO logró una reducción del 66.87% en la pérdida de bloques, mejoró la tasa de bits en un 17.18% y mejoró la métrica de recompensa en un 73.02%. El último caso de uso mostró una evaluación directa de los algoritmos A3C y PPO en entornos generales. Si bien A3C era más adecuado para entornos que requieren una adaptación rápida y procesamiento paralelo, PPO demostró una estabilidad y eficiencia superiores. En el escenario CartPole, A3C tardó alrededor de 90 segundos en alcanzar el umbral de recompensa, mientras que PPO tardó hasta 452 segundos. Sin embargo, PPO superó a A3C, alcanzando un 10.50% en comparación con el 4.45% de los valores por encima del umbral. En el entorno más complejo del módulo de Lunar Lander, PPO demostró una mayor estabilidad con menos fluctuaciones. La tendencia en el tiempo de entrenamiento es similar al entorno anterior, reduciéndose en A3C casi a la mitad del tiempo en comparación con PPO. En términos de recompensas por encima del umbral, todos ellos superaron el 20%. Esta tesis demuestra que los algoritmos DRL son herramientas efectivas para la optimización de la transmisión multimedia. Esta investigación contribuye al campo no solo mostrando las aplicaciones prácticas de DRL en escenarios del mundo real, sino también proporcionando un análisis comparativo de los algoritmos líderes en diversos contextos.