Tesis:

Understanding and Assessing Quality of Experience in Immersive Communications


  • Autor: ORDUNA CORTILLAS, Marta

  • Título: Understanding and Assessing Quality of Experience in Immersive Communications

  • Fecha: 2023

  • Materia:

  • Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

  • Departamentos: SEÑALES, SISTEMAS Y RADIOCOMUNICACIONES

  • Acceso electrónico: https://oa.upm.es/76525/

  • Director/a 1º: GARCÍA SANTOS, Narciso

  • Resumen: El desarrollo del hardware y software que hacen posible las tecnologías de Realidad Extendida (XR, del inglés eXtended Reality), también llamada Realidad Mixta (MR, del inglés MiXed Reality), es constante, mejorando las experiencias ofrecidas a las personas usuarias. Uno de los grandes avances en XR fue la introducción de información visual real en el entorno virtual, consiguiendo que la interacción con la escena fuera más natural y haciendo que aumentara la aceptación de estas tecnologías XR. Posteriormente, aparecieron los vídeos de 360 grados u omnidireccionales que cubren toda la escena. Estos vídeos son grabados con cámaras con lentes omnidireccionales que cubren los 360 grados de la escena para ser visualizados, mayoritariamente, con gafas de realidad virtual (HMD, del inglés Head-Mounted Display). Los HMD permiten que únicamente se vea una parte de la escena que cambia síncronamente con los movimientos de la cabeza. Esta tesis va un paso más allá y considera una comunicación en la que el vídeo de 360 grados se captura y transmite en tiempo real. Prevemos que este tipo de comunicación será una realidad en la sociedad en las próximas dos décadas. Nuestro objetivo es investigar la tecnología que podría hacer esto posible y diseñar una metodología de evaluación que sea escalable. Para hacer efectivas las experiencias inmersivas, es necesario garantizar una Calidad de Experiencia (QoE, del inglés Quality of Experience) aceptable, definida como el nivel de agrado o molestia de la persona usuaria con una aplicación o servicio. En base a este contexto, esta tesis presenta una investigación transversal que busca evaluar aspectos técnicos y socioemocionales en el paradigma de las comunicaciones inmersivas, en concreto, con vídeos de 360 grados. La investigación sigue un recorrido incremental. Partiendo de una configuración de referencia, se va modificando y evaluando para comprender los desafíos de las tecnologías XR en términos de evaluación de QoE. Asimismo, teniendo la información visual y, por tanto, la calidad del vídeo como uno de los factores más influyentes sobre la QoE, validamos una de las métrica objetivas más robustas desarrollada y utilizada sobre contenidos 2D, Video Multimethod Assessment Fusion (VMAF), en vídeos de 360 grados. Para evaluar la calidad de vídeo en pruebas de evaluación subjetivas, validamos una metodología, Stimulus Discrete Quality Evaluation (SSDQE), con el objetivo de aumentar la validez ecológica de los experimentos ya que permite su aplicación con contenidos de larga duración que dan cabida a una narrativa y contexto. Gracias a la posibilidad de que haya una narrativa y un contexto, validamos que no únicamente permite la evaluación de aspectos técnicos, sino que también permite la evaluación de aspectos socioemocionales que afectan a la QoE. El sistema de comunicación inmersivo se explora principalmente desde la perspectiva de la persona que está en remoto, con conclusiones de bajo nivel como por ejemplo, la capacidad de visualizar las manos o la naturalidad de utilizar el táctil del HMD o los mandos para interactuar con el entorno virtual durante la experiencia. De la misma manera, presentamos conclusiones de más alto nivel, como por ejemplo, en relación a la perspectiva de adquisición del contenido. Mediante el diseño y realización de pruebas subjetivas en las que se simula la comunicación hasta en pruebas con comunicación interactiva, evaluamos diferentes factores que influyen sobre la QoE, mejorando su comprensión. Comprender el paradigma de la evaluación de QoE nos permite presentar una guía de buenas prácticas para diseño de experimentos. Lo presentamos desde un marco común para los dos puntos de vista principales de la evaluación de QoE, las telecomunicaciones y el área de interacción hombre-máquina (HCI, del inglés Human Computer Interaction), de manera que sea una herramienta útil para personas con distinto perfil y experiencia. Como caso de uso de aplicación, se analiza el caso de tele-educación. Al prototipo de referencia le añadimos un módulo de análisis de vídeo para detectar eventos de interés en la escena de 360 grados para que sean notificados a los/as estudiantes que siguen la clase en remoto y guiar así su atención. Según el análisis realizado, las notificaciones y el sistema como solución para tele-educación tienen una gran aceptación por parte de los/as estudiantes. Además, se ha hecho pública una base de datos de vídeos de 360 grados que hemos generado y anotado a partir de clases reales para que pueda utilizarse en el entrenamiento de algoritmos de aprendizaje máquina y en pruebas de evaluación subjetiva. Esta tesis es una contribución para entender el paradigma de las comunicaciones inmersivas para que gracias a su continuo desarrollo y evaluación lleguen a ser una realidad en la sociedad. ABSTRACT eXtended Reality (XR) technology, also called Mixed Reality (MR), is in constant development and improvement in terms of hardware and software to offer relevant experiences to users. One of the advances in XR has been the introduction of real visual information in the virtual environment, offering a more natural interaction with the scene and a greater acceptance of technology. Another advance has been achieved with the representation of the scene through a video that covers the entire environment, called 360-degree or omnidirectional video. These videos are acquired by cameras with omnidirectional lenses that cover the 360-degrees of the scene and are generally viewed by users through a head-tracked Head Mounted Display (HMD). Users only visualize a subset of the 360- degree scene, called viewport, which changes with the variations of the viewing direction of the users, determined by the movements of the head. This thesis goes one step further and considers a real-time 360-degree video communication for teleconferencing purposes. We envision that this kind of communication will become mainstream within the next couple of decades. Our target is to research the technology that could make this possible and design a proper assessment methodology that scales for massive usage. Therefore, it is necessary to guarantee an acceptable Quality of Experience (QoE), defined as the degree of delight or annoyance of the user with an application or service, to increase the use of immersive communications. Based on this, this thesis presents a cross-sectional research to include the assessment of technical and socioemotional aspects in the 360-degree video communications paradigm. The research follows an evolutionary approach, modifying different conditions of the reference configuration of a 360-degree video communication prototype to understand the challenges of XR technologies in terms of QoE assessment. Starting from video quality, as a significant factor impacting QoE, we validate the Video Multimethod Assessment Fusion (VMAF) objective metric on 360-degree video, designed and developed for 2D content by Netfix, saving time and resources. To evaluate video quality in subjective assessments, we validate the Stimulus Discrete Quality Evaluation (SSDQE) methodology, which can be used with contents of long duration, allowing narrative. Then, we validate the fact that SSDQE allows the simultaneous evaluation of socioemotional and technical aspects, increasing the ecological validity of the experiments. The immersive communication system is mainly explored from the perspective of the remote user, with conclusions drawn on low-level (e.g., possibility of visualizing the hands or using the touchpad or the handheld controller to interact with the virtual environment) and high-level of the scenario (e.g., acquisition perspective). By conducting assessemnts based on both simulated and interactive communications, valuable insights have been concluded. Furthermore, what we have learned about design of experiments is summarized as a best practices guide for developers and researchers. Due to the transversal research, the guidelines are proposed from a common framework for two of the main viewpoints in QoE assessment, telecommunications and human computer interaction areas. The use case of tele-education is analyzed, including a video analysis module added to detect events of interest around the 360-degree scene and notify them to the remote students, helping to guide their attention. The notifications and the system as solution for tele-education are highly accepted by students. Additionally, we provide a database of 360-degree videos of real lessons with annotated events of interest, which is publicly available for training machine learning algorithms and subjective assessments. This thesis is a contribution to understand the paradigm of immersive communications to continue developing and evaluating them until they become a reality in society.