Tesis Doctorales UPM: Consulta online

Autor: CERNIGLIARO, Gianluca

Título: Complexity and Quality Optimization for Multi-View plus Depth Video Coding

Fecha: 2019

Materia: Sin materia definida

Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

Departamento: SEÑALES, SISTEMAS Y RADIOCOMUNICACIONES

Acceso electrónico: http://oa.upm.es/55836/

Director/a(s):

Director/a: JAUREGUIZAR NÚÑEZ, Fernando

Resumen: El vídeo 3D, la televisión con elección libre del punto de vista y otros sistemas de vídeo tridimensional, han representado durante años, y todavía representan, una tendencia emergente dentro de las tecnologías de vídeo digital. Una de las representaciones más típicas de vídeo en 3D es el formato Multivista con Profundidad (Multiview plus Depth –MVD). Una escena representada en MVD se captura desde varias cámaras (puntos de vista), capturando diferentes representaciones de la escena desde una gran cantidad de direcciones. Para cada punto de vista se obtiene dos tipos de información: la textura de la escena, representada como una secuencia de vídeo 2D tradicional, con sus componentes de color habituales (RGB o similar), y la geometría de la escena, representada como una secuencia de vídeo en niveles de gris, llamada mapa de profundidad, que contiene la información relacionada con la distancia de los objetos a la cámara. Gracias a las múltiples representaciones de textura más profundidad, una escena 3D puede reconstruirse completamente, proporcionando al usuario la percepción de inmersión en la misma. Dado que la etapa de compresión es uno de los pasos más importantes en la representación digital de vídeo, la necesidad de codificar eficientemente la información aumenta cuando esta es utilizada para representar la escena en los sistemas 3D. Teniendo en cuenta que un escenario MVD involucra una cantidad creciente de datos debido a los múltiples puntos de vista, y que además cada uno de ellos incluye la nueva información de profundidad, las técnicas de codificación han tenido que evolucionar para minimizar el impacto del creciente volumen de datos y para adaptarse a las características de la información de profundidad. El trabajo presentado en esta tesis se centra en la adaptación de los métodos tradicionales de compresión basados en AVC/H.264 al entorno MVD. El objetivo perseguido es reducir la carga computacional, que se incrementa dramáticamente por la gran cantidad de representaciones de vídeo, pero también se busca aumentar la eficiencia del proceso de codificación en términos de tasa-distorsión, centrándose en la calidad del vídeo 3D renderizado a través de las múltiples representaciones de color más profundidad. La primera área de investigación ha sido la reducción de la carga computacional de la etapa de Decisión del Modo (Mode Decision –MD), que es una de las de mayor carga computacional del proceso de codificación. La información de geometría proporcionada por los mapas de profundidad ha sido explotada y utilizada para predecir la geometría y el movimiento de los objetos en la escena. Por otro lado, se ha realizado un análisis de la información de profundidad para tener un conocimiento sobre el movimiento en la escena, y que ha proporcionado el entendimiento de cómo está correlacionada la información de movimiento de la componente de textura y de la de profundidad. A continuación, el trabajo se centró en la reducción de la carga computacional de la codificación de los mapas de profundidad usando la etapa de Estimación del Movimiento (Motion Estimation –ME) además de la de MD, y explotando la correlación existente entre el movimiento de la textura y el de la profundidad. Como resultado, la carga computacional se ha reducido considerablemente en el proceso de compresión con una pérdida de calidad despreciable en la mayoría de los casos. En comparación con la búsqueda exhaustiva de modos y de vectores de movimiento de un codificador AVC/H.264 tradicional, el tiempo consumido se reduce hasta un 40 % en la compresión de la textura y hasta un 58 % en la compresión de la profundidad. Sin embargo, la reducción de la carga computacional no ha sido el único objetivo del trabajo presentado en esta tesis. Se ha explorado un área considerablemente novedosa, introduciendo nuevos paradigmas de codificación perceptual para la compresión de la profundidad. La última parte de esta tesis se ha centrado en la aplicación de metodologías de percepción, ampliamente explotadas en las técnicas tradicionales de compresión de vídeo 2D, para la compresión de la profundidad. La profundidad se usa solo para fines de reconstrucción 3D como en el caso de la generación de vistas sintéticas. Como esta información nunca se muestra al usuario, los artefactos debidos a su compresión afectarán solo a las representaciones reconstruidas en las vistas sintéticas de la textura. El trabajo de percepción mostrado en esta tesis se ha centrado en adaptar las técnicas tradicionales de compresión perceptiva 2D al formato de representación MVD, optimizando la calidad perceptiva de las vistas sintéticas. El rendimiento de las técnicas perceptivas propuestas para la compresión de profundidad se ha evaluado utilizando métricas de calidad perceptiva, obteniendo una reducción de la tasa de bits de hasta el 13% con una mejora de hasta 0,3 dB según las mediciones de Bjontergaard. ----------ABSTRACT---------- 3D Video, Free Viewpoint TV and other three-dimensional imaging systems have represented, and still represent, the emerging trend for digital video technologies. Multi View plus Depth (MVD) is one of the most typical 3D video representations. An MVD scene is recorded from several viewpoints, capturing many different representations from a wide amount of directions. For each viewpoint, two video components are captured: the scene texture, represented as a traditional 2D video with the usual color components (RGB or similar), and the scene geometry, represented as a graylevel image, called depth map, containing the information related to the distance of the scene objects from the viewpoint. Thanks to the multiple texture and depth representations, a 3D scene can be fully reconstructed, providing to the user the perception of immersion. As for the previous imaging technologies, given that the compression is one of the most important steps of a digital video representation pipeline, also in 3D video has risen the need of encoding efficiently the information used to represent the scene. Considering that an MVD scenario involves an increasing amount of data due to the multiple viewpoints, and also includes new information like the depth maps, the encoding techniques have evolved in order to minimize the impact of the data increasing and to adapt to the depth characteristics. The work presented in this thesis focuses on adapting the traditional compression methods based on AVC/H.264 to the MVD environment, aiming to reduce the computational load, dramatically increased by the high amount of video representations, but also to increase the efficiency of the encoding process in terms of rate-distortion, focusing on the quality of the 3D video rendered through the multiple texture and depth representations. The first area of research has been the reduction of the computational load of the Mode Decision (MD) stage, which is one of the most computationally expensive of the encoding process. The geometry information provided by the depth maps has been exploited and used to predict geometry and motion of the objects in the scene. On the other hand, analyzing the depth in order to have a knowledge about the motion of the scene has provided an understanding of how the motion information of texture and depth components are correlated to each other. Then, the work has focused on the reduction of the computational load of the depth maps compression, this time involving both MD and Motion Estimation (ME), exploiting the correlation between the motion of the texture and of the depth. The computational load has been considerably reduced in the compression process of both texture and depth maps, reaching up to 40% of reduction in time consumption in the compression of the texture, and up to 58% of reduction in the compression of the depth, when compared to the full search of modes and motion vector of a traditional AVC/H.264 encoder. In both cases, the quality loss has been negligible. However, the computational load reduction has not been the only goal of the work presented in this thesis. A considerably novel area has been explored, introducing new perceptual encoding paradigms for the compression of the depth. The last part of this thesis focuses on the application of perceptual methodologies, widely exploited in traditional 2D video compression techniques, but for the compression of the depth. The depth is used only for 3D reconstruction purposes as the generation of the synthetic views, and as it is never shown to the audience, the compression artifacts would affect only the reconstructed representations. The perceptual work shown in this thesis has then focused on adapting traditional 2D perceptual compression techniques to the MVD representation, optimizing the perceptual quality of the synthetic views. The performance of the proposed perceptual techniques applied to depth compression has been evaluated using perceptual quality metrics, reaching a reduction of the bit-rate up to 13% with an improvement of up to 0.3 dB according to the Bjontergaard measurements.