Tesis:

GPU-Based Real-Time Depth Generation for Immersive Video Applications


  • Autor: SANCHO ARAGÓN, Jaime

  • Título: GPU-Based Real-Time Depth Generation for Immersive Video Applications

  • Fecha: 2023

  • Materia:

  • Escuela: E.T.S.I. Y SISTEMAS DE TELECOMUNICACIÓN

  • Departamentos: INGENIERIA TELEMATICA Y ELECTRONICA

  • Acceso electrónico: https://oa.upm.es/76730/

  • Director/a 1º: JUÁREZ MARTÍNEZ, Eduardo
  • Director/a 2º: SALVADOR PEREA, Rubén

  • Resumen: En los últimos años, las técnicas de realidad aumentada y vídeo inmersivo han surgido como solución para mejorar la visualización por ordenador. Estas técnicas pretenden resolver el problema construyendo representaciones tridimensionales precisas de la realidad por las que se pueda navegar libremente y a las que se pueda añadir información basada en ordenador. Sin embargo, los requisitos de las tecnologías de realidad aumentada y vídeo inmersivo superan el nivel tecnológico actual. Requieren capturar la posición de los objetos en lugar de sólo su intensidad de color, lo que suele expresarse en mapas de profundidad, es decir, imágenes de distancia a la cámara. Hoy en día, aunque posible, la generación de mapas de profundidad presenta una limitación clave: la calidad de los mapas de profundidad está supeditada a su tiempo de generación, lo que aleja la generación de mapas de profundidad de alta calidad de las aplicaciones en tiempo real. Esta tesis doctoral pretende explorar las técnicas actuales de generación de profundidad, compararlas y proponer nuevos métodos para obtener mapas de profundidad de alta calidad y en tiempo real para aplicaciones de realidad aumentada y vídeo inmersivo. Para ello, se centra en tres de las técnicas más relevantes para obtener información de profundidad en el estado del arte actual (State of the Art (SotA)): (i) la estimación de profundidad multivista RGB, (ii) la captura de profundidad mediante cámaras de tiempo de vuelo (Time of Flight (ToF)), y (iii) la captura de campos de luz (Light Field (LF)) mediante cámaras plenópticas 2.0. La estimación de profundidad multivista RGB se basa en el uso de varios sensores de cámara situados en diferentes posiciones. Aunque se ha explorado intensamente, no existe ningún algoritmo capaz de ofrecer una alta calidad a altas frecuencias de cuadro. Por ejemplo, los algoritmos de estimación de profundidad de alta calidad en el estado del arte actual presentan tiempos de procesamiento de varios órdenes de magnitud por encima del tiempo real. La captura de profundidad mediante cámaras ToF emplea un sensor activo y otro pasivo para medir el tiempo de vuelo de una señal. Este proceso puede realizarse a 30 cuadros por segundo (Frames Per Second (FPS)); sin embargo, los mapas de profundidad generados presentan bajas resoluciones espaciales y artefactos característicos. Además, es necesario alinear la captura de profundidad con un sensor RGB. Estos factores provocan una pérdida de calidad significativa, en comparación con los algoritmos de estimación de profundidad mencionados anteriormente. La captura de LF mediante cámaras plenópticas 2.0 también permite una generación de profundidad a 30 FPS. Estas cámaras no tienen el problema de alinear la captura RGB con la profundidad, pero presentan un problema fundamental: la información de profundidad real sólo puede generarse en los bordes de color, haciendo necesarios algoritmos de extensión de profundidad para generar un mapa de profundidad completo. La calidad de la profundidad resultante dependiente, por tanto, de estos algoritmos, que pueden ralentizar la velocidad de fotogramas. Además, el nivel de ruido de profundidad entre fotogramas en las cámaras probadas es elevado, en comparación con las otras técnicas. A partir de estos hallazgos, este doctorado explora dos líneas de investigación para mejorar el estado del arte actual bien en la calidad de la profundidad capturada, o en la tasa de cuadros con que se captura. Para ello, utiliza aceleradores gráficos (Graphics Processing Units (GPUs)) para la aceleración de la estimación de profundidad multivista basada en cámaras RGB, y para llevar a cabo el refinamiento de los mapas de profundidad capturados desde cámaras To F. En el caso de la multivista RGB, el principal problema es el tiempo de procesamiento necesario para generar un mapa de profundidad para los algoritmos de estimación de profundidad de alta calidad: Depth Estimation Reference Software (DERS) y Immersive Video Depth Estimation (IVDE) necesitan del orden de decenas a miles de segundos para generar un cuadro de profundidad en una estación de trabajo de gama alta. Por esta razón, esta tesis doctoral introduce Graph cuts Reference depth estimation in GPU (GoRG), un algoritmo de estimación de profundidad acelerado en GPU basado en una novedosa aceleración del método de optimización graph cuts. Los resultados muestran que GoRG obtiene resultados de calidad de profundidad 0.12 dB Immersive Video – Peak Signal to Noise Ratio (IV-PSNR) peores que el mejor algoritmo de estimación de profundidad de alta calidad probado, con la ventaja de unos tiempos de procesamiento dos órdenes de magnitud inferiores. Aunque significativamente más cerca del tiempo real, el tiempo de procesamiento conseguido por GoRG se sitúa entre 1 y 10 s por cuadro para un ordenador de gama alta y GPU, lo que sigue siendo insuficiente para aplicaciones en tiempo real. Siguiendo esta línea, esta tesis doctoral también investiga el uso de cámaras hiperespectrales (Hyperspectral (HS)) en sistemas multivista para generar información de profundidad. Estas cámaras se diferencian de las cámaras RGB habituales en el número de bandas espectrales que capturan, que puede oscilar entre decenas y cientos, lo que permite caracterizar espectralmente los elementos de la escena capturada. En este contexto, se presenta HS–GoRG, una extensión de GoRG para arrays hiperespectrales multivista. Los resultados muestran que HS–GoRG puede producir resultados con un error Root Mean Squared Error (RMSE) de 6,68 cm (11.3 % del rango total de profundidad probado), aunque principalmente localizado alrededor del error de 2-4 cm (3.3 % - 6.6 % del rango total de profundidad probado) en 2.1 s por cuadr, de media. Este resultado muestra la dificultad de utilizar el algoritmo desarrollado en entornos de tiempo real. En cuanto al refinamiento de profundidad ToF, esta tesis doctoral propone dos nuevos algoritmos de refinamiento de profundidad para cámaras ToF: GoRG–Prior, y Kinect Refinement Tool (KiRT). GoRG–Prior es un método de refinamiento de profundidad basado en cortes de gráficos que mejora la captura en bruto del Intel L515 LiDAR en 0.37 dB IV-PSNR a una tasa de cuadros de 10 FPS, de media, en comparación con los 0.18 dB IV-PSNR a una tasa de cuadro de 250 FPS conseguidos por el segundo algoritmo de mejor calidad probado. El elevado tiempo de procesamiento de GoRG–Prior motivó el desarrollo de KiRT, que reduce la complejidad del algoritmo sustituyendo graph cuts por un algoritmo basado en fronteras. KiRT es un algoritmo de refinamiento de profundidad acelerado en GPU para configuraciones de múltiples cámaras que alcanza frecuencias de cuadro cercanas a 55 FPS, al tiempo que obtiene resultados de calidad ligeramente mejores para la cámara Azure Kinect DK que el segundo algoritmo de mejor calidad probado: 3.07 dB IV-PSNR frente a 2.97 dB IV-PSNR. La principal diferencia subjetiva apreciada entre ambos es la capacidad de KiRT para generar bordes de profundidad abruptos y un mejor rendimiento en regiones de gran profundidad vacías. Estas aportaciones de la tesis doctoral se han probado en dos casos reales enmarcados en los proyectos de investigación: clasificacióN intraopEratoria de tuMores cErebraleS mediante modelos InmerSivos 3D (NEMESIS-3D-CM) y Holographic Vision for Immersive Tele-Robotic OperatioN (HoviTron). NEMESIS- 3D-CM es un proyecto que persigue mejorar las herramientas de visualización médica para operaciones de resección de tumores cerebrales. Los resultados muestran la viabilidad de utilizar el Intel L515 LiDAR más GoRG–Prior en un escenario real para generar una realidad virtual en tiempo real que puede ayudar a los neurocirujanos durante las operaciones de resección de tumores cerebrales. HoviTron persigue generar una representación en tiempo real de alta calidad de escenas en aplicaciones de operaciones telerrobóticas. Estas escenas necesitan ser presentadas en un LF–Head Mounted Display (HMD), lo que requiere información de profundidad generada y procesada en tiempo real. En este proyecto, este trabajo de doctorado se centra en el refinamiento de profundidad de 4 u 8 cámaras Microsoft Kinect Azure DK ToF en tiempo real empleando KiRT. Los resultados muestran que para la configuración de 4 cámaras se alcanzan 20 FPS, mientras que para la configuración de 8 cámaras, 12 FPS, con mejores resultados subjetivos que el algoritmo de segunda mejor calidad probado. En conclusión, esta tesis doctoral demuestra que el análisis de generación de profundidad realizado y las técnicas propuestas contribuyen al desarrollo de sistemas de realidad aumentada interactivos en tiempo real. Aunque la generación de profundidad en tiempo real sigue siendo un problema, se ha demostrado que dispositivos como las cámaras ToF y los algoritmos de refinamiento de profundidad son buenos candidatos para seguir investigando en el futuro. ABSTRACT During the last years, augmented reality and immersive video techniques emerged as a solution to improve computer-based visualization. These techniques aim to solve the problem by constructing accurate 3D representations of reality that can be freely navigated and where computer-based information can be added. However, augmented reality and immersive video technology requirements are over the current technology level. They require capturing objects’ position rather than only their color intensity, which is usually expressed in depth maps, i.e., distance-to-the-camera images. Nowadays, although possible, depth map generation presents a key limitation: the quality of the depth maps is contingent on their generation time, keeping away the high-quality depth map generation from real-time applications. This Ph.D. dissertation seeks to explore the current depth generation techniques, compare them, and propose new methods to obtain high-quality and real-time depth maps for augmented reality and immersive video applications. To do so, it focuses on three of the most relevant techniques to obtain depth information in the current State of the Art (SotA): (i) RGB multiview depth estimation, (ii) Time of Flight (ToF) depth sensing, and (iii) Light Field (LF) capture through plenoptic 2.0 cameras. The RGB multiview depth estimation is based on the use of several camera sensors located in different positions. Although intensively explored, there is no algorithm able to yield high quality at high frame rates. For example, high-quality depth estimation algorithms feature processing times several orders of magnitude far from real-time. ToF depth sensing employs an active and passive sensor to measure a signal time-of-flight. This process can be performed at 30 Frames Per Second (FPS); however, the depth maps generated feature low spatial resolutions and characteristic artifacts. In addition, there is a need for aligning the depth capture with an RGB sensor. These factors cause a significant quality loss, compared to the aforementioned depth estimation algorithms. The LF capture through plenoptic 2.0 cameras also allows a depth generation at 30 FPS. These cameras do not have the problem of aligning the RGB capture with the depth, but they present a fundamental problem: the actual depth information can only be generated in color borders, making necessary depth extension algorithms to generate a complete depth map. The resulting depth quality is hence contingent on these algorithms, which may slow down the frame rate. In addition, the level of inter-frame depth noise in the plenoptic cameras tested is high, compared to the other techniques. From these findings, this Ph.D. explores two research lines to improve the current SotA either on depth quality or in frame rates leveraging on Graphics Processing Unit (GPU) accelerators: the acceleration of multiview depth estimation based on passive cameras, and the accelerated depth refinement of ToF depth maps. For RGB multiview arrays, the main problem is the processing time needed to generate a depth map for the SotA high-quality depth estimation algorithms. For example, Depth Estimation Reference Software (DERS) needs in the order of hundreds to thousands of seconds to generate a depth frame in a high-end workstation. Similarly, Immersive Video Depth Estimation (IVDE) needs between 50 and 100 seconds to generate a depth frame in the same platform. For this reason, this Ph.D. dissertation introduces Graph cuts Reference depth estimation in GPU (GoRG), a GPU-accelerated depth estimation algorithm based on a novel GPU acceleration of the optimization method graph cuts. The GoRG depth quality results are 0.12 dB Immersive Video – Peak Signal to Noise Ratio (IV-PSNR) worse than the best high-quality depth estimation algorithm tested with the advantage of processing times two orders of magnitude below. Although significantly closer to real-time, the processing time achieved by GoRG is between 1 and 10 s per frame for a high-end computer and GPU, which is still insufficient for real-time applications. Following this line, this Ph.D. dissertation also investigates the use of Hyperspectral (HS) cameras in multiview arrays to generate depth information. These cameras differ from usual RGB cameras in the number of spectrum bands they capture, which can range from tens to hundreds, allowing to spectrally characterize the elements in the captured scene. In this context, HS–GoRG is presented, an extension of GoRG for HS-multiview arrays. Results show that HS–GoRG can produce results with an RMSE error of 6.68 cm (11.3 % of the total depth range tested), although mainly located around the 2-4 cm error (3.3 % - 6.6 % of the total depth range tested) in 2.1 s per frame, on average. This result shows the difficulty to use the developed algorithm in real-time environments. Regarding ToF depth refinement, this Ph.D. dissertation proposes two new depth refinement algorithms for ToF cameras: GoRG–Prior, and Kinect Refinement Tool (KiRT). GoRG–Prior is a depth refinement method based on graph cuts that slightly improves the Intel L515 LiDAR raw capture in 0.37 dB IV-PSNR at a frame rate of 10 FPS, on average. The high processing time in GoRG–Prior motivated the development of KiRT, which reduces the algorithm complexity by replacing graph cuts with a frontier-based algorithm. KiRT is a GPU-accelerated depth refinement algorithm for multi-ToF camera setups that achieves frame rates near 55 FPS while improving Azure Kinect DK depth maps in 3.07 dB IV-PSNR. It is worth noting that KiRT generates abrupt depth borders and correctly refines depth map regions with large artifacts. These Ph.D. dissertation contributions have been tested on two real case studies framed in the research projects: clasificacióN intraopEratoria de tuMores cErebraleS mediante modelos InmerSivos 3D (NEMESIS-3D-CM) and Holographic Vision for Immersive Tele-Robotic OperatioN (HoviTron). NEMESIS- 3D-CM is a project that pursues to improve the medical visualization tools for brain tumor resection operations. Results show the feasibility of using Intel L515 LiDAR plus GoRG–Prior in a real scenario to generate a real-time Augmented Reality (AR) that can help neurosurgeons during brain tumor resection operations. HoviTron pursues to generate a high-quality real-time representation of scenes in telerobotic operation applications. These scenes need to be presented in LF–Head Mounted Displays (HMDs), which requires depth information generated and processed in real-time. Related to this project, this Ph.D. work focuses on the depth refinement of 4 or 8 Microsoft Kinect Azure DK ToF cameras in real-time employing KiRT. Results show that for the 4-cameras setup, 20 FPS are achieved, whilst for the 8-cameras setup, 12 FPS. In conclusion, this Ph.D. dissertation proves that the depth generation analysis performed and the techniques proposed contribute to the development of real-time interactive AR systems. Although depth generation in real-time is still a problem, devices such as ToF cameras plus depth refinement algorithms are proven to be good candidates to further investigate in the future.