Tesis:

Data-driven monocular depth estimation with spherical panoramas


  • Autor: ZIOULIS, Nikolaos

  • Título: Data-driven monocular depth estimation with spherical panoramas

  • Fecha: 2023

  • Materia:

  • Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

  • Departamentos: SEÑALES, SISTEMAS Y RADIOCOMUNICACIONES

  • Acceso electrónico: https://oa.upm.es/74385/

  • Director/a 1º: ÁLVAREZ GARCÍA, Federico

  • Resumen: Three-dimensional (3D) computer vision is a fundamental backbone technology of autonomous vehicles, robots and the emerging reality technologies for interaction and presence. Spherical cameras are holistic images from a viewpoint perspective and as such, very well posed to perceive the world geometrically. Modern computer vision is driven by data and has managed to overcome barriers that were seemingly impossible, one of which is monocular geometric inference. This thesis focuses on monocular geometric inference from a single spherical panorama, and particularly, 3D reconstructing indoor spaces. It applies spherical geometry and domain knowledge to improve the performance of modern data-driven technology. To achieve this, parallel contributions to the data availability and benchmarking challenges are made. Chapters 2 and 3 study two spherical representations from a regression perspective, namely fine pixel-based image representations, and coarse spherical harmonic based ones. While the latter are more efficient, the former are more appropriate for convolutional models. The first method for self-supervised depth estimation is presented as well as a technique to regularize the harmonic basis prior and improve regression performance. Given the lack of spherical data, two opposing solutions are also explored, first the generation of multi-view, multi-modal data using explicit synthesis for learning 360o geometry, and second, the re-use of disjoint datasets for learning to estimate a scene’s environment map. Chapters 4 and 5 turn to the geometry representations, studying coarse and dense model outputs, specifically room layout and depth respectively. A keypoint representation and regression approach is used for the former which results in the first end-to-end trainable method for 360o room layout. Further, in the latter, layout cues are integrated into a depth estimation model and boost its structural preservation performance. In addition, high-quality synthesis technology is used to improve the 360o dataset from a modality perspective, adding pixel-perfect semantic information and automatically processed weak layout cues. Chapters 6 and 7 introduce a holistic benchmark for 360o depth estimation, with extra testing datasets aimed at modeling real-world distribution shifts and measuring performance across different axes. This marks the way forward from a practical point of view when models are deployed to be used in downstream tasks. It also opens up a new problem, which is the preservation of all performance traits, and the conflicting nature of smoothness and boundary preservation. A novel technique is presented to address this problem by relying on hybrid images, a perceptual dual image representation. RESUMEN La visión artificial tridimensional (3D) es una tecnología fundamental para vehículos autónomos, robots y las tecnologías de realidad aumentada para interacción y presencia. Las cámaras esféricas ofrecen imágenes holísticas desde la perspectiva del punto de vista y, como tales, son apropiadas para percibir el mundo geométricamente. La visión artificial moderna se basa en el uso de grandes volúmenes de datos y ha logrado superar barreras que parecían imposibles, una de las cuales es la inferencia geométrica monocular. Esta tesis se centra en la inferencia geométrica monocular a partir de una única imagen panorámica esférica, y en particular, en la reconstrucción 3D de espacios interiores. La tesis muestra la aplicación de la geometría esférica y el conocimiento de dominio para mejorar el rendimiento. Para lograr esto, se realizan contribuciones tanto a los retos actuales de disponibilidad de este tipo de datos y por otro a la evaluación comparativa. Los capítulos 2 y 3 estudian dos representaciones esféricas desde la perspectiva de la regresión, mediante representaciones de imágenes basadas en píxeles finos y representaciones basadas en armónicos esféricos gruesos. Mientras que estos últimos son más eficientes, los primeros son más apropiados para modelos convolucionales. Se presenta el primer método de estimación de profundidad autosupervisada así como una técnica para regularizar la base armónica previa y mejorar el rendimiento de la regresión. Dada la falta de datos esféricos, también se exploran dos soluciones opuestas: la primera la generación de datos multivista y multimodales utilizando síntesis explícita para aprender geometría 360º, y segundo, la reutilización de conjuntos de datos disjuntos para aprender a estimar el mapa del entorno de una escena. Los capítulos 4 y 5 se centran en las representaciones geométricas, estudiando los resultados de modelos gruesos y densos, específicamente para el diseño y la profundidad de la sala, respectivamente. Se utiliza un enfoque de representación y regresión de puntos clave para el primero, lo que da como resultado el primer método entrenable de extremo a extremo para el diseño de salas de 360º. Además, en este último, los modos de diseño se integran en un modelo de estimación de profundidad y aumentan su rendimiento de preservación estructural. Además, se utiliza tecnología de síntesis de alta calidad para mejorar el conjunto de datos de 360º desde una perspectiva de modalidad, agregando información semántica de píxeles perfectos y señales de diseño débiles procesadas automáticamente. Los capítulos 6 y 7 presentan un punto de referencia holístico para la estimación de profundidad de 360º, con conjuntos de datos de prueba adicionales destinados a modelar cambios de distribución en el mundo real y medir el rendimiento en diferentes ejes. Esto marca el camino a seguir desde un punto de vista práctico cuando los modelos se implementan para ser utilizados en tareas posteriores. También abre un nuevo problema, que es la preservación de todos los rasgos de rendimiento y la naturaleza conflictiva de la suavidad y la preservación de los límites. Se presenta una técnica novedosa para abordar este problema basándose en imágenes híbridas, una representación perceptual de imagen dual.