Tesis:

2D to 3D image and video conversion using machine learning


  • Autor: HERRERA CONEJERO, José Luis

  • Título: 2D to 3D image and video conversion using machine learning

  • Fecha: 2020

  • Materia: Sin materia definida

  • Escuela: FACULTAD DE INFORMATICA

  • Departamentos: AEROTECNIA

  • Acceso electrónico: http://oa.upm.es/66586/

  • Director/a 1º: GARCIA SANTOS, Narciso
  • Director/a 2º: BLANCO ADÁN, Carlos Roberto del

  • Resumen: A pesar de que el concepto de imagen y vídeo tridimensional (3D) existe desde hace muchos años, recientemente se ha producido un incremento significativo en el número de reproductores y monitores 3D disponibles. Sin embargo, la cantidad de contenido 3D no ha sufrido un aumento de la misma magnitud, provocando una brecha entre la oferta y la demanda de contenido 3D. Para reducir esta diferencia, han aparecido muchos algoritmos que realizan la conversión de imagen y vídeo de 2D a 3D. Mientras muchas de estas técnicas, normalmente requieren de varias imágenes del mismo escenario para llevar a cabo la conversión, la familia más reciente de estas técnicas, que se corresponde con los algoritmos basados en aprendizaje automático, no están restringidos por esta limitación, calculando la imagen 3D con una única vista de la escena. Los métodos basados en aprendizaje automático requieren el uso de bases de datos de imágenes 2D y 3D para aprender cómo llevar a cabo esta conversión. Debido a que el número de bases de datos disponibles ha aumentado recientemente de manera significativa, estos algoritmos se han vuelto muy populares. No obstante, la calidad conseguida por las técnicas actuales de conversión 2D-3D está lejos de ser plenamente satisfactoria y necesita ser mejorada para poder ser usada para producir contenido 3D de buena calidad. Esta tesis propone dos sistemas para la conversión 2D a 3D, uno para imágenes y otro para vídeo, correspondientes a la familia de métodos basados en aprendizaje automático. Con relación al sistema de conversión de imágenes, se propone un nuevo enfoque que hace el algoritmo más robusto y con mayor capacidad de adaptación a diferentes tipos de escenarios usando una combinación de descriptores de características. Al mismo tiempo, la propuesta de dividir la base de datos por grupos hace que la solución sea más rápida y eficiente para lidiar con grandes bases de datos. El sistema aprende además como adaptar automáticamente los valores de los diferentes parámetros involucrados en la conversión, dando como resultado una solución plenamente automática. Respecto a la conversión de vídeo, la propuesta para imágenes basada en aprendizaje automático se extiende para abarcar secuencias de vídeo. El algoritmo se divide en tres partes principales. En la primera, se realiza una estimación de la profundidad del fondo utilizando el sistema previamente presentado. Posteriormente, se segmenta el primer plano analizando el flujo óptico para procesar los diferentes objetos presentes en la escena de forma individual. Finalmente, la estimación de profundidad del fondo se combina con la información de los objetos del primer plano y se filtran para obtener una estimación final de la profundidad. Los algoritmos desarrollados han sido probados con diferentes bases de datos de imágenes y secuencias de vídeo 3D que están disponibles de forma pública. ----------ABSTRACT---------- Despite the concept of three-dimensional (3D) image and video was introduced many years ago, there has been recently a significant increase in the number of available 3D displays and players in the last years. Nevertheless, the amount of 3D content has not increased in the same magnitude, creating a gap between 3D offer and demand. To reduce this difference, many algorithms have appeared that perform 2D-to-3D image and video conversion. While many of this techniques usually required several images from the same scene to perform the conversion, the most recent family of these techniques, which corresponds to machine learningbased algorithms, is not restricted by this limitation computing the 3D image with a single view of the scene. Machine learning-based methods require the use of databases of 2D and 3D images to learn how to perform this conversion. Since the number of available datasets has recently increased significantly, these algorithms have become very popular. However, the quality achieved by the current 2D to 3D conversion techniques is far to be fully satisfying and they need to be improved in order be used for producing good quality 3D content. This thesis proposes two systems for 2D-to-3D conversion, one for image and another one for video, belonging to the machine learning family of methods. With respect to the image conversion system, a new approach is proposed that makes the algorithm more robust and adaptive to different types of scenarios by using a combination of feature descriptors. At the same time, the proposed clustering of the dataset makes the solution faster and more efficient to deal with large datasets. The system also learns how to automatically adapt the value of the different parameters involved in the conversion, resulting in a fully automatic solution. With respect to video conversion, the learning based approach for images is extended to video sequences. The algorithm is divided in three main parts. In the first one, a depth estimation of the background is computed using the previous presented approach. Then, the foreground is segmented analyzing the optical flow to manage the different objects individually. Finally, the depth estimation of the background is combined with the foreground information and filtered to obtain the final depth estimation. The developed algorithms have been tested with different publicly available datasets of 3D images and video sequences.