Tesis:
Multi-task Shape Preserving Face Alignment
- Autor: VALLE FERNÁNDEZ, Roberto
- Título: Multi-task Shape Preserving Face Alignment
- Fecha: 2019
- Materia: Sin materia definida
- Escuela: E.T.S DE INGENIEROS INFORMÁTICOS
- Departamentos: INTELIGENCIA ARTIFICIAL
- Acceso electrónico: http://oa.upm.es/64067/
- Director/a 1º: BAUMELA MOLINA, Luis
- Director/a 2º: BUENAPOSADA BIENCINTO, José Miguel
- Resumen: Esta tesis aborda el problema de la estimación robusta y precisa de la configuración de rostros humanos en imágenes. Esto implica la localización en la imagen de un conjunto de puntos de referencia fiduciales que representan la combinación de los componentes rígidos y no rígidos de la configuración de un rostro. Este es un problema relevante y abierto en el campo de la visión por computador, cuando analizamos rostros sin restricciones en su captura; es decir, incluyendo poses extremas, expresiones faciales exageradas, iluminación arbitraria, oclusiones parciales, baja resolución, etc. Para este fin, empleamos un enfoque basado en una cascada de regresores que refinan iterativamente sus estimaciones hasta llegar a una solución final. Abordamos primeramente el problema de estimar la orientación de la cabeza, porque es el más simple y, además, porque, una vez que se conoce el componente rígido del rostro, la deformación de la cara es más fácil de calcular. Es muy difícil establecer el estado del arte en este área, pues no hay una metodología comúnmente acordada para la evaluación del rendimiento. En la tesis presentamos un conjunto de datos, unos algoritmos y unos resultados de base para realizar dicha evaluación. Para estimar la deformación no rígida de la cara empleamos un esquema de regresores en cascada. Primero consideramos la estrategia tradicional, basada en el entrenamiento de una secuencia de árboles de regresión mediante un algoritmo de “Gradient Boosting” (ERT). Aquí presentamos una nueva arquitectura de refinado progresivo que aborda la explosión combinatoria que se produce al considerar las posibles deformaciones de todas las partes de la cara. También evaluamos el enfoque más habitual en este momento, que consiste en la construcción de una cascada de redes de neuronas convolucionales (CNNs). Introducimos una solución basada en combinar dos CNNs con una nueva capa final para estimar las coordenadas de los puntos de referencia. Finalmente, presentamos una nueva solución híbrida basada en la combinación de una CNN y un ERT de refinado progresivo. Nuestro enfoque funciona en presencia de puntos de referencia ocluidos o no etiquetados en el conjunto de entrenamiento. Esto nos ha permitido realizar experimentos cruzando bases de datos, que revelan la existencia de un sesgo significativo en los conjuntos de datos de entrenamiento. Lo cual, sin duda, limita la capacidad de generalización de los regresores entrenados con dichas bases de datos. Hasta donde sabemos, ésta es la primera vez que se ha planteado este problema en el contexto de la alineación del rostro. En nuestra propuesta final presentamos un enfoque unificado para inferir la orientación de la cabeza, los puntos de referencia del rostro y sus visibilidades. Dicha propuesta está basada en la combinación de una red neuronal multi-tarea (MNN) que simultáneamente estima la orientación de la cabeza, la posición de los puntos de referencia y sus visibilidades, junto con un ERT de refinado progresivo. La arquitectura de la MNN, cómo la entrenamos, y cómo combinamos sus predicciones con el ERT son novedosos. En los experimentos realizados evaluamos el rendimiento de nuestras propuestas y las comparamos con los mejores algoritmos que existen en la literatura, utilizando las bases de datos más relevantes. ----------ABSTRACT---------- This thesis deals with the problem of accurately and robustly estimating the pose of human faces in images. This involves the location in the image of a set of facial fiducial points or landmarks that represent the combination of the rigid and non-rigid components of face pose. This is a relevant and open problem in computer vision when we capture faces under “in-the-wild” conditions, i.e., those including extreme rotations, exaggerated facial expressions, arbitrary illumination, partial occlusions, blurriness, and so forth. We adopt a cascade approach in which a sequence of regressors iteratively refines their estimations to reach a final solution. We first consider the problem of estimating the head orientation because it is simple. Also, because, once the rigid component of a face is known, the deformation is easier to compute. It is very difficult to determine the state-of-the-art in this area because there is no agreed upon methodology in the literature. In the thesis we introduce a head pose benchmark together with a set of baseline results supported by one traditional algorithm based on ensemble learning and several recent CNN architectures. To estimate the non-rigid deformation of the face we adopt a cascade scheme. First we consider the traditional approach based on Gradient Boosting to learn a sequence of tree regressors (ERT). Here, we introduce a novel coarse-to-fine architecture that addresses the combinatorial explosion of combinations of face part deformations. We also evaluate the present mainstream approach consisting on cascading a set of Convolutional Neural Networks (CNNs). We introduce a solution based on a pair of CNNs with a new final layer to estimate the landmark coordinates. Finally, we introduce a novel hybrid solution based the combination of a CNN and a coarse-to-fine ERT. Our approach may also be trained in presence of missing or occluded landmarks in the training set. This has enabled us to perform cross-dataset experiments that reveal the existence of significant data set bias that may limit the generalization capabilities of regressors trained on present data sets. To the best of our knowledge, this is the first time such a problem has been raised in the context of face alignment. In our final proposal we present a unified approach to infer head pose, facial landmark location and visibility estimation. It is based on the combination of a Multi-task Neural Network (MNN) that simultaneously estimates head pose, landmarks position and their visibilities, together with a coarse-to-fine ERT. The architecture of the MNN, the way we train it, and the way we combine its predictions with the ERT are all new. In the experiments we evaluate the performance of our proposals and compare them with the top performing algorithms in the literature using the most relevant “in-the-wild” benchmarks.