Low-level vision for resource-limited devices

<< Volver atrás

Tesis:

Low-level vision for resource-limited devices

Autor: SUÁREZ CANOSA, Xoan Iago

Título: Low-level vision for resource-limited devices

Fecha: 2021

Materia: Sin materia definida

Escuela: E.T.S DE INGENIEROS INFORMÁTICOS

Departamentos: INTELIGENCIA ARTIFICIAL

Acceso electrónico: https://oa.upm.es/69043/

Director/a 1º: BAUMELA MOLINA, Luis
Director/a 2º: BUENAPOSADA BIENCINTO, José Miguel

Resumen: La expansión de toda una serie de dispositivos de capacidades limitadas supone un nuevo reto en el diseño de algoritmos de visión artificial con un claro compromiso entre precision y eficiencia. Esta tesis propone diversos métodos de bajo nivel que sirven como base para la construcción de nuevas aplicaciones de visión con un mejor desempeño en dispositivos limitados. Tratamos el problema de la detección y descripción de características locales de apariencia, que es la piedra angular del flujo de trabajo en estos sistemas. En primer lugar proponemos ELSED, el detector de segmentos rectilíneos más rápido de la literatura. La clave de su eficiencia es un algoritmo que es capaz de seguir los bordes rectilíneos, aún en presencia de pequeñas discontinuidades. ELSED mejora tanto el tiempo de ejecución como la precisión cuando se compara con métodos de un coste computacional similar. A continuación, proponemos FSG, un método capaz de agrupar pequeños segmentos para formar líneas completas y así, por ejemplo, detectar puntos de fuga de modo más sencillo y veloz. Se basa en dos componentes principales: Un proponedor que de manera voraz agrupa segmentos generando líneas candidatas y un validador estadístico que decide si un grupo de segmentos está correctamente alineado. A diferencia de sus competidores, FSG es capaz de agrupar segmentos en tiempo real con la más alta precisión. Por último, estudiamos el problema de la descripción de características locales de apariencia, donde proponemos diversos métodos. Desarrollamos una función de medición basada en la diferencia de niveles de gris de dos regiones cuadradas y un procedimiento efficiente para encontrar sus parámetros óptimos. En el caso más sencillo de BELID y BEBLID, estas funciones de medición se escogen resolviendo un problema de clasificación binaria con boosting. En nuestros descriptores más elaborados y precisos: BAD y HashSIFT, empleamos triplet ranking loss, hard negative mining y anchor swapping para seleccionar respectivamente las diferencias de niveles de gris o los gradientes de la imagen. Nuestros experimentos, muestran que los resultados obtenidos establecen un nuevo estado del arte en la curva de precisión frente a recursos computacionales. La efectividad de estos métodos se demuestra también por su rápida adopción en la industria y la comunidad de visión artificial. En concreto, como parte de la beca Doctorado Industrial, el código ha sido integrado en un sistema industrial de localization en exteriores y aceptado en la librería de código abierto OpenCV. ----------ABSTRACT---------- The advent of a panoply of resource-limited devices opens up new challenges in the design of computer vision algorithms with a clear compromise between accuracy and computational requirements. This thesis proposes several low-level algorithms on top of which new applications can be built with better performance for limited devices. We address the problems of local feature detection and description that are the fundamental cornerstone of many computer vision pipelines. We first propose ELSED, the fastest line segment detector in the literature. The key for its efficiency is a local segment growing algorithm that connects gradient-aligned pixels in presence of small discontinuities. ELSED not only improves the execution time but also the accuracy of the competitors with similar computational requirements. Next, we introduce FSG, a method to group small segments into full lines that are more suitable for some tasks like vanishing point estimation. It is based on two independent components. A proposer that greedily clusters segments suggesting plausible line candidates and a probabilistic model that decides if a group of segments is an actual line. Unlike its competitors, FSG is able to group segments in real-time achieving state-of-the-art performance. Last, we study the problem of efficient local feature description where we propose several methods. We introduce an efficient feature description measurement based on the difference of mean gray levels between two square regions and a fast procedure to search for its optimal configuration. In our simplest proposals: BELID, and BEBLID, we select the discriminative measurements by solving a binary classification problem with boosting. Our most elaborated and top-performing descriptors are BAD (Box Average Difference) and HashSIFT. They emerge from the application of triplet ranking loss, hard negative mining, and anchor swapping to features based on pixels differences, such as the one we introduce in this thesis, and image gradients. In our experiments, we evaluate the accuracy, execution time, and energy consumption of the proposed descriptors. We show that their results establish new operating points in the state-of-the-art’s accuracy vs. resources trade-off curve. The effectiveness of these methods is also supported by their adoption in the industry and the computer vision community. Specifically, as part of the Industrial PhD grant, the code has been integrated as a fundamental component in the pipeline of a visual localization system and the open-source code has been published in the OpenCV library.