Uso de técnicas deep learning para reconocimiento de objetos en áreas rurales

<< Volver atrás

Tesis:

Uso de técnicas deep learning para reconocimiento de objetos en áreas rurales

Autor: BARBA GUAMÁN, Luis Rodrigo

Título: Uso de técnicas deep learning para reconocimiento de objetos en áreas rurales

Fecha: 2021

Materia: Sin materia definida

Escuela: E.T.S.I. DE SISTEMAS INFORMÁTICOS

Departamentos: INTELIGENCIA ARTIFICIAL

Acceso electrónico: http://oa.upm.es/67969/

Director/a 1º: NARANJO HERNÁNDEZ, José Eugenio

Resumen: En la última década, se evidencia el avance que han experimentado los modelos de redes neuronales profundas, una muestra de ello es la demanda que existe en el área de investigación denominada Visión por Computador, una de las ramas de la Inteligencia Artificial. Una tarea muy importante que se lleva a cabo en Visión por Computador es la detección de objetos de forma automática. Si bien es cierto que, la mayoría de investigaciones han presentado un sin número de propuestas de algoritmos en la detección de objetos en sitios o áreas urbanas, existen pocos trabajos enfocados en las zonas rurales, donde las condiciones son complejas, al no existir, por ejemplo, una buena iluminación, la falta de líneas o marcas que apoyen con esta tarea, lo convierte en todo un reto. El presente trabajo se enfoca en comparar algunos modelos existentes de redes neuronales profundas aplicados a la detección de objetos y luego, proceder a evaluar su rendimiento en las zonas rurales. Para el desarrollo de esta investigación, se creó un conjunto de imágenes de las zonas rurales, teniendo en cuenta que, la mayoría de base de datos de imágenes corresponden al área urbana. Los objetos que nos interesa detectar o localizar son vehículos, personas, motos y bicicletas, teniendo en cuenta que son los que más se visualizan en este tipo de zonas. Para empezar el proceso de entrenamiento, nos apoyamos de algunos servicios tal como Google Colab, RoboFlow y herramientas de software libre, estas brindaron un gran soporte en el preprocesamiento y validación de nuestro conjunto de datos. También, utilizamos el dispositivo embebido que estuvo a nuestro alcance como es el Jetson Nano de NVIDIA, este componente fue diseñado exclusivamente para tareas de procesamiento de imágenes, incluso permitió a través de su kit de programación y utilidades, facilitar la implementación de los modelos de redes neuronales utilizados en esta actividad. Para el proceso de validación y de acuerdo con el estado de arte investigado, se utilizaron las métricas accuracy, precision, recall, entre otras, estas contribuyeron a la comprobación de la efectividad y rendimiento de nuestro detector de objetos. Además, se comparó el tiempo de procesamiento que utiliza cada unos de estos modelos con la finalidad de validar la velocidad del detector. Los resultados encontrados muestran que, no existe un modelo con las condiciones necesarias para ser un detector ideal. La configuración de los parámetros en las diferentes arquitecturas de redes profundas, permitieron mejorar el rendimiento en la detección de algunos de los objetos en este ambiente, aunque los problemas como, la falta de iluminación, oclusión, punto de vista siguen siendo un reto al momento de localizar un objeto. Otro resultado es la combinación de entrenar y validar el conjunto de datos de imágenes a través de un servicio en la nube, que tenga buenas prestaciones en hardware y luego poder implementarlo en un componente o dispositivo especializado en tareas de procesamiento de imágenes permite obtener mejoras en exactitud y precisión. ----------ABSTRACT---------- In the last decade, the progress of deep neural network models has been evident, an example of this is the demand that exists in the research area called Computer Vision, one of the branches of Artificial Intelligence. A very important task carried out in Computer Vision is the automatic detection of objects. While it is true that most research has presented a number of proposals for algorithms in the detection of objects in sites or urban areas, there are few works focused on rural areas, where conditions are complex, as there is no, for example, good lighting, lack of lines or marks to support this task, making it a challenge. The present work focuses on comparing some existing models of deep neural networks applied to object detection and then proceeds to evaluate their performance in rural areas. For the development of this research, a set of images from rural areas was created, taking into account that most of the image databases correspond to urban areas. The objects that we are interested in detecting or locating are vehicles, people, motorcycles, and bicycles, taking into account that they are the most frequently visualized in this type of area. To start the training process, we relied on some services such as Google Colab, RoboFlow, and free software tools, these provided great support in the preprocessing and validation of our dataset. Also, we used the NVIDIA Jetson Nano embedded device, this component was designed exclusively for image processing tasks, even allowed through its programming kit and utilities, to facilitate the implementation of neural network models used in this activity. For the validation process and according to the investigated state of the art, the metrics accuracy, precision, recall among others, were used, these contributed to the verification of the effectiveness and performance of our object detector. In addition, the processing time used by each of these models was compared in order to validate the speed of the detector. The results found show that there is no model with the necessary conditions to be an ideal detector. The configuration of the parameters in the different architectures of deep networks, allowed to improve the performance in the detection of some of the objects in this environment, although the problems such as lack of illumination, occlusion, point of view remain a challenge when locating an object. Another result is the combination of training and validating the image dataset through a cloud service, which has good hardware performance, and then being able to implement it in a component or device specialized in image processing tasks allows to obtain improvements in accuracy and precision.