Tesis:
New Deep Learning techniques for image analysis : enhancements through information fusion, ensembling and explainability
- Autor: LIZ LÓPEZ, Helena
- Título: New Deep Learning techniques for image analysis : enhancements through information fusion, ensembling and explainability
- Fecha: 2024
- Materia:
- Escuela: E.T.S.I. DE SISTEMAS INFORMÁTICOS
- Departamentos: SISTEMAS INFORMATICOS
- Acceso electrónico: https://oa.upm.es/80776/
- Director/a 1º: CAMACHO FERNÁNDEZ, David
- Director/a 2º: HUERTAS TATO, Javier
- Resumen: El procesamiento de imagen se enfrenta a un grave problema, las deficiencias de los datasets. En muchas situaciones los dataset no tienen la calidad necesaria para ser procesados mediante técnicas de \ac{DL} y obtener los resultas deseados. Por ello, los investigadores han tenido que explorar diferentes técnicas que permitan superar estas limitaciones sin necesidad de ampliar los datasets, ya que en muchas situaciones es imposible como puede ser el campo de la medicina. Por ello, los investigadores tienen que explorar diferentes vías que permitan crear sistemas para resolver problemas de procesamiento de imagen de manera precisa y efectiva.
En esta tesis se abordaran diferentes problemas de procesamiento de imagen mediante técnicas de fusión de información y ensembles. Además se desarrollaran diferentes técnicas de IA explicativa que permitan tanto a los investigadores como a los usuarios finales de los sistemas de \ac{DL} a comprender cómo estos sistemas han llegado a la solución final y comprender si están usando la información adecuada para tomar dicha decisión.
En primer lugar se han utilizado técnicas de ensembles para resolver problemas de clasificación dentro del campo de la medicina, más específicamente utilizando radiografías torácicas. Dentro de este dominio se han diseñados tanto sistemas de clasificación binarios como problemas de clasificación multietiqueta. Por otro lado, debido al dominio de aplicación se han creado diferentes técnicas de visualización basadas en mapas de calor que permitan al personal sanitario entender cómo se ha llegado al resultado final. Las técnicas de visualización son especialmente importantes en este dominio debido al peligro que supone un resultado erróneo del sistema de clasificación, puede provocar daños en los pacientes.
En segundo lugar se han utilizado técnicas de fusión de información para resolver tareas de regresión dentro del campo de aplicación de los incendios forestales. Se ha creado un sistema de regresión basado en Redes Neuronales Convolucionales que sea capaz de predecir los recursos necesarios en caso de incendios en una comunidad autónoma de España. Para facilitar la aplicación de estas técnicas se generaron unas visualizaciones donde se predicen los recursos que serían necesarios en caso de incendio a nivel de todo el área de estudio diariamente.
Finalmente, con el objetivo de ampliar el área de aplicación de las técnicas de procesamiento de imagen utilizando técnicas de ensembles y fusión de información a otras modalidades de datos multimedia: vídeo, entendido como una secuencia de imágenes; audio y datos multimodales, que combina los dos anteriores. Para ello se realizó una revisión del estado del arte de las técnicas de detección de manipulación para los datos multimedia mencionados. Para ello se analizaron tanto las técnicas de manipulación de datos multimedia como las técnicas de detección lo que permite crear una visión completa del campo y analizar las posibles áreas menos exploradas y más susceptibles de ser analizadas con las técnicas desarrolladas a lo largo de esta tésis doctoral.
ABSTRACT
Image processing faces a serious problem, the deficiencies of datasets. In many situations, datasets do not have the quality necessary to be processed using \ac{DL} and obtain the desired results. Therefore, researchers have had to explore different techniques to overcome these limitations without the need to extend the datasets, as in many situations this is impossible, such as in the field of medicine. Therefore, researchers have to explore different ways to create systems to solve image processing problems accurately and effectively.
In this thesis, different image processing problems will be addressed by means of information fusion and ensemble techniques. In addition, different explanatory AI techniques will be developed to allow researchers and end users of the systems to understand how these systems have arrived at the final solution and to understand whether they are using the right information to make that decision.
Ensemble techniques have first been used to solve classification problems within the medical field, more specifically by using chest radiographs. Within this domain, both binary classification systems and multi-label classification problems have been designed. On the other hand, due to the application domain, different visualisation techniques based on heat maps have been created to allow healthcare personnel to understand how the final result has been reached. Visualisation techniques are especially important in this domain due to the danger of an erroneous result of the classification system, which can cause harm to patients.
Secondly, information fusion techniques have been used to solve regression tasks within the wildfire application domain. A regression system based on Convolutional Neural Networks has been created that is capable of predicting the resources needed in the event of wildfires in an autonomous community in Spain. To facilitate the application of these techniques, visualisations were generated to predict the resources that would be necessary in the event of a fire in the entire study area on a daily basis.
Finally, with the aim of extending the area of application of image processing techniques using ensembles and information fusion techniques to other multimedia data modalities: video, understood as a sequence of images; audio and multimodal data, which combines the two previous ones. For this purpose, a review of the state of the art of manipulation detection techniques was carried out for the aforementioned multimedia data. For this purpose, both multimedia data manipulation techniques and detection techniques were analysed, which allows us to create a complete vision of the field and to analyse the possible areas that are less explored and more susceptible to be analysed with the techniques developed throughout this doctoral thesis.