Tesis:

Contributions to the Implementation of Sound Source Localization Systems


  • Autor: GARCÍA BARRIOS, Guillermo

  • Título: Contributions to the Implementation of Sound Source Localization Systems

  • Fecha: 2023

  • Materia:

  • Escuela: E.T.S.I. Y SISTEMAS DE TELECOMUNICACIÓN

  • Departamentos: INGENIERIA TELEMATICA Y ELECTRONICA

  • Acceso electrónico: https://oa.upm.es/76549/

  • Director/a 1º: GUTIÉRREZ ARRIOLA, Juana María
  • Director/a 2º: FRAILE MUÑOZ, Rubén

  • Resumen: El problema de la localización de fuentes sonoras consiste en estimar la posición específica de una fuente de sonido. Se han implementado una gran variedad de algoritmos para resolver esta tarea, pero normalmente se diseñan para escenarios acústicos concretos, lo que resulta un problema cuando se tratan de aplicar en condiciones diferentes. Esta tesis se centra en localizar una única fuente en espacios cerrados utilizando el algoritmo SRP-PHAT y sistemas de localización de fuentes sonoras biaurales. Se realiza un análisis detallado para detectar sus puntos débiles y así implementar nuevas técnicas que mejoren su precisión en la estimación de la posición. De esta forma, se propone una nueva versión de la correlación cruzada generalizada que limita el ancho de banda en función de la resolución de los mapas SRP y la distancia entre micrófonos. Se ha demostrado mediante simulación que este nuevo estimador mejora la precisión de localización cuando la fuente sonora se encuentra lejos del array de micrófonos. En relación con el problema de la reverberación que empeora el funcionamiento de los algoritmos de localización, se presenta una técnica novedosa que aprovecha la diversidad espacial cuyos resultados superan a los de técnicas de procesado de la señal complejas. Además, se recopilan las bases de datos más relevantes que se pueden encontrar en la literatura y se realizan grabaciones en diferentes salas para aumentar el número de recursos disponibles para la validación de algoritmos de localización. Finalmente, se propone una red de aprendizaje profundo que aprovecha la información de la rotación de la cabeza para mejorar la precisión de sistemas basados en localización biaural. ABSTRACT The sound source localization task consists of estimating the position of a specific sound source. There are a great variety of algorithms implemented to face this task, but these are usually designed for specific acoustic scenarios, which becomes a problem when someone tries to apply them under different conditions. This thesis focuses on localizing a single source in indoor spaces using the SRP-PHAT algorithm and binaural sound source localization systems. A detailed analysis of both is performed to detect their weaknesses in order to implement general techniques to improve their accuracy in position estimation. In this way, a new version of the generalized cross-correlation that limits the bandwidth according to the resolution of the SRP maps and inter-microphone distance is proposed. Simulations have proven that this new estimator improves the precision of localization when the position of the sound source is far from the microphone array. Regarding the reverberation issue that worsens the algorithms’ performance, a novel approach that exploits spatial diversity is presented, showing that it outperforms more complex signal processing techniques. In addition, a contribution to the datasets oriented to the sound source localization task is made, collecting the most relevant ones and conducting real measurements to increase the number of available resources to validate localization algorithms. Furthermore, binaural sound source localization is analyzed proposing a deep neural network model which is able to exploit rotational information of the head to improve localization results.