Tesis:
Adversarial Learning to Reduce Sources of Variability in Speech Applications
- Autor: PERERO CODOSERO, Juan Manuel
- Título: Adversarial Learning to Reduce Sources of Variability in Speech Applications
- Fecha: 2022
- Materia:
- Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION
- Departamentos: SEÑALES, SISTEMAS Y RADIOCOMUNICACIONES
- Acceso electrónico: https://oa.upm.es/72252/
- Director/a 1º: HERNÁNDEZ GÓMEZ, Luis Alfonso
- Director/a 2º: ESPINOZA CUADROS, Fernando Manuel
- Resumen: Human voices contain a significant number of sources of variability. This fact can result in speaker’s intrinsic characteristics, such as gender, age, accent, and other extrinsic characteristics, such as the acoustic environment, severely interfering with the performance of different speech technology applications.
Along the years, several proposals have been developed in the area of speech technologies to tackle the impact of these undesired sources of variability. There is clearly a need to build robust speech representations that avoid these undesired factors, which are one of the reasons for complexity when speech applications are developed. One of these approaches is domain adaptation which has been proposed to learn a mapping between different domains, reducing the gap that may exist between them.
With the rapid advances in Deep Learning, new methods for robust speech representations are being proposed. The concept of adversarial learning necessitates the creation of an intermediate latent space representation, which is invariant to a specific domain. This method formulates a minimization-maximization problem, where a primary learning optimization task is combined with a secondary domain classification task, which is optimized to perform badly.
The main objective of this Thesis is to contribute to the research on supervised adversarial learning within Deep Neural Networks, as a powerful way to obtain speech features discriminant to the application task, and invariant to undesired sources of variability. This goal was planned to attempt to solve the limitations of speech technologies in three different areas of application: i) the assessment of obstructive sleep apnea from speech, where the target is to model robust apnea-related representations by suppressing the undesirable effect of other patient characteristics, such age or obesity; ii) speech privacy preservation, by developing a state-of-the-art anonymization system to model speaker-invariant representations by removing personal identifiable information, such as gender or accent; and iii) automatic speech recognition to build robust speech representations invariant to challenging acoustic conditions in TV shows.
The experimental results proved that adversarial learning contributes to improve the per formance in the three analyzed speech applications: increasing the accuracy of the obstructive sleep apnea assessment after removing speaker’s body mass index; obtaining high level of speech privacy and good intelligibility, being one of the best methods in the state-of-the art; and finally, achieving slight improvements in automatic speech recognition but yielding promising results to continue its exploration. Thus, the specific objectives of this Thesis can be considered fulfilled.
Main contributions of this PhD Thesis resulted in several publications in Journals with JCR and peer-reviewed conferences. Three of them, each one related to the aforementioned speech applications, are advocated for the compendium presentation of this Thesis according to the requirements demanded by the Universidad Polit´ecnica de Madrid.
An additional, but no less significant, contribution is an in-depth review of the state-ofthe- art adversarial learning techniques, which leads us to study the evolution of this technique, helping us to determine that it is a competitive approach to develop domain-invariant features in speech applications.
RESUMEN
Las voces humanas contienen un número significativo de fuentes de variabilidad. Este hecho puede resultar en características intrínsecas del hablante, como el género, la edad, el acento, y otras características extrínsecas, tales como el entorno acústico, interfiriendo de forma severa en el rendimiento de las distintas aplicaciones de tecnologías del habla.
A lo largo de los años, varias propuestas han sido desarrolladas en el área de las tecnologías del habla para abordar el impacto de estas fuentes de variabilidad indeseadas. Existe claramente una necesidad de construir representaciones robustas del habla que eviten estos factores indeseados, los cuales son una de las razones de la complejidad a la hora de desarrollar aplicaciones del habla. Una de estas aproximaciones es la adaptación al dominio que ha sido propuesta para aprender un mapeo entre diferentes dominios, reduciendo así la brecha que puede existir entre ellos.
Con los avances rápidos en aprendizaje profundo, se han propuesto nuevos métodos para representaciones robustas del habla. El concepto de aprendizaje adversario necesita la creación de una representación intermedia del espacio latente, que sea invariante a un dominio específico. Este método formula un problema de minimización-maximización, donde una tarea primaria de optimización del aprendizaje se combina con una tarea secundaria de clasificación del dominio, la cual es optimizada para que funcione mal.
El principal objetivo de esta Tesis es contribuir a la investigación en el aprendizaje adversario supervisado dentro de Redes Neuronales Profundas, como una forma potente de obtener rasgos de la voz discriminativos a la tarea de aplicación, e invariantes a las fuentes de variabilidad indeseadas. Esta meta fue planeada para intentar resolver las limitaciones de las tecnologías del habla en tres áreas de aplicación distintas: i) la evaluación de apnea obstructiva del sueño a partir de la voz, donde el objetivo es modelar representaciones robustas relativas a la apnea suprimiendo el efecto indeseado de otras características del paciente, como la edad o la obesidad; ii) preservación de la privacidad del habla, desarrollando un sistema de anonimización del estado del arte para modelar representaciones invariantes al locutor eliminando información personal identificativa, como el género o el acento; y iii) reconocimiento automático de habla para construir representaciones robustas del habla invariantes a las condiciones acústicas complejas que se presentan en los programas de televisión.
Los resultados experimentales han mostrado que el aprendizaje adversario contribuye a mejorar el rendimiento en las tres aplicaciones de la tecnología del habla analizadas: incrementando la precisión de la evaluación de la apnea obstructiva del sueño después de eliminar el índice de masa corporal del hablante; obteniendo un alto nivel de privacidad del habla y buena inteligibilidad, siendo uno de los mejores métodos en el estado del arte; y finalmente, consiguiendo ligeras mejoras en reconocimiento automático del habla pero rindiendo resultados prometedores para continuar con su exploración. Así, los objetivos específicos de esta Tesis pueden considerarse cumplidos.
Las principales contribuciones de esta Tesis dieron como resultado varias publicaciones en Revistas con JCR y conferencias con revisión por pares. Tres de ellas, cada una relacionada con las ya mencionadas aplicaciones de las tecnologías habla, han sido seleccionadas para la presentación de esta Tesis por compendio de acuerdo a los requisitos exigidos por la Universidad Politécnica de Madrid.
Un contribución adicional, pero no menos significativa, es una revisión en profundidad del estado del arte en las técnicas de aprendizaje adversario, la cual nos condujo a estudiar la evolución de esta técnica, ayudándonos a determinar que es una aproximación competitiva para extraer rasgos invariantes al dominio en aplicaciones de la tecnología del habla.