Tesis:

Generative and parametric models for interactive neural synthesis in speech and audio


  • Autor: CÁMARA LARGO, Mateo José

  • Título: Generative and parametric models for interactive neural synthesis in speech and audio

  • Fecha: 2024

  • Materia:

  • Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

  • Departamentos: SEÑALES, SISTEMAS Y RADIOCOMUNICACIONES

  • Acceso electrónico: https://oa.upm.es/85089/

  • Director/a 1º: BLANCO MURILLO, José Luis

  • Resumen: Speech synthesis is a multifaceted process that encompasses both acoustic signals and articulatory dynamics. Traditional neural audio synthesis methods often rely exclusively on acoustic data, which requires additional steps that can hinder both quality and interpretability. This thesis explores alternative approaches to neural sound synthesis and acoustic-articulatory inversion, emphasizing the integration of biological articulatory data into generative models to improve both performance and understanding. Building on the vocal tract's fundamental role in speech production, this research proposes a synthesis framework that combines the efficiency of neural models with the precision of articulatory parametric techniques. Central to this approach is the hypothesis that replacing purely acoustic neural decoders with articulatory-driven decoders can enhance the synthesized output's explainability, control, and realism. This shift towards articulatory decoding represents a significant step towards more interpretable and biologically consistent synthesis systems. Throughout this investigation, several contributions have emerged. These include advances in the control and sampling of latent spaces within generative models, offering more nuanced and flexible handling of the synthesis process. Concerning the quality of synthetic audio, this work introduces an improved phase estimation method, addressing a key limitation in current systems and enabling a more coherent and natural reconstruction of audio. The research also revisits the evaluation of multimodal systems, presenting a novel metric that more effectively captures their performance. In the domain of acoustic-articulatory inversion, both general-purpose and tailored approaches are refined, showcasing improvements in accuracy and robustness, standing on the previous advances towards enhanced synthesis control and audio quality. A key achievement is the integration of neural and articulatory synthesis, which allows for the joint prediction of articulatory parameters alongside audio output. This integration enhances both the synthesized speech's quality and its interpretability, offering a more holistic approach that leverages the strengths of both acoustic and articulatory models. The practical applications of this research are demonstrated through its implementation in a published short film and for speech and non-speech synthesis, illustrating its real-world impact. Ultimately, this thesis underscores the importance of incorporating biological insights and control into generative models and provides a foundation for future advances in speech synthesis. The interdisciplinary nature of this work offers new possibilities for technological and medical innovation, with a particular focus on the benefits of articulatory-based, model-informed decoding for both performance and user control. RESUMEN La síntesis de habla es un proceso multifacético que abarca tanto señales acústicas como dinámicas articulatorias. Los métodos tradicionales de síntesis de audio neuronal suelen basarse exclusivamente en datos acústicos, requiriendo pasos adicionales que pueden comprometer tanto la calidad como la interpretabilidad. Esta tesis explora enfoques alternativos para la síntesis de sonido neuronal y la inversión acústico-articulatoria, enfatizando la integración de datos articulatorios biológicos en los modelos generativos para mejorar su rendimiento y comprensión. Partiendo del papel fundamental del tracto vocal en la producción del habla, esta investigación propone un marco de síntesis que combina la eficiencia de los modelos neuronales con la precisión de las técnicas paramétricas articulatorias. El núcleo de este enfoque radica en la hipótesis de que la sustitución de los decodificadores neuronales puramente acústicos por decodificadores impulsados por información articulatoria puede mejorar la explicabilidad, el control y el realismo del habla sintetizada. Este cambio hacia una decodificación articulatoria representa un avance significativo hacia sistemas de síntesis más interpretables y biológicamente consistentes. A lo largo de esta investigación, han surgido diversas contribuciones. Entre ellas, destacan los avances en el control y muestreo de los espacios latentes en los modelos generativos, que permiten un manejo más matizado y flexible del proceso de síntesis. Además, este trabajo introduce un método mejorado de estimación de fase, abordando una limitación clave de los sistemas actuales y permitiendo una reconstrucción de audio más coherente y natural. La investigación también revisa la evaluación de sistemas multimodales, presentando una métrica novedosa que captura de manera más eficaz su rendimiento. En el ámbito de la inversión acústico-articulatoria, se han refinado tanto enfoques de propósito general como específicos, mostrando mejoras en precisión y robustez. Un logro clave es la integración de síntesis neuronal y articulatoria, que permite la predicción conjunta de parámetros articulatorios junto con la salida de audio. Esta integración mejora la calidad del habla sintetizada y su interpretabilidad, ofreciendo un enfoque más holístico que aprovecha las fortalezas de los modelos acústicos y articulatorios. Las aplicaciones prácticas de esta investigación se demuestran a través de su implementación en un cortometraje publicado y de distintos módulos de síntesis de sonidos, lo que ilustra su impacto en el mundo real. En definitiva, esta tesis subraya la importancia de incorporar conocimientos biológicos en los modelos generativos y sienta las bases para futuros avances en la síntesis de habla. El carácter interdisciplinario de este trabajo ofrece nuevas posibilidades para la innovación tecnológica y médica, con un enfoque particular en los beneficios de la decodificación basada en articulación tanto para el rendimiento como para el control del usuario.