Tesis:

Síntesis multilocutor aplicando técnicas de conversión de hablante


  • Autor: GUTIERREZ ARRIOLA, Juana María

  • Título: Síntesis multilocutor aplicando técnicas de conversión de hablante

  • Fecha: 2008

  • Materia: Ciencias de la computación y tecnología informática

  • Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

  • Departamentos: AUTOMATICA, INGENIERIA ELECTRONICA E INFORMATICA INDUSTRIAL

  • Acceso electrónico: http://oa.upm.es/1675

  • Director/a 1º: PARDO MUÑOZ, José Manuel

  • Resumen: Las técnicas de conversión de locutor transforman la señal de voz pronunciada por una persona para que sea percibida como si la hubiera dicho otra persona. Se denomina locutor fuente al hablante inicial y locutor deseado a la identidad que se pretende obtener. Tradicionalmente la transformación se aplica al habla natural o al habla sintética como un procesado posterior a la síntesis. El objetivo de esta tesis es estudiar las técnicas propuestas hasta el momento e incorporarlas en un sistema de síntesis de voz. Por ello es necesario conocer a fondo el método de síntesis a utilizar y estudiar y desarrollar la técnica que mejor se adapte a sus características. Se han estudiado dos propuestas de sintetizador: 1. Sintetizador de formantes que concatena unidades parametrizadas. En este caso los parámetros que se utilizan para la síntesis son los cinco primeros formantes y cuatro parámetros de fuente glotal del modelo LF (Liljencrants & Fant). 2. El segundo de los sintetizadores es un sintetizador LP (Linear Prediction) que concatena unidades codificadas. El modelo de fuente utilizado es un polinomio de sexto orden para modelar la integral del residuo y un filtro posterior para añadir riqueza frecuencial a la señal. En ambos casos se han desarrollado o modificado las herramientas necesarias para realizar el análisis de 455 unidades correspondientes a cuatro locutores: dos hombres y dos mujeres. Las técnicas de conversión utilizadas son: 1. Para el sintetizador por formantes se aplica una transformación lineal para convertir los cinco primeros formantes y copiamos los parámetros del modelo LF del locutor deseado. 2. En el caso del sintetizador LP la técnica de transformación empleada es la del mapeado de codebooks para acercar lo máximo los coeficientes LPC (Linear Prediction Coefficients) del locutor base a los del locutor deseado y en este caso se mantiene la fuente del locutor base. Se ha estudiado la relevancia de los parámetros utilizados en la síntesis por formantes en cuanto a la identidad del locutor se refiere. La conclusión de dicho estudio nos indica que la información sobre la identidad del locutor está repartida entre todos los parámetros analizados siendo los más relevantes la frecuencia fundamental, F0, y las frecuencias formánticas. Se ha modificado la fuente del sintetizador LP para favorecer la transformación del locutor. Se ha comprobado que el modelo de fuente propuesto mantiene una calidad equivalente al sintetizador que utiliza las unidades codificadas CELP (Coded Excited Linear Prediction). Se han realizado pruebas objetivas y subjetivas para evaluar la capacidad de transformar el hablante y la calidad de la voz sintetizada. Se demuestra que las técnicas empleadas son eficientes a la hora de cambiar la identidad del locutor pero también se observa una degradación de la calidad de la voz. ABSTRACT Voice conversion technologies transform the voice uttered by a person (source speaker) in order that it is perceived as if another person had said it (target speaker). Traditionally the transformation is applied to the natural speech or to the synthetic speech as a post-processing block for a synthesizer. The aim of this thesis is to study the technologies in the state of the art and to incorporate them in a system of synthesis of voice. To achieve this goal it is necessary to know thoroughly the method of synthesis to use, study and develop the technology that better adapts to its characteristics. Two types of synthesizer have been studied: 1. Formant synthesizer that concatenates parametrized units. In this case the parameters that are used for synthesis are the first five formants and four glottal source parameters of the model LF(Liljencrants and Fant). 2. The second one is a LP(Linear Prediction) synthesizer that concatenates codified units. The source model is a polynomial of sixth order to shape the integral of the LP residue and a later filter to enhace high frequencies. In both cases tools have been developed or modified to analize 455 units corresponding to four speakers: two men and two women. The voice conversion techniques develop in each synthesizer are: 1. A linear transformation is applied to convert the formants and we copy the LF model parameters of the target speaker. 2. In case of the LP synthesizer the technology used for transformation is codebook mapping. The relevancy of the parameters used in the formant synthesizer has been studied as far as speaker identity is concerned. The conclusion of the above mentioned study indicates that the information about the speaker identity is distributed among all the analyzed parameters being the most relevant the fundamental frequency, F0, and the formant frequencies. The source model of the LP synthesizer has been modified to favor speaker transformation. There has been verified that the proposed source model supports a equivalent quality to the synthesizer that uses codified units CELP (Coded Excited Linear Prediction). Objective and subjective tests have been carried out to evaluate the ability to transform the speaker and the quality of the synthesized voice. There is demonstrated that the used technologies are efficient at the moment of changing the identity of the speaker but it is also observed a degradation of the quality of the synthetic voice.