Logotipo de la Universidad Politécnica de Madrid

Compensación rápida de los efectos de la velocidad del habla, el pitch y el volumen de producción de voz en reconocimiento de habla continua.

Autor: TAPIAS MERINO, Daniel

Título: Compensación rápida de los efectos de la velocidad del habla, el pitch y el volumen de producción de voz en reconocimiento de habla continua.

Fecha: 2001

Materia: Sin materia definida

Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

Departamento: SEÑALES, SISTEMAS Y RADIOCOMUNICACIONES

Acceso electrónico:

Director/a(s):

  • Director/a: GOMEZ MENA, Juan Francisco

Resumen: Las tasas de error en los sistemas de reconocimiento actuales se incrementan notablemente si las condiciones de entrenamiento y de evaluación son diferentes: los seres humanos superamos estos problemas adaptándonos continuamente al ruido de fondo al canal y al locutor. Incluso identificamos al locutor y extraemos información sociocultural que nos es útil para mejorar el proceso de comunicación. En la tesis se expone el problema de la variabilidad inter/intralocutor en particular en tres de parámetros: 1.- La velocidad del habla. 2.- El pitch. 3.- El volumen de producción de voz. Tras una revisión de las técnicas de compensación de esta variabilidad, se estudian en detalle los fenómenos relacionados con la variabilidad para ver como afectan al reconocedor y desarrollar técnicas específicas, de compensación basadas en este conocimiento o seleccionar de las existentes las más útiles de cara a su utilización en servicios telefónicos. En particular, se realiza una clasificación de las técnicas de compensación existentes en sentido amplio; se estudian en detalle los fenómenos de variabilidad; se propone una arquitectura de sistema de reconocimiento que emplea parte de la información adicional y se evalúan técnicas de compensación para cada uno de los fenómenos para una adaptación rápida del sistema de reconocimiento.