Tesis Doctorales UPM: Consulta online

Autor: GONZALEZ RODRIGUEZ, Joaquín

Título: Influencia y compensación del entorno acústico en sistemas de reconocimiento automático de locutores

Fecha: 1999

Materia: Sin materia definida

Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

Departamento: SEÑALES, SISTEMAS Y RADIOCOMUNICACIONES

Acceso electrónico:

Director/a(s):

Director/a: HERNANDEZ GOMEZ, Luis Alfonso

Resumen: El reconocimiento robusto de habla ó locutores ha sido durante los últimos años una de las áreas de interés más destacadas en el campo de las tecnologías del habla. Aunque se han obtenido grandes avances a la hora de compensar la presencia tanto de canales desconocidos como de ruido aditivo, especialmente para el habla telefónica, los resultados nos han sido tan esperanzadores a la hora de compensar el entorno acústico cuando el locutor no tiene acceso próximo al micrófono de adquisición. Sin embargo, las personas se muestran extremadamente hábiles a la hora de trabajar en estas situaciones, siendo capaces de comunicarse sin problemas en presencia de niveles elevados de ruido, reverberación, o incluso en presencia de locutores simultáneos próximos a nuestro interlocutor. De este modo, estudiaremos en este trabajo los mecanismos que usan las personas para realizar estas tareas, así como las características del campo sonoro y la propagación acústica de señales de voz en los recintos habituales, con el objetivo de aprovechar este conocimiento para mejorar el rendimiento de nuestros sistemas de reconocimiento. En este trabajo, nos hemos centrado fundamentalmente en dos áreas. En primer lugar, hemos tratado de realizar sistemas robustos de identificación y verificación de locutores, centrados especialmente en la compensación de la variabilidad en el habla del locutor debida tanto al uso de canales diferentes en las fases de entrenamiento y prueba del sistema, como al paso del tiempo entre ambas fases. Así, con el objetivo de poder probar al sistema en condiciones realistas, hemos grabado una gran base de datos de locutores conocida como 'Ahumada'. Ésta incluye habla prefijada y habla espontánea procedente de 100 locutores varones, grabados en seis sesiones diferentes de grabación, tres de ellas realizadas en estudio con micrófonos de alta calidad, y otras tres grabadas por teléfono. Para concluir con este apartado, presentamos resultados tanto sobre Ahumada como sobre otras bases de datos de nuestro sistema de identificación y verificación de locutores independiente de texto basado en GMMs (modelos de mezclas de Gaussianas), obteniendo excelentes resultados en las diversas tareas en que son evaluados. En segundo lugar, hemos dedicado gran atención a la influencia del entorno acústico, habiendo desarrollado dos formas diferentes de tratar con este problema, basadas respectivamente en la capacidad humana para tratar con estas situaciones y en las características espaciales del campo sonoro en presencia de ruido y reverberación. Usando una señal binaural (dos canales) como entrada del procesador binaural que hemos desarrollado, basado en inhibición contralateral, podemos obtener una representación espacio-frecuencia del nivel de señal en cada uno de los filtros auditivos implementados para cada ángulo de entrada posible en cada una de las tramas de análisis. De este modo, podemos realizar tanto localización como separación de fuentes sin más que trabajar sobre dicha representación, habiéndose obtenido resultados excelentes en separación de locutores concurren presencia de ruido. Por otro lado, el estudio de las características espaciales del campo sonoro en recintos reverberantes nos indica que la influencia del ruido puede separarse en dos tipos diferentes de contribuciones: por un lado, tenemos el ruido difuso, incorrelado espacialmente cuando aumentamos suficientemente la distancia entre los puntos de observación y asociado directamente con la reverberación, y por otro, el ruido coherente procedente de fuentes de ruido, asociado con ondas progresivas y con alta correlación espacial. Así, y con el objetivo de cancelar ambos tipos de ruido, hemos tenido que modificar las técnicas clásicas de procesado en array para poder trabajar con señales de voz en estas condiciones. Así, tras la etapa de conformación de haz, hacemos uso de un esquema de filtrado diseñado para la cancelación tanto del ruido coherente como del no coherente, basado en una modificación sobre un esquema basado en filtrado Wiener, originalmente diseñado para la cancelación de ruido difuso, incluyendo en la estimación del filtro las componentes de ruido coherente presentes en las pausas de la señal de voz. Agrupando las diferentes ideas expuestas a lo largo de este trabajo, presentamos al final varios experimentos en que nuestros sistemas de reconocimiento son evaluados en condiciones de presencia conjunta de ruido y reverberación, obteniendo los mejores resultados cuando hacemos uso de la técnica de procesado en array basada en coherencia que proponemos en este trabajo como etapa de preprocesado robusto del sistema de reconocimiento empleado. Para finalizar, presentamos una serie de conclusiones generales sobre el trabajo realizado, y proponemos algunas líneas futuras de trabajo, acordes con las posibles soluciones esbozadas aquí para aquellas cuestiones que aún quedan por resolver