Tesis Doctorales UPM: Consulta online

Autor: GOMEZ MENA, Juan Francisco

Título: Métodos de reconocimiento robustos con los modelos ocultos de Markov

Fecha: 1990

Materia: CIENCIAS TECNOLOGICAS. Teseo;TECNOLOGIA ELECTRONICA. Teseo;TRADUCTORES ELECTROACUSTICOS. Teseo

Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

Departamento: SIN DEPARTAMENTO DEFINIDO

Acceso electrónico:

Director/a(s):

Director/a: SANTOS SUAREZ, Juan Miguel

Resumen: Los problemas planteados en el reconocimiento de la voz tienen múltiples fuentes: 1. Segmentación, entrenamiento y reconocimiento de las unidades elegidas (palabras, fenones, fonemas, demisílabas, etc...). 2. Tamaño del vocabulario de reconocimiento. 3. Dependencia/independencia del locutor. 4. Parametrización robusta y reducción de ruidos en ambientes adversos. En esta tesis se aborda el problema del reconocimiento de palabras aisladas con un vocabulario de tamaño mediano multilocutor, en un ambiente adverso. Aunque los métodos con programación dinámica (P.D.) basados en plantillas han demostrado ser los más efectivos para el reconocimiento de palabras aisladas, hemos optado por utilizar un método paramétrico, debido a: la alta cantidad de cálculo y la necesidad de generar múltiples referencias de cada patrón que requieran los métodos con P.D.; la dificultad para extenderlos al reconocimiento continuo; y al deseo de utilizar unidades de voz más pequeñas que las palabras, en el futuro. El método paramétrico elegido para modelar la señal de voz ha sido el de las cadenas ocultas de Markov. En el capítulo 2 se describen con detalle estos modelos ocultos de Markov (Hidden Markov Model). En el capítulo 3 se presenta la solución a los tres problemas de los HMM: evaluación del modelo, decodificación de una secuencia de observaciones y entrenamiento del modelo. Se describen los problemas que se presentan en la implementación de un sistema de reconocimiento, con los correspondiente solución: inicialización del HMM; escalado de las probabilidades; generación del HMM a partir de múltiples secuencias de observaciones; y la insuficiencia de datos de entrenamiento. Se explican dos tipos de entrenamiento. Primero el normal, basado en una inicialización del modelo, segmentación de la secuencia de observaciones, reestimación del modelo a través del algoritmo de Viterbi y del algoritmo de Baum-Welch. Segundo, el basado en el entrenamiento correctivo que trabaja de forma iterativa ajustando los valores de los parámetros del HMM, hasta hacer que las palabras correctas sean más probables y las incorrectas menos probables. Para compensar la variabilidad acústica intra-locutor e incluso la inter-locutor se describe un método de adaptación del HMM ya generado a una nueva situación. Finalmente el reconocimiento se hace con el algoritmo de Viterbi. En el capítulo 4 se explican los motivos que han llevado a utilizar la representación cepstral y su información transicional, así como un coeficiente de regresión de la energía local, en la formación del vector de características. El vector de características así obtenido se puede enventanar y aunque, en teoría, su efecto resulta irrelevante sobre la matriz diagonal de covarianza del HMM, sin embargo es muy importante cuando se usan mezclas de gaussianas con las funciones de densidad de probabilidad basadas en la distancia euclídea. En el capítulo 5 se describen diferentes métodos de compensación de los efectos del ruido sobre los HMM y la representación cepstral. Se trata la representación de la coherencia modificada en tiempo corto y la adaptación al ruido de un sistema de reconocimiento mediante la sustracción espectral y la ecualización del espectro. El capítulo 6 está íntegramente dedicado a la evaluación del reconocedor diseñado y algunas de los métodos propuestos de reconocimiento en ambientes adversos. Para terminar se exponen las conclusiones de esta tesis y las líneas futuras de trabajo que se han abierto