Funciones de base radial para codificación predictiva de voz

<< Volver atrás

Tesis:

Funciones de base radial para codificación predictiva de voz

Autor: DIAZ DE MARIA, Fernando

Título: Funciones de base radial para codificación predictiva de voz

Fecha: 1996

Materia: CIENCIAS TECNOLÓGICAS. Teseo;TECNOLOGÍA DE TELECOMUNICACIONES. Teseo

Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

Departamentos: SEÑALES, SISTEMAS Y RADIOCOMUNICACIONES

Acceso electrónico:

Director/a 1º: FIGUEIRAS VIDAL, Aníbal Ramón

Resumen: El objetivo de esta tesis ha sido mejorar la calidad ofrecida por los algorítmos de codificación de voz basados en predicción lineal mediante la generalización del predictor para incorporar no linealidades. Tal aproximación se basa en la presencia constatada de fenómenos no lineales en el mecanismo de producción de voz. Se ha orientado la investigación a complementar la predicción lineal con una contribución no lineal, en lugar de pretender una nueva solución global. Aparte de aprovechar los conocimientos y experiencia adquiridos sobre el enfoque lineal, la combinación de ambos tipos de predicción ha permitido reducir la complejidad de la parte no lineal. Las redes neuronales presentan una estructura paralela que puede explotarse mediante una realización hardware adecuada para reducir suficientemente el tiempo de computación de la alternativa no lineal; en particular, en esta tesis se propone el empleo de la red de funciones de base radial (RBFN: "Radial Basis Functions Network") por dos motivos fundamentales: primero, su entrenamiento es rápido en relación con otros tipos de redes; y segundo, la rbfn proporciona una solución regularizada al problema de predicción, y la selección apropiada del parámetro de regularización permite garantizar la capacidad de generalización necesaria para responder adecuadamente ante excitaciones cuantificadas. Se han evaluado las dos formas naturales de combinar la RBFN con un predictor lineal: paralelo y serie, optándose por la segunda configuración porque además de ofrecer unas prestaciones satisfactorias, proporciona ventajas computacionales muy importantes para su utilización en codificadores de análisis mediante síntesis. A continuación, se ha diseñado la red (tamaño de la misma y valor del parámetro de regularización) para maximizar las prestaciones del predictor híbrido. Se ha propuesto un codificador (que se ha denominado CENP: "Code Excited Nonlinear Predictive") basado en el nuevo predictor; habiéndose evaluado dicho codificador en relación con un CELP actuando ambos a 10.800 bps., obteniéndose una ventaja en torno a 0,5 dB en términos de SNR segmental, asimismo los resultados de un sondeo sobre la calidad percibida revelan una ligera preferencia de los encuestados por el codificador propuesto. Estos resultados son significativos porque las realizaciones implicadas son razonablemente accesibles y cabe introducir sucesivas mejoras de calidad continuando con la línea de investigación aquí indicada