Tesis:

Stochastic characterization of nonlinear dynamics for the automatic evaluation of voice quality.


  • Autor: ARIAS LONDOÑO, Julián David

  • Título: Stochastic characterization of nonlinear dynamics for the automatic evaluation of voice quality.

  • Fecha: 2010

  • Materia: Sin materia definida

  • Escuela: E.U.I.T. TELECOMUNICACION

  • Departamentos: INGENIERIA DE CIRCUITOS Y SISTEMAS

  • Acceso electrónico:

  • Director/a 1º: GODINO LLORENTE, Juan Ignacio
  • Director/a 2º: CASTELLANOS DOMINGUEZ, Germán

  • Resumen: El diagnóstico y tratamiento clínico de patologías laríngeas es en la actualidad un problema de gran interés para una rama de la investigación relacionada con el tratamiento digital del habla. El objetivo principal de la investigación en este campo consiste en el desarrollo de sistemas de diagnóstico asistido, que posibiliten la evaluación objetiva de un paciente y posteriormente mejoren el diagnóstico y tratamiento clínico que a él se le da. Adicionalmente, este tipo de sistemas ayudan a la detección temprana de enfermedades que, de otra forma, podrían permanecer ocultas durante un tiempo crucial para que su tratamiento sea eficaz. La mayor parte de los estudios que se han llevado a cabo en este campo están basados en métodos lineales de caracterización de la señal de voz. Varias de dichas características han demostrado contener información de gran utilidad para el problema de detección. Sin embargo, diversos estudios han mostrado que en el proceso de producción de voz se presentan diferentes fenómenos físicos con características no lineales, que no pueden ser caracterizados por métodos convencionales basados en técnicas lineales. Esta tesis doctoral está enfocada en el análisis y caracterización de componentes no lineales en señales de voz, a partir de técnicas de embebimiento por retardo de tiempo para la reconstrucción del espacio de estados. Se estudia su empleo como herramienta complementaria para la extracción de información en la detección automática de voces patológicas y en la medición automática de niveles de calidad de voz tomando como referencia la escala de medida GRBAS. El análisis no lineal de señales de voz es particularmente más complejo que el de otro tipo de señales, debido al hecho de que durante el proceso de producción de la voz se presentan inherentemente fenómenos de turbulencia, los cuales adicionan componentes aleatorias a las señales de voz que, por definición, no están consideradas por los métodos convencionales de análisis no lineal. Por lo tanto, en este trabajo se estudian medidas convencionalmente usadas en el análisis de dinámica no lineal, tanto como diversas medidas de complejidad basadas en teoría de la información, que tienen en cuenta no sólo las componentes no lineales, sino también componentes estocásticas presentes en las series de tiempo. De igual manera se proponen tres medidas de complejidad basadas en modelos estocásticos que permiten una mejor caracterización del espacio de estados y proporcionan información complementaria útil para el sistema de detección. El trabajo estudia distintos esquemas de clasificación, tanto para el problema de detección de patologías de voz como para el problema multi-clase de clasificación de una voz dentro de la escala de calidad GRBAS. Adicionalmente, considera el problema de combinación de información a partir de métodos no lineales, con medidas de ruido y cepstrales, estableciendo la relevancia real que tienen las medidas de complejidad para mejorar la capacidad discriminante de los sistemas de detección automática de patologías de voz, y proporciona una metodología basada en técnicas de combinación de clasificadores con resultados que alcanzan un 98.23% ± 0.001 de acierto en el primer caso y un 63.56% de acierto para la valoración automática de la calidad de la voz de acuerdo con la escala GRBAS. Los estudios realizados muestran que el error de detección de voces patológicas se reduce en un 66.67%, en comparación con los resultados obtenidos empleando únicamente medidas de ruido y parámetros cepstrales; mientras que el error de medición de la escala GRBAS se redujo en un 13.69% realizando una comparación similar a la anterior. Estos resultados superan los mejores resultados encontrados actualmente en el estado del arte.