Estrategias para la detección automática de patología laríngea a partir del registro de la voz.

<< Volver atrás

Tesis:

Estrategias para la detección automática de patología laríngea a partir del registro de la voz.

Autor: GODINO LLORENTE, Juan Ignacio

Título: Estrategias para la detección automática de patología laríngea a partir del registro de la voz.

Fecha: 2002

Materia: Sin materia definida

Escuela: FACULTAD DE INFORMATICA

Departamentos: ARQUITECTURA Y TECNOLOGIA DE SISTEMAS INFORMATICOS

Acceso electrónico:

Director/a 1º: AGUILERA NAVARRO, Santiago
Director/a 2º: GOMEZ VILDA,Pedro

Resumen: La comunicación oral es uno de los agentes más importantes en la habilidad que los seres humanos tenemos para interactuar y comunicamos con nuestro entorno. La capacidad de hablar y ser entendido es central en nuestro desarrollo como individuos. Para aquellos que están privados de esta capacidad, bien sea desde nacimiento, bien sea por alguna enfermedad, se trata de una experiencia altamente frustrante. Esta tesis recoge una nueva perspectiva en el análisis objetivo, medida, detección de la presencia de patología y clasificación de la calidad vocal, en locutores que sufren patología laríngea (incluyendo el cáncer de laringe). La mayoría de los desórdenes de la voz modifican el registro acústico. Estos desórdenes han de ser diagnosticados y tratados en un temprano estadio. El análisis acústico es una técnica no invasiva (basada en tratamiento digital de la señal) que se revela como una herramienta muy interesante para el diagnóstico de este tipo de desórdenes. Su interés se basa en que se trata de una herramienta no invasiva, proporciona un diagnóstico objetivo, e incluso, puede ser usada en los procesos de evaluación de tratamientos farmacológicos, médicos y de rehabilitación, a la vez que sirve a médicos otorrinos, foniatras y logopedas para caracterizar voces patológicas. Se sabe que la presencia de patología laríngea no necesariamente causa cambios perceptibles en el registro acústico de la señal, o lo que es lo mismo, la presencia de patología vocal no necesariamente va acompañada de una pérdida perceptible de calidad en la voz (especialmente en etapas tempranas del cáncer de laringe). Para evaluar la calidad de la voz se han desarrollado multitud de algoritmos que en muchos casos han demostrado una gran correlación entre su desviación y la presencia o ausencia de patología. El principal problema que subyace bajo estos parámetros es que no existen estudios poblacionales rigurosos y que, por otra parte, su cálculo está basado en una primera estimación de la frecuencia fundamental de la señal de voz, tarea automática especialmente difícil en presencia de patología. Actualmente, la identificación de patologías laríngeas se realiza mediante la observación directa de las cuerdas vocales mediante técnicas de videoendoscopia. Este tipo de exploración tiene múltiples desventajas, entre las que se encuentran su alto coste, la duración de la propia exploración, y el hecho de que se trata de una técnica de tipo invasivo. Como resultado final de la presente tesis doctoral se dispone de un sistema de bajo coste basado en ordenador personal orientado al médico de familia y a los especialistas en otorrinolaringología. El sistema final soporta la grabación, y edición de segmentos de voz proporcionando un análisis objetivo a partir del conjunto de parámetros acústicos extraídos del propio registro. La tarea más importante en la presente tesis doctoral se puede considerar relacionada con el estudio de distintos esquemas de parametrización y clasificación aplicados a de la detección automática de patología laríngea. Se han desarrollado y probado distintos esquemas de parametrización espectral y cepstral combinándolos con esquemas de clasificación estadísticos y/o neuronales. El sistema diseñado es capaz de discriminar tramas de voz normal y patológica (a partir de frases pregrabadas y/o vocales sostenidas) con una tasa de acierto sobre trama que alcanzo el 99.9±0.1 por ciento. Esta tasa de error se obtuvo con parametrizaciones cepstrales tipo MFCC y clasificación mediante modelos de mezclas de gausianas. Asimismo se ha abordado la valoración automática de la calidad de la voz en escala GRABS con resultados que rondaron en el mejor de los casos el 68 por ciento.