Tesis:
Towards the differential evaluation of Parkinson’s Disease by means of voice and speech processing
- Autor: MORO VELÁZQUEZ, Laureano
- Título: Towards the differential evaluation of Parkinson’s Disease by means of voice and speech processing
- Fecha: 2018
- Materia: Sin materia definida
- Escuela: E.T.S.I. Y SISTEMAS DE TELECOMUNICACIÓN
- Departamentos: TEORIA DE LA SEÑAL Y COMUNICACIONES (PROVISIONAL)
- Acceso electrónico: http://oa.upm.es/51278/
- Director/a 1º: GODINO LLORENTE, Juan Ignacio
- Resumen: La Enfermedad de Párkinson (EP) es un transtorno degenerativo que afecta a un 1% de la población con más de 60 años en países industrializados. Esta enfermedad afecta a la indepenencia del paciente y a sus capacidades motoras, teniendo un impacto considerable en sus actividades diarias a medida que dicho transtorno avanza. Una detección precoz puede potencialmente frenar la progresión de la EP pero el tiempo requerido para realizar un diagnóstico clínico puede ir de unos meses a varios años. Así pues, se hacen necesarias nuevas herramientas objetivas y consistentes que ayuden al diagnóstico diferencial de la enfermedad y reduzcan dicho tiempo. La literatura ha demostrado que el análisis del habla de los pacientes proporciona información relevante sobre la presencia de la enfermedad y es una posible fuente de indicadores para sistemas de diagnóstico. El habla, una habilidad casi universal, conlleva la realización de movimientos precisos y coordinados, en los músculos laríngeos y articulatorios. Por lo tanto, el propósito de esta tesis es la propuesta y análisis de diferentes esquemas de ayuda al diagnóstico de la EP mediante el uso del habla como objeto de análisis. En esta tesis, cinco sets de experimentos han sido llevados a cabo, cada uno de ellos incluyendo nuevas aproximaciones al problema destinadas a evaluar la presencia de la enfermedad en pacientes con párkinson idiopático y sujetos de control de tres bases de datos diferentes. Cuatro de estos sets analizan aspectos articulatorios mientras que el quinto emplea características fonatorias y una combinación de estas junto con las articulatorias en un único esquema. En estas aproximaciones, varias técnicas de reconocimiento de locutor y del habla se emplean en un escenario distinto: la detección de la EP a partir del habla. Varias familias de características conocidas como los MFCC, PLP o LPC junto con otras nuevas basadas en el espectro de modulación son analizadas. Además, distintas técnicas de selección de fragmentos del habla son propuestas, como la destilación alofónica o de hitos acústicos, que permiten la obtención de ciertos segmentos del habla que son de interés para los propósitos de este trabajo. Las principales técnicas de clasificación empleadas son GMM-UBM e i-Vectors-GPLDA junto con otras nuevas como los GMM forzados. A través del análisis de los esquemas propuestos, se examina la influencia de la EP en diferentes segmentos del habla, permitiendo la extracción de conclusiones sobre el funcionamiento del habla disártrica parkinsoniana. Estos segmentos están referidos a grupos fonéticos relacionados con el estrechamiento del tracto vocal o el uso de la fuente glótica o bien incluyen transiciones entre unidades fonéticas como el inicio de una oclusión o el final de una vocal, más relacionados con la coordinación de los órganos articuladores. Los mejores resultados de precisión en la detección de la EP obtenidos con las metodologías propuestas alcanzan valores de entre el 85% y el 94%, con Area Under the Curve entre 0.91 y 0.99, dependiendo de la base de datos de estudio. Estos resultados se obtienen empleando el esquema basado en las técnicas de selección de fragmentos propuestas: destilación alofónica y de hitos acústicos. Del mismo modo, se concluye que las propiedades discriminativas del esquema fonatorio propuesto para la detección automática de la EP son limitadas en comparación con los esquemas articulatorios analizados. Los resultados sugieren que la EP afecta a los movimientos relacionados con todos los grupos de segmentos articulatorios pero tiene una influencia más clara en la actividad motora asociada a las consonantes con mayor estrechamiento del tracto vocal, principalmente, oclusivas y fricativas. Finalmente, las nuevas metodologías propuestas pueden contribuir al diagnóstico diferencial de EP durante la evluación clínica de pacientes y son un paso adelante para los sistemas de diagnóstico de la EP basados en los aspectos articulatorios del habla. ----------ABSTRACT---------- Parkinson’s Disease (PD) is a neurodegenerative condition that affects to 1% of population over the age of 60 in industrialized countries. This disease seriously affects a patient’s independence and motor capabilities, having a considerable impact on their daily activities as it advances. Early detection can potentially slow the progression of PD but, unfortunately, the required period of clinical diagnosis ranges from months to years. Therefore, new objective and reliable tools are needed to support the differential diagnosis of the disease and to reduce this time. The analysis of a patient’s speech has demonstrated to provide relevant information about the presence of the disease and, consequently, is a possible source of features to be used in diagnosis systems. Speech, an ability that is almost universal, involves coordination and precision of movements in mainly the laryngeal and articulatory muscles. The purpose of this thesis is to propose and study different approaches to support clinical diagnosis of PD employing speech as the object of analysis. In this thesis, five sets of experiments are carried out, each one containing new approaches aimed to detect the presence of the disease in the speech of idiopathic PD patients and controls from three different databases. Four of these experiments focus on the analysis of articulatory aspects while the fifth employs phonatory features and a final combination of phonatory and articulatory information into a single approach. In these approaches, several state-of-the-art speaker and speech recognition technologies are employed in a different scenario: the automatic detection of PD from speech. Several known feature families such as MFCC, PLP or LPC and new features based on the use of the modulation spectra are analyzed. Moreover, different speech frame selection techniques are proposed, such as allophonic distillation and acoustic landmark distillation, providing certain specific speech segments that are of interest to the purposes of this work. The main classification techniques employed are GMM-UBM and i-Vectors-GPLDA, along with new schemes such as the forced GMM. As a consequence of the analysis of the proposed approaches, the influence of PD in these specific segments is examined, allowing to extract conclusions about the functioning of the parkinsonian dyshartric speech. These segments are phonetic groups related to the narrowing of the vocal tract or the use of the glottal source, such as fricatives, plosives or vowels, or include mainly transitions between phonetic units, such as the beginning of a burst or the end of a vowel, more related with the coordination of the articulators. The best accuracy results in the detection of PD achieved with the proposed methodologies reach values ranging from 85% to 94% with Area Under the Curve between 0.91 and 0.99 depending on the database. These results are obtained largely by employing approaches based on the frame selection proposed techniques: allophonic and acoustic landmark distillations. In the same manner, it is concluded that the discriminatory properties of the proposed phonatory approaches to automatically detect PD are quite limited in comparison with the analyzed articulatory approaches. Results suggest that PD affects the movements related to all of the studied articulatory segmental groups but has a clearer influence in the consonants with a greater narrowing of the vocal tract, mainly plosives and fricatives. Finally, the new proposed methodologies demonstrate their ability to support the differential diagnosis of PD during a patient’s clinical assessment and are a step forward in the speech-based diagnosis systems for PD employing articulatory aspects.