Tesis:

Study of Speech and Craniofacial features in Obstructive Sleep Apnea Patients


  • Autor: ESPINOZA CUADROS, Fernando Manuel

  • Título: Study of Speech and Craniofacial features in Obstructive Sleep Apnea Patients

  • Fecha: 2018

  • Materia: Sin materia definida

  • Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

  • Departamentos: SEÑALES, SISTEMAS Y RADIOCOMUNICACIONES

  • Acceso electrónico: http://oa.upm.es/51768/

  • Director/a 1º: HERNÁNDEZ GÓMEZ, Luis Alfonso

  • Resumen: ESTA TESIS EXPLORA LA CARACTERIZACIÓN DE LA VOZ Y DEL FENOTIPO CRANEOFACIAL de pacientes diagnosticados con el síndrome de Apnea Hipopneas durante el Sueño (SAHS) mediante técnicas del estado del arte de tecnologías de caracterización de voz y procesado de imágenes para la caracterización de caras, así como el estudio y análisis de modelos supervisados de aprendizaje automático para la evaluación de las características de la voz y de las características craneofaciales como predictores del SAHS. El síndrome de Apnea Hipopneas durante el Sueño (SAHS) es un tipo de trastorno respiratorio que afecta principalmente a los hombres de edad adulta, y se caracteriza por pausas recurrentes de la respiración durante el sueño debido al bloqueo total o parcial de las vías aéreas superiores. El diagnóstico del SAHS se realiza mediante la polisomnografía convencional. Para esta prueba es necesario que el paciente duerma en la unidad del sueño del hospital bajo la supervisión de un equipo médico con el propósito de registrar los patrones de respiración, ritmo cardiaco, y movimiento de las extremidades. Sin embargo, el procedimiento para el diagnóstico del SAHS es muy costoso debido al requerimiento de equipos y personal necesarios para la prueba, e invasivo para el paciente. Además, la lista de espera para el diagnóstico puede llegar a ser de un año. Se han desarrollado muchos métodos como alternativa a esta problemática con el fin de reducir las listas de espera y acelerar la detección de los casos más severos. Entre estas pruebas se encuentran aquellas basadas en la detección de síntomas relacionados con el SAHS mediante cuestionarios realizados al paciente; inspección visual de la zona orofaríngea mediante el test de Mallampati, y análisis craneofacial mediante técnicas avanzadas de representación de imágenes tales como cefalometría, tomografía computarizada y análisis de imágenes por resonancia magnética. Entre las ventajas que pueden ofrecer estos métodos destacan la detección rápida de casos positivos y la priorización de casos severos de SAHS, así como su carácter menos invasivo en comparación con la polisomnografía convencional. No obstante, muchos de estos métodos son costosos y no son suficientemente generalizables Los primeros estudios para la evaluación del SAHS mediante técnicas de análisis de imágenes y caracterización antropométrica hallaron características anómalas en las estructuras de las vías aéreas de pacientes con SAHS. Por tanto, se pueden esperar patrones anómalos en el habla de los pacientes debido a la presencia de anormalidades en las estructuras o funciones de sus vías respiratorias. Esta hipótesis fue confirmada por los primeros estudios basados en análisis acústico de grabaciones de pacientes diagnosticados con SASH. Los antecedentes expuestos anteriormente han llevado a proponer procedimientos menos costosos basados en el análisis de caras y grabaciones de voz de los pacientes para ayudar a la detección del SAHS, así como a la evaluación de su severidad. Por tanto, esta Tesis explora la caracterización del habla y el fenotipo craneofacial de pacientes diagnosticados con SAHS mediante técnicas de reconocimiento automático de locutor (i-vectors, supervectors) y caracterización de caras (características locales, modelado estadístico, características basadas en redes profundas). Para las pruebas se empleó una base de datos de 729 pacientes (204 mujeres, 525 hombres), y las características de voz y craneofaciales se evaluaron mediante modelos supervisados de aprendizaje automático. Por otra parte, existen diferencias sobre como el SAHS afecta a mujeres y hombres, como por ejemplo los síntomas y factores de riesgo, los cuales pueden actuar como variables de confusión en el modelo para la detección del SAHS. Por tanto, es importante resaltar que los experimentos se realizaron para cada género y por separado. Además, los primeros estudios para la detección del SAHS mediante el habla alcanzaron resultados favorables, sin embargo, después de un análisis de los mismos y de la metodología seguida, se encontraron muchas limitaciones, siendo algunas de estas: pocos datos de entrenamiento y el manejo incorrecto de los modelos de aprendizaje automático, provocando la aparición de falsos resultados. Por tanto, la principal motivación que conduce al desarrollo de esta Tesis es la exploración de las técnicas de procesado automático del habla y caracterización automática de las caras, así como la evaluación de estas características mediante un modelo de validación exhaustiva con el objetivo de hacer frente a las limitaciones presentes en nuestra base de datos y evitar los típicos errores debido al manejo incorrecto de los modelos de aprendizaje automático. Por último, cabe destacar, de acuerdo a nuestro mejor conocimiento, que la presente Tesis es el único estudio que aborda la caracterización del fenotipo craneofacial y del habla en mujeres mediante el uso de procesamiento automático del habla y técnicas de caracterización facial. ----------ABSTRACT---------- This Thesis explores t he speech and craniofacial phenotype characterization in Obstructive Sleep Apnea (OSA) patients by using the state-of-the-art speaker’s voice characterization technologies and image processing techniques for face recognition along with the study and analysis of supervised machine learning methods for evaluating these speech and craniofacial features as predictors of OSA severity. The OSA is a common sleep-related breathing disorder affecting mainly men. I t is characterized by recurring breathing pauses during sleep caused by a blockage of the upper airway (UA). The diagnosis of OSA is carried out at a sleep unit in a hospital by the polysomnography (PSG) test. This test requires an overnight stay of the patient at the sleep unit under the supervision of a clinician to monitor breathing patterns, heart rhythm, and limb movements, resulting in an invasive and costly method as well as the waiting list may exceed one year. As an alternative to this test, many diagnosis schemes have been developed to help to reduce the waiting lists and accelerate the detection of severe cases such as questionnaires for OSA screening, and those based on medical-imaging, for instance oropharyngeal visual inspection (i.e. Mallampati test), and craniofacial assessment by means analysis techniques (e.g. cephalometry) of images created by advanced methods for visual representations (e.g. computed tomography, magnetic resonance imaging). Although these methods can help to increase the detection of positive cases as well as provide reliable results, most of them lack generalization such as questionnaires as well as they are costly and invasive for patients such as those used for craniofacial assessment. Early studies for OSA assessment by using medical-imaging techniques and anthropometric characterization found out some evidence of abnormalities in upper airway structures in OSA subjects. Consequently, abnormal or particular speech features in OSA speakers may be expected from the altered structure or altered function of their upper airways. These facts have led to proposing less costly procedures based on the analysis of patients’ facial images and voice recordings to help with OSA detection and severity assessment. Therev fore, this Thesis explores the speech and craniofacial characterization in Obstructive Sleep Apnea (OSA) patients by means of speech and craniofacial features based on automatic speaker recognition systems and face characterization techniques respectively: 1) supervectors and i-vectors, and 2) local features, statistical-model based features, and deep-learning-based features. Using an existing database of 729 patients (204 women, 525 men), speech and craniofacial features were evaluated for OSA prediction by means supervised machine learning models. There are differences in how OSA affects men and women such as symptoms and risk factors, which could act as confounding factors. Therefore, it is important to emphasize that experiments were performed separately for each gender. Furthermore, previous speech-based OSA detection studies have reached successful results, however, after a review of their results and methodologies, we found out several limitations, those being related to a small number of training samples as well as machine learning pitfalls in the methodology and validation scheme such as feature selection over a limited number of samples and high-dimensionality features resulting in a high probability of overfitting of the prediction model. The ultimate motivation of this Thesis consists in exploring automatic speech processing and facial characterization techniques for OSA assessment on patients as well as their evaluation by means of an exhaustive validation scheme in order to face the limitations related to database size and to avoid the machine learning pitfalls due to the incorrect treatment of supervised learning models. Finally, to the best of our knowledge, the present Thesis is the unique study that approaches the speech and craniofacial phenotype characterization in women by using automatic speech processing and facial characterization techniques.