Statistical analysis of the connection between sleep apnea and speech

<< Volver atrás

Tesis:

Statistical analysis of the connection between sleep apnea and speech

Autor: MONTERO BENAVIDES, Ana

Título: Statistical analysis of the connection between sleep apnea and speech

Fecha: 2017

Materia: Sin materia definida

Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

Departamentos: SEÑALES, SISTEMAS Y RADIOCOMUNICACIONES

Acceso electrónico: http://oa.upm.es/48357/

Director/a 1º: HERNÁNDEZ GÓMEZ, Luis Alfonso
Director/a 2º: BLANCO MURILLO, José Luis

Resumen: En esta Tesis se trata uno de los trastornos del sueño más importante, la apnea obstructiva del sueño. Aunque hace ya dos siglos que se llevan observando anomalías en la respiración, ya sea durante el sueño o estando despiertos, ha sido recientemente cuando se ha reconocido la importancia de estos desórdenes del sueño debido a su alta prevalencia y sus dramáticas consecuencias. En las últimas décadas se ha profundizado en el estudio de los desórdenes del sueño, entre ellos los de la apnea obstructiva del sueño, que consiste en el cese involuntario de la respiración durante unos segundos al nivel de la faringe, que se repite a lo largo de la noche impidiendo un correcto descanso. Sin tratamiento, los pacientes que sufren apnea del sueño se enfrentan diariamente al cansancio permanente, dificultándoles poder llevar una vida normal y haciéndoles ser más propensos a causar accidentes, involucrando así al resto de población. Además se han detectado otros efectos secundarios como hipertensión, diabetes y riesgo de infarto. A pesar de que últimamente ya se ha reconocido la importancia a nivel mundial de este síndrome, su diagnóstico todavía es tedioso e intensivo en recursos. Actualmente el diagnóstico de la apnea obstructiva del sueño comienza en la consulta del médico de familia quien después de valorar al paciente como posible enfermo de apnea obstructiva del sueño lo deriva a la unidad de sueño para que allí se le realice una polisomnografía. Este examen consiste en pasar la noche en dicha unidad mientras se duerme y se graban múltiples variables que posteriormente se tendrán que analizar. Las listas de espera para la realización de esta prueba médica es superior a un año de duración en países como España, lo cual pone de manifiesto la urgente necesidad de alternativas de métodos de diagnósticos y cribado. A lo largo de esta Tesis pretendemos ayudar a los médicos en la tarea de cribado de los casos más graves de apnea obstructiva del sueño para poder dar prioridad a estos pacientes reorganizando las listas de espera. De esta manera los pacientes más graves de esta enfermedad podrían beneficiarse de un diagnóstico rápido y ponerse en tratamiento. Dado que tanto la apnea obstructiva del sueño como la voz están relacionadas con el funcionamiento de las vías aéreas, se ha supuesto y comprobado que existen rasgos en el habla que están relacionados con este síndrome. Investigaciones biomédicas previas han demostrado la existencia de patrones morfológicos que están relacionados con la apnea obstructiva y que afectan al habla. Además se han encontrado rasgos característicos en el habla de estos pacientes. En esta Tesis se profundiza en la relación entre el habla y la apnea obstructiva del sueño teniendo en cuenta los trabajos previos que nos han facilitado la investigación ya que en ellos se detectaban diferencias en el habla de pacientes de OSA en tres niveles: resonancia, articulación y fonación. Nuestros experimentos están condicionados por la disponibilidad de datos. Trabajamos con habla continua tanto como con vocales sostenidas. Realizamos un cribado para seleccionar a los pacientes más graves, es decir, clasificar en dos grupos, sanos y casos graves. Por otra parte, también analizamos todo el espectro de la enfermedad, estratificando la población en función del grado de la severidad de la enfermedad. En cada estrato, analizamos las relaciones entre el habla y las variables clínicas. Avanzamos esta línea de investigación estudiando no sólo el habla sino también las variables clínicas relacionadas con la apnea obstructiva para entender mejor las relaciones entre ellas. Añadimos información contextual al análisis estadístico; seleccionamos rasgos discriminativos para el cribado de apnea; analizamos variables clínicas y el habla en un escenario clínico real. Aprovechando la existencia de una base de datos de tamaño moderado formada por 80 sujetos, incluyendo sanos y casos graves de apnea, con la peculiaridad de que se habían intentado controlar características físicas de estos pacientes (edad, peso, índice de masa corporal) nos centramos en analizar las diferencias de la señal de voz utilizando por primera vez en la detección de la apnea la información contextual. Para ello construimos dos tipos de modelos ocultos de Markov, uno dependiente de frase y el otro dependiente del contexto de los fonemas. Con esta metodología logramos mejorar las tasas de clasificación con respecto al sistema de referencia independiente del texto. Con una perspectiva diferente, en vez de centrarnos únicamente en medidas de voz de la componente espectral, nos centramos en el análisis de medidas acústicas de distinta naturaleza: diferencias de formantes, propiedades fonéticas y prosódicas y una medida de nasalidad. A partir de un total de 16 medidas de voz, seleccionamos las que mejor diferencian entre las dos poblaciones, combinándolas en distintos tipos de discriminadores, resultando ser el mejor el de 8 medidas. Nuestro modelo basado en medidas del habla presenta un mejor rendimiento que el modelo de referencia basado en la edad y el índice de masa corporal, que es la técnica habitual de cribado usado en las clínicas. Finalmente estuvo disponible una base de datos nueva que cumplía con dos propiedades importantes: (i) cubre el rango entero desde personas sin apnea hasta casos graves de apnea, incluyendo casos leves, y (ii) ha sido grabado en un escenario clínico real de pacientes sospechosos de tener apnea obstructiva del sueño. El primer punto nos permite determinar correlaciones del índice de apnea/hipoapnea, es decir de la gravedad de la apnea, con otros parámetros clínicos (peso, altura, perímetro cervical, edad) y con características del habla (las frecuencias y anchos de banda de los primeros tres formantes). Debido al segundo punto nuestro estudio es realista para el cribado que queremos diseñar. A la vez el problema de clasificación se vuelve más difícil porque la mayoría de los no-apnéicos tiene algún otro trastorno, ya que fueron referenciados para someterse a la polisomnografía en la unidad de sueño. Determinamos las frecuencias y los anchos de banda de los formantes de las vocales e investigamos las correlaciones con variables clínicas y con la apnea obstructiva del sueño, tanto como las diferencias entre los grupos de los no-apnéicos, los casos leves y los casos graves de apnea. Al contrario de lo esperado, sólo encontramos correlaciones escasas de la apnea obstructiva con las frecuencias y anchos de bandas de los formantes. En conclusión, demostramos que en el escenario controlado se puede mejorar la detección de la apnea obstructiva del sueño usando la información contextual (modelos ocultos de Markov) y combinando varias medidas acústicas seleccionadas. Sin embargo, en un escenario clínico real de una unidad de sueño, donde hay que distinguir la apnea obstructiva de otras enfermedades del sueño, el problema se vuelve más complejo. Se demuestra que algunas hipótesis aceptadas de otros autores (resonancias de formantes más bajas y más anchas), no se confirman. El problema de detectar la apnea obstructiva del sueño todavía no se ha resuelto en un escenario clínico real. Sin embargo, en esta Tesis se han puesto de manifiesto las interrelaciones entre dicha enfermedad, el habla y variables clínicas, lo que ayudará a guiar futuras investigaciones que traten la conexión entre el habla y la apnea obstructiva del sueño. ----------ABSTRACT---------- This thesis deals with sleep disorders, namely with obstructive sleep apnea (OSA), one of the most important ones. Although breathing abnormalities that occur either during wakefulness or sleep have been reported since the 1800s, the high prevalence of disordered breathing that occurs only during sleep was not recognized until recently. In the last decades, deeper research has been conducted on sleep disorders, and in particular on OSA. This disease consists in episodes of involuntary cessation of breath during sleep by the collapse of the pharynx that may last a few seconds and reproduce throughout the night, preventing proper rest. Left untreated, OSA leads to an increased risk of accidents and can lead to serious health risks, such as hypertension, diabetes and stroke. Although recently OSA has been acknowledged as a worldwide problem, its diagnosis is still tedious and resource intensive. Currently, the diagnosis of OSA starts at the family doctor, who, after looking for cues of OSA, sends the patients to a sleep unit for a polysomnography test, which involves the recording of several variables overnight, as well as the posterior analysis of the results. In Spain, for instance, waiting lists for this test are longer than a year. This implies a strong need for alternative diagnosis and screening methods. With regard to the great improvement of life quality of these patients when they are properly diagnosed and treated, the scientific community should look for a solution to improve on the diagnosis of OSA. Throughout this Thesis, we aim to help the clinicians on the screening of the most severe cases in order to prioritize those patients and reorganize the waiting lists. This way, the most severe OSA patients could benefit from a swift diagnosis and treatment. Since both OSA and speech are related to the functioning of the upper airway, it has been expected and shown that there are traits in the speech that relate to the OSA disease. Previous biomedical research has shown the existence of morphological patterns related to OSA that have direct influence on speech. Moreover, characteristic traits have been found in the speech of OSA patients. In this thesis, we deepen the understanding of the relations between speech and OSA, taking into account previous works, which have shown that there are differences in resonance, articulation and phonation. Our experiments are conditioned on the available data. We work with continuous speech as well as with sustained vowels. We realize screening to detect those patients with severe OSA condition, i.e., discriminate between the groups healthy and severe OSA. On the other hand, we analyze the full spectrum, stratifying the population as a function of the severity of their condition, on data from a real-practice scenario recorded at a sleep unit. In each stratum, we analyze the relations of speech and clinical variables. We advance in this research line and study not only the speech, but also some clinical variables related to OSA and speech to get a deeper understanding of their relationship. We add textdependent information to the statistical analysis; we select discriminative speech features to do screening; we analyze clinical variables and speech from a real clinical practice scenario. Using an existing database with the speech samples from 80 subjects, split into healthy and severe OSA groups with balanced physical properties (age, weight, body-mass index), we applied, for the first time in apnea detection, models that make use of text-dependent information, namely hidden Markov models, which take into account the order in which the phonetic units are pronounced. We employed two different model architectures, one on the whole-sentence level and the other one on the level of phonemes. We achieved improvements in the classification rate with respect to the text-independent baseline system. With a different perspective on the same data, instead of only considering the spectral envelope, we consider voice features of different nature that are expected to contain information on the speaker’s OSA condition. The set of features included differences of formant frequencies, phonetic and prosodic properties, and a nasality measure. From the total number of 16 features, we select the most discriminative ones and construct combined discriminators, the best of which made use of 8 features. Our speech-based model performs better than a baseline model based on age and body-mass index, which is the screening method commonly used by clinicians. Finally, a new, bigger database has become available, with two important properties: (i) it covers the whole range from non-apneic subjects over mild OSA cases to severe OSA cases, and (ii) was recorded in real practice from patients suspected to suffer from OSA at a sleep unit. The former property allows us to determine correlations of the apnea-hypopnea index, i.e., the severity of the OSA condition, with other clinical variables (weight, height, cervical perimeter and age) and with voice features (namely the first three formants and their associated bandwidths). The latter property brings us very close to the real-practice scenario, but makes the classification problem more difficult because most subjects without OSA have some other conditions whose symptoms brought them to the sleep unit in the first place. We determine the frequencies and bandwidths of the sustained-vowel formant resonances and investigate correlations with clinical variables and OSA, as well as differences between the groups non-OSA, mild OSA, and severe OSA. Contrary to the expected, in this real-practice scenario we find only poor correlations between formant frequencies and bandwidths and the severity of OSA. In conclusion, we show that the OSA detection can be improved by means of text-dependent information (hidden Markov models) and selected voice features, improving the classification rate in the controlled scenario. However, things become more complex in the real-practice scenario of a sleep unit, where OSA has to be discriminated from other diseases. We show that accepted conjectures from other authors (lower and wider formant resonances) are not confirmed. The problem of robust OSA detection is not yet solved for the real-practice scenario, but this Thesis sheds light on the interdependences of OSA, speech and other clinical variables and will help guiding the future research on the connection between speech and OSA.