Tesis Doctorales UPM: Consulta online

Autor: GÓMEZ GARCÍA, Jorge Andrés

Título: Contributions to the design of automatic voice quality analysis systems using speech technologies

Fecha: 2018

Materia: Sin materia definida

Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

Departamento: SEÑALES, SISTEMAS Y RADIOCOMUNICACIONES

Acceso electrónico: http://oa.upm.es/49565/

Director/a(s):

Director/a: GODINO LLORENTE, Juan Ignacio

Resumen: La producción del habla es un proceso complejo que busca producir señales audibles que son empleadas, generalmente, con fines comunicativos. No solo el habla contiene un mensaje codificado, sino que también entrega información acerca del sexo, la edad, la condición y aspectos que describen al hablante. Debido a esto, existe un gran interés en diseñar sistemas que extraigan esta información no lingüística con fines de análisis automático. Una aplicación interesante está en el diseño de sistemas automáticos que caracterizan la presencia y gravedad de desordenes de voz. Lo cual tiene aplicaciones como herramientas complementarias objetivas en entornos clínicos. No obstante, el diseño de sistemas automáticos plantea varios problemas que incluyen la variabilidad intrínseca del habla, la presencia simultánea de múltiples fenómenos de patología vocal, información extralingüística espuria o la dependencia en evaluaciones perceptuales altamente subjetivas. Con estos antecedentes, esta tesis evalúa la influencia de la información extralingüística, diferentes tipos de tareas de producción de habla, diversas máquinas de decisión y características, en el diseño de sistemas automáticos de análisis de calidad vocal, cuyo objetivo es generalizar decisiones acerca de la presencia y severidad de patologías presentes en la voz y/o el habla. Una nueva metodología ha sido propuesta para emular las capacidades perceptuales de un evaluador humano, la cual está basada en algoritmos de selección de características, clasificación ordinal y regresión gaussiana. El regresor se usa para convertir la escala de percepción discreta en una continua, más acorde con la naturaleza de las evaluaciones. Además, la robustez de los sistemas es evaluada en configuraciones de bases de datos cruzadas. Los resultados indican que el sexo del hablante juega un papel importante en los sistemas automáticos de análisis de calidad de voz y que el diseño basado en sistemas jerárquicos debe ser considerado. También se ha encontrado que el conjunto más consistente de características en tareas de detección y evaluación de patologías son dos medidas de perturbación y un descriptor basado en la dispersión de las representaciones de espectros de modulación: glottal-to-noise excitation ratio, cepstral harmonics-to-noise ratio y rate of points above linear average. El mejor detector automático entrenado con la base de datos de Saarbrücken logra un AUC de 0.88 cuando la información provista por las diferentes tareas de voz se fusiona mediante regresión logística. En escenarios de bases de datos cruzadas, el AUC varía entre 0.75 y 0.94, lo que demuestra la solidez del sistema. Este valor constituye una de las mejores eficiencias reportadas usando esta partición. El mejor sistema de evaluación incurre en errores que difieren, en promedio, en media unidad con respecto a la etiqueta real en configuraciones de bases de datos cruzadas, usando G y B. Su capacidad de generalizar resultados ha sido validada por un experto. El error del sistema evaluado clínicamente es de 0.3 unidades para G. ----------ABSTRACT---------- The production of speech relies in a complex process to generate audible outputs for, most typically, communication purposes. Not only speech contains a message encoded in the form of language, but also delivers information about sex, age, condition, and diverse aspects describing the speaker itself. Due to this fact, there exists a great interest in designing systems that extract this non-linguistic information for automatic analysis purposes. One interesting application -on which this thesis is centred- is in the design of automatic systems capable of characterising the presence and severity of voice disorders. This has potential applications as objective supplementary tools in clinical settings. Notwithstanding, the design of automatic systems poses several problems that include the intrinsic variability of speech, the simultaneous presence of multiple phenomena characterising vocal pathology, the existence of spurious extralinguistic information, or the reliance on perceptual assessments which are highly subjective. With these antecedents in mind, this thesis evaluates the influence of extralinguistic information, differing types of speech tasks, diverse decision machines and characteristics, in the design of automatic voice quality analysis systems whose objective is to generalise decisions about the presence and severity of pathologies present in voices and/or speech. A novel methodology based on feature ranking algorithms, ordinal classification and Gaussian regression is also proposed to emulate the perceptual capabilities of a human evaluator. The regressor is used to convert the discrete perceptual scale to a continuum, more in accordance to the nature of the evaluations. Moreover, the robustness of the proposed systems is evaluated in several cross-database experiments. Results indicate that the sex of the speaker plays an important role in automatic voice quality analysis systems and that hierarchical designs should be considered. It has also been found that the most consistent set of features for both pathology detection and assessment tasks, are two perturbation measures and a descriptor of the dispersion in modulation spectra representations: glottal-to-noise excitation ratio, cepstral harmonics-to-noise ratio and rate of points above linear average. The best automatic detector trained with the Saarbrücken voice disorders database achieves an AUC of 0.88 when the information provided by the different speech tasks is fused via logistic regression. In several cross-database scenarios, AUC varies between 0.75 to 0.94, thus demonstrating the robustness of the system. These are some of the best efficiencies reported in literature using this database. The best assessment system incurs in errors that differ on average half an unit from the actual label, when G and B are considered in cross-database settings. Moreover, the system has been assessed clinically by an expert who certified its validity. Results for the system clinically evaluated are of about 0.3 units for the G trait.