Tesis Doctorales UPM: Consulta online

Autor: ANDRADE MIRANDA, Gustavo Xavier

Título: Analyzing of the vocal fold dynamics using laryngeal videos

Fecha: 2017

Materia: Sin materia definida

Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

Departamento: TEORIA DE LA SEÑAL Y COMUNICACIONES (PROVISIONAL)

Acceso electrónico: http://oa.upm.es/47122/

Director/a(s):

Director/a: GODINO LLORENTE, Juan Ignacio
Director/a: HENRICH BERNARDONI, Nathalie

Resumen: La voz es una herramienta esencial en la que se fundamenta la comunicación de los seres humanos por este motivo tener una voz saludable es importante para el diario vivir de las personas, y más aún si esta es utilizada como una herramienta profesional de trabajo. Por tal motivo, es imperioso encontrar nuevas y mejores técnicas para comprender los mecanismos usados para la producción de la voz y sobre todo para entender el comportamiento vibratorio de los pliegues vocales utilizando Videos Laríngeos de Alta Velocidad (Laryngeal High-Speed Videoendoscopy (LHSV)). A partir de los antecedentes anteriormente mencionados, el presente trabajo tiene como objetivo contribuir al análisis de la función vibratoria de los pliegues vocales mediante la implementación de nuevas y más robustas herramientas basadas en el uso de técnicas de procesado de imágenes. Debido a la gran cantidad de información que debe ser evaluada tanto cualitativa como cuantitativamente es necesario sintetizar esta información espaciotemporal en pocas representaciones estáticas que reflejen inequívocamente el movimiento de los pliegues vocales. Hasta el momento la mayoría de los hitos han sido alcanzados gracias al uso de la segmentación y del seguimiento de la abertura glotal. Dichas tareas no son fáciles debido a factores como ruido en las imágenes, variación en la iluminación, diferentes niveles de grises presentes en la abertura glotal, borrosidad de las imágenes, borrosidad de los contornos de la abertura glotal, movimiento de la cámara y/o de los pacientes. Con la finalidad de solucionar los problemas citados anteriormente se presentan dos algoritmos para segmentar la abertura glotal. El primero, recibe el nombre de Segmentación Glotal Basada en Transformación Divisoria y Contornos Activos (Glottal Segmentation Based on Watershed Transform and Active Contours (SnW)), la cual identifica una Región de Interés (Region of Interest (ROI)) que se actualiza automáticamente. Este método combina el uso de Modelos Deformables (Deformable Models) y la Transformación Divisoria (Watershed Transform) para realizar la delimitación final de la abertura glotal. Gracias a la implementación del ROI, SnW es robusto a los movimientos de la cámara. El segundo método recibe el nombre de Segmentación Glotal Basada en Sustracción de Fondo e Restauración de Imagen (Glottal Segmentation Based on Background Subtraction and Inpainting (InP)), en el que se presenta un algoritmo cuasi-automático para segmentar con precisión la abertura glotal mediante la introducción de técnicas que no habían sido exploradas antes en la literatura. La metodología propuesta en InP permite que el usuario realice una intervención mínima en los casos donde la segmentación automática falla. Adicionalmente se propone el uso de un conjunto de directrices para poder evaluar la precisión y eficiencia de las segmentaciones glotales. Estas directrices se dividen en tres grupos: analíticas, subjetivas y objetivas. Los resultados obtenidos a partir de estas directrices sugieren que el método más confiable para la segmentación de la abertura glotal es InP, logrando una mejora de un 13% con respecto a otras técnicas en la cuestión del arte y 18% con respecto a SnW. También quedo demostrado que el conjunto de directrices pueden ser usadas para estandarizar los criterios de precisión y eficiencia en la evaluación de los algoritmos de segmentación glotal. Por último, se investigó el uso del Flujo Óptico (Optical Flow (OF)) para resolver los problemas relacionados con la segmentación glotal. A partir del OF tres nuevas representaciones son presentadas para comprender la dinámica de los pliegues vocales. Dos de ellas analizan la dinámica global, Flujo Óptico del Glotovibrograma (Optical Flow Glottovibrogram (OFGVG)) y el Flujo Óptico de la Forma de Onda Glotal (Glottal Optical Flow Waveform (GOFW)); el restante recibe el nombre de Flujo Óptico del Quimograma (Optical Flow Kymogram (OFKG)) y analiza las dinámicas locales de los pliegues vocales. Las ventajas, inconvenientes y como complementan a los métodos ya existentes son discutidos. Las nuevas representaciones fueron evaluadas utilizando una base de datos compuesta por 60 LHSV, la misma que incluye diferentes calidades de voz tanto en voz hablada como en voz cantada. La nuevas representaciones basadas en OF fueron comparadas con las obtenidas mediante segmentación, mostrando que proporcionan información adicional sobre la dinámica temporal de los movimientos vibratorios glotales durante las fases de cierre y apertura glotal. ABSTRACT The voice is the most crucial tool allowing communication between human beings, therefore a healthy voice is important to people’s daily life, especially for the professional voice users. It is imperative to find techniques to provide comprehensive information about the voice production mechanism and, more specifically, to examine the vocal folds vibratory behavior by Laryngeal High-Speed Videoendoscopy (LHSV). Thus, the present work aims to contribute to the analysis of the vocal folds vibratory function by proposing new and more robust tools based on image processing techniques. Due to the vast amount of data that has to be evaluated both quantitatively and qualitatively, a dimensionality reduction of the spatial-temporal data is necessary by condensing the information into a few static representations that synthesize the vocal folds motion. Most of the milestones achieved until now are thanks to the segmentation and tracking of the glottal gap which is not a trivial task due to factors as noise in the image, variability in illumination, variability of the gray levels presented in the glottal gap, fuzziness, blurring edges, movements of the camera and/or patient. In that respect, two algorithms to tackle the problem of the glottal gap segmentation are proposed. The first one, named Glottal Segmentation Based on Watershed Transform and Active Contours (SnW), identifies a Region of Interest (ROI) that is automatically updated, and combines Deformable Models and Watershed Transform for the final delineation of the glottal gap. Thanks to the ROI implementation, the proposal resists to the camera shiftings. The second one, called Glottal Segmentation Based on Background Subtraction and Inpainting (InP), presents a quasi-automatic framework to segment accurately the glottal gap introducing several techniques not explored before in the state of the art. The method takes advantage of the possibility of a minimal user intervention in cases where the automatic computation fails. In addition, a set of guidelines to measure the accuracy and efficiency of the segmentation algorithms are proposed. These guidelines are divided into three groups according to their nature: analytical, subjective, and objective. The results obtained suggest that a more reliable delimitation of the glottal gap is obtained with InP, achieving an average improvement of 13% with respect to others techniques in the state of the art, and 18% with respect to SnW. Additionally, the results show that the set of validation guidelines proposed can be used to standardize the criteria of accuracy and efficiency of the segmentation algorithms. Lastly, the application of Optical Flow (OF) is investigated in order to solve the problems related to segmentation. Three new playbacks are proposed to understand the dynamical information of the vocal folds. Two of them, called Optical Flow Glottovibrogram (OFGVG) and Glottal Optical Flow Waveform (GOFW), analyze the global dynamics; and the remaining one, called Optical Flow Kymogram (OFKG), analyzes the local dynamics. The advantages, drawbacks and the complementarity to existing methods are discussed. The new playbacks are tested on a database of 60 LHSV sequences which covers different voice qualities for spoken and sung vowels. The new data representations have been compared with commonly used facilitative playbacks. Results show that they provide additional information on the temporal dynamics of glottal vibratory movements during glottal closing and opening phases. RÉSUMÉ La voix est l’outil essentiel de la communication entre les êtres humains. C’est ainsi qu’avoir une voix en bonne santé est important dans la vie de tous les jours et plus encore si on l’utilise comme outil de travail. Par conséquent, il est impératif de trouver de nouvelles techniques plus performantes pour comprendre les mécanismes impliqués dans la production de la voix et surtout pour saisir le comportement vibratoire des plis vocaux grâce aux Vidéos Haute Vitesse du Larynx (Laryngeal High-Speed Videoendoscopy (LHSV)). Les études décrites ci-après ont pour objectif de contribuer à l’analyse de la fonction vibratoire des plis vocaux grâce à l’implémentation d’outils plus fiables utilisant des techniques de traitement des images. La masse des informations à traiter tant sur le plan qualitatif que quantitatif est telle qu’il est nécessaire de synthétiser ces informations spatio-temporelles en quelques représentations statiques reflétant avec précision le mouvement des plis vocaux. Jusqu’à présent, la majorité des avancées dans ce domaine ont été réalisées grâce à la segmentation et au suivi de l’ouverture glottale. Ce type de travail n’est pas aisé notamment à cause de facteurs tels que le bruit sur les images, la variation lumineuse, les différents niveaux de gris représentant l’ouverture glottale, le flou des images, le flou des contours de l’ouverture glottale, le mouvement de la caméra vidéo et/ou des patients. Afin de résoudre les problèmes précédemment cités, on a utilisé deux algorithmes pour segmenter l’ouverture glottale. Le premier algorithme, appelé segmentation glottale basée sur la technique de ligne de partage des eaux et contours actifs (Glottal Segmentation Based on Watershed Transform and Active Contours (SnW)) identifie une région d’intérêt (Region of Interest (ROI)) qui s’actualise automatiquement. Cette méthode combine l’utilisation de modèles déformables (Deformable Models) et de segmentation par ligne de partage des eaux (Watershed Transform) pour délimiter l’ouverture glottale. Grâce à l’implémentation d’une ROI, cette méthode n’est pas sensibles aux mouvements de la caméra vidéo. Le deuxième algorithme, appelé segmentation glottale basée sur la soustraction des bruits et la reconstruction d’images (Glottal Segmentation Based on Background Subtraction and Inpainting (InP)), s’effectue semi-automatiquement pour segmenter avec précision l’ouverture glottale en utilisant différentes techniques encore jamais utilisées. La méthodologie proposée avec l’InP permet à l’utilisateur de réaliser des interventions minimes dans les cas où la segmentation automatique aurait échoué. De plus, il sera exposé un ensemble de directives pour mesurer la précision et l’efficacité des algorithmes. Ces directives se divisent en trois groupes : analytiques, subjectives et objectives. Les résultats obtenus à partir de ces directives suggèrent que l’algorithme le plus fiable pour la segmentation de l’ouverture glottale est l’InP étant plus précis de 13% par rapport à autres et de 18% par rapport à SnW. Il est également démontré que ces directives peuvent être utilisées pour standardiser les critères de précision et d’efficacité pour l’évaluation des algorithmes de segmentation glottale. Enfin, dans cette étude, sont présentées les recherches concernant l’usage du flux optique (Optical Flow (OF)) pour résoudre les questions liées à la segmentation glottale. L’OF permet trois nouvelles représentations pour comprendre la dynamique des plis vocaux. Deux d’entre elles analysent la dynamique glottale: le flux optique vibrogramme (Optical Flow Glottovibrogram (OFGVG)) et le flux optique en onde (Glottal Optical Flow Waveform (GOFW)). Le troisième, appelé flux optique Quimogramme (Optical Flow Kymogram (OFKG)) analyse les dynamiques locales des plis vocaux. On présentera les avantages et inconvénients ainsi que la contribution de ces représentations aux méthodes existantes. Ces nouvelles représentations ont été évaluées à l’aide d’une base de données de 60 LHSV qui inclue différentes qualités de voix parlées et chantées. Les représentations basées sur l’OF ont été comparées avec les représentations obtenues grâce aux méthodes de segmentation, démontrant qu’elles apportent des informations supplémentaires sur la dynamique temporelle des mouvements vibratoires de la glotte pendant les phases de fermeture ou d’ouverture glottales.