Tesis Doctorales UPM: Consulta online

Autor: ARRONTE ALVAREZ, Aitor

Título: Deep Learning Methods for Motivic Pattern Extraction and Classification

Fecha: 2021

Materia: Sin materia definida

Escuela: E.T.S.I. Y SISTEMAS DE TELECOMUNICACIÓN

Departamento: MATEMATICA APLICADA A LAS TECNOLOGIAS DE LA INFORMACION Y LAS COMUNICACIONES

Acceso electrónico: http://oa.upm.es/66848/

Director/a(s):

Director/a: GÓMEZ MARTÍN, Francisco

Resumen: The study of motivic patterns has played an important role in the understanding of various natural, cognitive, social, and cultural phenomena in the sciences and humanities. Minimally identifiable patterns carry information that is robust to change, and therefore resilient to long evolutionary processes. These patterns provide meaningful and sufficient information on the processes and structures that integrate them, and therefore are of great importance in the study of socio-cognitive processes such as the oral transmission and diffusion of world music, the identification of singing styles, or the classification of dialects based on their intonation content. In this thesis we investigate what part motivic patterns play in the identification of orally transmitted vocal music using Deep Learning (DL) methods, and extend our findings to Automatic Speech Recognition, more concretely to the automatic identification of Arabic dialects. The main goal of this work is to holistically understand the properties of small motivic structures in the acoustic domain. In order to accomplish this goal DL is utilized as the main computational approach to learn acoustic embeddings of musical and speech motivic patterns. DL algorithms map low-level features into higher-order ones through learning representations that require large quantities of data. In this thesis it is shown how the learning of minimally sufficient patterns can act as an implicit optimizer of DL architectures, that can be utilized in many acoustic processing tasks and scenarios. Learning quality representations of acoustic signals highly depends on data augmentation techniques that extend the sample space through a series of transformations and deformations to the signal. In this work, and as a result of the approach taken, it is shown how learning to segment the audio signal by motivic patterns achieves better results than data augmentation, and therefore can replace it. The method presented segments the audio signal and increases the sample space without the need of transforming the signal by discarding information that is less relevant to the task. This result is of particular interest in low-resource contexts, where DL methods have found applicability problems. ----------RESUMEN---------- El estudio de patrones motívicos ha jugado un papel importante en la comprensión de varios fenómenos naturales, cognitivos, sociales y culturales en las ciencias y las humanidades. Los patrones mínimamente identificables portan información que es resistente al cambio y, por lo tanto, resistente a largos procesos evolutivos. Estos patrones brindan información rica y suficiente sobre los procesos y estructuras que los integran, y por lo tanto son de gran importancia en el estudio de procesos socio-cognitivos como la transmisión y difusión oral de músicas del mundo, la identificación de estilos de canto, o la clasificación de dialectos basados en la entonación. En esta tesis investigamos qué papel juegan los patrones motívicos en la identificación de la música vocal transmitida oralmente utilizando métodos de aprendizaje profundo (DL), y ampliamos nuestros hallazgos al reconocimiento automático del habla, más concretamente a la identificación automática de dialectos árabes. El objetivo principal de este trabajo es comprender de manera integral las propiedades de las estructuras motívicas en el dominio acústico. Con el fin de lograr este objetivo, los métodos de DL se utilizan como el principal enfoque computacional para aprender embebidos acústicos de patrones motívicos musicales y del habla. Los algoritmos de DL mapean características de bajo nivel en otras de orden superior a través de representaciones de aprendizaje que requieren grandes cantidades de datos. En esta tesis se muestra cómo el aprendizaje de patrones mínimamente suficientes puede actuar como un optimizador implícito de arquitecturas de DL, que pueden ser utilizadas en diversas tareas y escenarios dentro del procesamiento acústico. El aprendizaje de señales acústicas de calidad depende en gran medida de las técnicas de aumento de datos que extienden el espacio muestral a través de una serie de transformaciones y deformaciones de la señal. En este trabajo, y como resultado del enfoque adoptado, se muestra cómo la segmentación de la señal de audio por medio de patrones motívicos consigue mejores resultados que el aumento de datos y, por tanto, puede reemplazarlo. El método presentado segmenta la señal de audio y aumenta el espacio muestral sin necesidad de transformar la señal, descartando información menos relevante para la tarea. Este resultado es de particular interés en contextos de bajos recursos, donde los métodos de DL han encontrado problemas de aplicabilidad.