Tesis:
Diseño y Evaluación de Técnicas de Reconocimiento de Idioma mediante la Fusión de Información Fonotáctica y Acústica
- Autor: SALAMEA PALACIOS, Christian Raúl
- Título: Diseño y Evaluación de Técnicas de Reconocimiento de Idioma mediante la Fusión de Información Fonotáctica y Acústica
- Fecha: 2018
- Materia: Sin materia definida
- Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION
- Departamentos: AEROTECNIA
- Acceso electrónico: http://oa.upm.es/52506/
- Director/a 1º: CÓRDOBA HERRALDE, Ricardo de
- Director/a 2º: HARO ENRIQUEZ, Luis Fernando d’
- Resumen: La aplicación de técnicas fonotácticas en los sistemas de reconocimiento de idioma ha venido siendo un ámbito de continuo estudio ya que su correcta utilización deriva en importantes mejoras en el rendimiento de dichos sistemas. La forma en la que se desarrolla un idioma así como el conjunto de características fonéticas que se generan con el habla son elementos claves en las tareas de identificación de idioma (LID). La eficiencia con la que se logran capturar dichas características fonéticas es un factor determinante para la obtención de un reconocedor de calidad. Aunque los sistemas actuales han alcanzado una tasa de acierto muy razonable, continúan teniendo problemas, como por ejemplo la cantidad de recursos informáticos requeridos para el procesamiento de la información y por otro lado la cantidad de información de entrenamiento necesaria para que los sistemas automáticos puedan incorporar adecuadamente información característica de los idiomas a reconocer. Las redes neuronales profundas y particularmente las recurrentes, han resultado eficientes para modelar las características fonéticas de los idiomas y por tanto, se están utilizando con este fin para varios tipos de tareas en el reconocimiento de habla y en tareas de LID. Los modelos de lenguaje se generan a dos niveles, uno a nivel léxico y otro a nivel fonético. En esta tesis se ha decidido utilizar un sistema fonotáctico que es capaz de aprovechar una mayor información de contexto y para ello, se han utilizado unidades fonéticas que buscan incorporar las características fonotácticas de idioma, además de incorporar más información de contexto de la que ofrece un fonema. En esta tesis se explora el uso de estas unidades fonéticas ngramas-fonéticos en tareas LID, identificando valores óptimos de configuración y respuestas mediante las diferentes técnicas propuestas, todo ello en el contexto de la creación de modelos de lenguaje basados en redes neuronales recurrentes. Por otra parte, en el mismo ámbito fonotáctico, se introduce la idea de utilizar la representación vectorial de ngramas-fonéticos en tareas LID, dejando de lado el concepto de modelo de lenguaje que se basa en información del pasado para predecir nueva información y dando paso a la generación de modelos basados en el contexto y en los ngrama-fonéticos objetivo. También se han estudiado en esta tesis los sistemas fonotácticos para tareas LID basados en estructuras de i-Vectores. El uso de información discriminativa y de coeficientes PLLR han permitido explorar nuevas alternativas en la tarea LID. En base a ello, se han estudiado alternativas para ampliar el contexto que tienen en cuenta dichos coeficientes para mejorar su rendimiento. Todos los estudios propuestos han sido realizados sobre la base de datos KALAKA-3 utilizada en la evaluación ALBAYZIN-LRE2012 en razón del equilibrio encontrado entre su tamaño y la dificultad de la tarea definida en cuanto a su tiempo de ejecución. ----------ABSTRACT---------- The application of phonotactic techniques in language recognition systems has always been an area of special interest since, if correctly used, it leads to significant improvements in the performance of recognition systems. The acoustic realization of the language and its phonetic characteristics are the key elements for the language recognition task (LID). The efficiency obtained with these phonetic characteristics determines the quality of the recognizer. Although nowadays the efficiency of the recognizers is very high, there are still several problems remaining, e.g., they use high computational resources to process the information and, also, the training data is always not enough to incorporate all the characteristics specific of a language. Deep Neural Networks and especially the recurrent ones, have proved to be efficient to model the phonetic characteristics of the languages and, so, they are being used for several tasks in speech recognition and speaker/language identification. Language models are generated in two levels, either a lexical level or a phonetic level. In this thesis, we have decided to use a phonotactic system that is able to manage a larger context information and, to that end, we propose the use of the phonetic ngram, that tries to incorporate the phonotactic characteristics of the languages, together with the context information that phonemes alone do not provide. In this thesis, we explore the use of these phonetic features in LID tasks, finding optimum values for the configuration parameters and presenting different techniques, all of them related in the creation of language models based on recurrent neural networks. On the other hand, using also a phonotactic approach, we introduce the idea of using the vector representation of phonetic ngrams for LID tasks, as an alternative to the language model based on RNN, to create models based in the context and the objective phonetic ngrams. We have also studied in this thesis the phonotactic systems based on i-Vectors for LID tasks. The use of discriminative information and the PLLR coefficients have offered us new alternatives in the LID task. We have proposed alternatives to increase the context considered in these parameters to improve its performance. All of these studies have been applied to the KALAKA-3 database used in the ALBAYZINLRE2012 evaluation, because of the good compromise between the size of the database and the task difficulty in relation with its execution time.