Tesis:
Estrategias de incorporación de conocimiento sintáctico y semántico en sistemas de comprensión de habla continua en castellano
- Autor: COLAS PASAMONTES, José
- Título: Estrategias de incorporación de conocimiento sintáctico y semántico en sistemas de comprensión de habla continua en castellano
- Fecha: 1999
- Materia: Sin materia definida
- Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION
- Departamentos: INGENIERIA ELECTRONICA
- Acceso electrónico:
- Director/a 1º: PARDO MUÑOZ, José Manuel
- Resumen: Este trabajo de tesis doctoral se ha planteado analizar la problemática del proceso de comprensión de habla, no sólo desde un punto de vista científico sino también técnico. concluyendo con el diseño, implementación y evaluación de un Sistema de Comprensión de Habla en castellano. En el marco de esta tesis se ha realizado una revisión de distintas soluciones que han sido propuestas por diversos grupos de investigación internacionales para resolver el problema de la comprensión de habla. Se ha definido una arquitectura no integrada novedosa para la comprensión del habla en castellano, es decir, teniendo en cuenta características del castellano como lengua natural que no aparecen o aparecen menos acentuadas en otras lenguas. Esta arquitectura pretende ser la base de futuros trabajos en esta línea en el Grupo de Tecnología del Habla, de la Universidad Politécnica de Madrid. Con el objetivo de comprender habla perteneciente a un dominio semántica restringido (limitado por los conceptos que existen en el dominio de una aplicación concreta), esta arquitectura tiene como características principales. La robustez, es decir, la posibilidad de procesar frases que contienen errores (inserciones, borrados o sustituciones de palabras) producidos por el módulo de decodificación acústica (sistema de reconocimiento de habla continua). o que tienen rasgos de agramaticalidad producidos por la propia naturaleza del lenguaje hablado, o con problemas de cobertura a nivel léxico, sintáctico o semántico. La modularidad, que permite seguir mejorando sin necesidad de rediseñar e implementar el sistema completo. La flexibilidad, con el fin de independizar la arquitectura de una aplicación concreta dentro, lógicamente, de ciertas restricciones, impuestas por la naturaleza de los sistemas de información o sistemas de control automáticos. La potencia, definida como la posibilidad de procesar frases de un cierto nivel de complejidad lingüística. Los diferentes módulos incorporan conocimiento lingüístico de distinta naturaleza. lo que ha permitido estudiar la interacción de distintas fuentes de conocimiento lingüístico y un modo eficaz de integrarlas, en el proceso de comprensión. Se ha utilizado información semántica en forma de rasgos, que completan la ya modelada por las categorías semánticas del diccionario, a gramáticas contextuales simplificadas (definiendo lenguajes específicos de reglas y algoritmos de análisis o ejecución de estas reglas), que en forma de reglas solucionan principalmente problemas de ambigüedad semántica y elipsis, y una gramática semántica de contexto libre (utilizando el algoritmo de Earley con capacidad para procesar frases con ambigüedad) que pretende, basándose en una clasificación o taxonomía de los conceptos del dominio que reduce en gran medida las reglas necesarias, obtener la información estructural de las mismas que ayuda al procesamiento de frases de una cierta complejidad manteniendo el proceso de traducción a SQL, necesario en sistemas de información con acceso a bases de datos, dentro de unos límites de sencillez sorprendentes, mediante el uso de plantillas semánticas. Con el fin de evaluar el comportamiento del módulo de decodificación acústica se ha implementado un sistema de reconocimiento de habla continua modular, con capacidad para integrar conocimiento gramatical en base a cualquier gramática probabilística de tipo N-gram, de naturaleza morfo-sintáctica o semántica. Se han evaluado distintas gramáticas guiando el proceso de decodificación acústica. Con el fin de mantener la eficacia del este módulo a pesar de la incorporación de gramática en el proceso, se ha estudiado con profundidad un mecanismo de reducción del espacio de búsqueda ampliamente utilizado conocido como "recorte de caminos" o "recorte del haz" (beam-search), presentando un método que se ha desarrollado en esta tesis que permite la determinación del umbral de recorte basado en la probabilidad (o distancia) del mejor estado del espacio de búsqueda en cada trama (estadístico) de antemano, utilizando los datos de entrenamiento y conociendo la influencia que tendrá dicho umbral en el proceso de reconocimiento. Además, se han evaluado dos variantes ya conocidas: el uso de uno o dos umbrales de recorte, uno basado en la probabilidad (o distancia) del mejor de los últimos estados de cada modelo en cada trama (estadístico del último estado) y otro en la probabilidad (o distancia) del mejor del resto de los estados distintos del último en cada trama (estadístico del resto de los estados), y se han aportado nuevas conclusiones al respecto. Todo ello ha permitido profundizar en el funcionamiento de esta técnica ya conocida pero no tan estudiada. Además, el decodificador acústico ha sido modificado para permitir la generación de varias hipótesis (frases) de salida (las N mejores), y se ha estudiado la relación entre el valor de N (número de caminos o hipótesis) y la calidad del sistema de reconocimiento (mejora de la tasa de acierto de palabras o reducción del error del sistema), para aplicaciones como la que ha sido objeto en esta tesis. Se ha comprobado que con un número de hipótesis reducido (N muy pequeño) se consigue que el módulo acústico se recupere de muchos errores que afectarían al proceso de comprensión de la frase hablada reconocida