Tesis:

SPEED UP STRATEGIES FOR THE CREATION OF MULTIMODAL AND MULTILINGUAL DIALOGUE APPLICATIONS.


  • Autor: D'HARO ENRIQUEZ, Luís Fernando

  • Título: SPEED UP STRATEGIES FOR THE CREATION OF MULTIMODAL AND MULTILINGUAL DIALOGUE APPLICATIONS.

  • Fecha: 2009

  • Materia: Sin materia definida

  • Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION

  • Departamentos: INGENIERIA ELECTRONICA

  • Acceso electrónico:

  • Director/a 1º: CORDOBA HERRALDE, Ricardo

  • Resumen: Hoy por hoy, la mayoría de los sistemas comerciales y de investigación de atención telefónica se realizan mediante el uso de sofisticadas y completas plataformas que permiten especificar todos los detalles relacionados con el diseño, ejecución, y depuración de tales servicios. Pese a todas las funcionalidades y utilidades incluidas para acelerar el diseño y permitir servicios avanzados a los usuarios, la mayoría de ellas proponen el mismo tipo de aceleraciones y presentan limitaciones al desarrollo simultáneo del servicio para múltiples modalidades y perfiles de usuario. En esta tesis se proponen diferentes estrategias de aceleración innovadoras, dinámicas e inteligentes que permiten predecir la información necesaria requerida para completar los diferentes aspectos del diseño, usando para ello información de la estructura del modelo de datos y del contenido de la base de datos del servicio, así como de la información acumulada a lo largo de todos los pasos ya realizados durante el diseño. Gracias a estas aceleraciones, la mayor parte del diseño del diálogo se reduce a confirmaciones por parte del diseñador de las ofertas que le hace la plataforma. En concreto, se propone la generación semi-automática de diversos tipos de propuestas que pueden ser utilizadas para completar el flujo de la aplicación, las acciones que componen cada diálogo, o para solucionar problemas específicos de cada modalidad tales como la confirmación de datos al usuario y la presentación de las listas de resultados devueltos después de hacer una consulta a la base de datos del servicio. Así mismo, se propone la creación de diferentes asistentes que permiten acelerar la creación de las gramáticas usadas por el sistema de reconocimiento y la definición de las funciones de acceso a la base de datos. Los resultados obtenidos en sendas evaluaciones objetiva y subjetiva han permitido demostrar la viabilidad, relevancia y funcionalidad de estas aceleraciones y de la plataforma presentada. Por otro parte, la amplia variedad de usuarios finales del servicio plantea diversos retos tales como la capacidad de identificar adecuadamente el idioma con el cual dirigirse a los usuarios, así como la posibilidad de proporcionar el servicio utilizando una u otra modalidad según las preferencias/necesidades de los usuarios o las condiciones actuales del diálogo. En relación con las mejoras aplicadas al módulo de reconocimiento de idioma se ha implementado una nueva técnica para la incorporación de información contextual de más largo alcance en los modelos de lenguaje utilizados por el sistema basada en un ranking de ngramas discriminativos. La técnica propuesta ha sido evaluada en la identificación de frases habladas en inglés y castellano obteniendo mejores tasas de reconocimiento que un sistema basado en PPRLM que usa modelos de lenguaje tradicionales gracias a la reducción del problema de falta de datos para el entrenamiento de los modelos de lenguaje de orden elevado lo que permite la utilización de modelos de mayor orden. Finalmente, se han incorporado diversas mejoras a un módulo de traducción automática de voz a lengua de signos que permite ampliar las capacidades multimodales de la plataforma al permitir la prestación del mismo servicio, desarrollado con la plataforma de diálogo, a personas con discapacidad auditiva, permitiendo la traducción de los prompts del sistema en una secuencia animada reproducida por un avatar. En esta tesis se propone una técnica de adaptación innovadora que permite mejorar la calidad de las frases traducidas en situaciones en las que no hay suficientes datos para entrenar adecuadamente el modelo de lenguaje usado por el sistema de traducción. La adaptación se realiza a nivel de cuentas, mediante la técnica de Maximum-A-Posteriori (MAP), usando las cuentas de los n-gramas originales en el idioma destino y las cuentas de ocurrencia de los n-gramas equivalentes en el idioma origen consultadas en la Web previamente y traducidas posteriormente a cuentas en el idioma destino usando un modelo de traducción basado en frases.