Tesis:
Análisis, diseño y aplicación de modelos de diálogo flexibles,
contextuales y dinámicos basados en redes bayesianas
- Autor: FERNANDEZ MARTINEZ, Fernando
- Título: Análisis, diseño y aplicación de modelos de diálogo flexibles,
contextuales y dinámicos basados en redes bayesianas
- Fecha: 2008
- Materia: Robótica
- Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION
- Departamentos: AUTOMATICA, INGENIERIA ELECTRONICA E INFORMATICA INDUSTRIAL
- Acceso electrónico: http://oa.upm.es/1810
- Director/a 1º: FERREIROS LOPEZ, Javier
- Resumen: Resumen El habla es el medio de comunicación natural entre personas. Como evolución de todo lo aprendido durante prácticamente medio siglo de investigación en tecnología del habla, ha llegado el momento de diseñar sistemas que hagan uso de la capacidad comunicativa del habla, aunque esta vez con máquinas como interlocutoras. En ese sentido creemos que es fundamental incorporar al diseño de tales sistemas las ideas recogidas bajo el concepto de “inteligencia ambiental”, ofreciendo así, interfaces inteligentes que sean capaces de negociar siguiendo un diálogo natural para conseguir los objetivos que sean requeridos por los usuarios. Los diálogos humano-máquina u hombre-máquina siempre requieren de un sistema de diálogo. Un sistema de diálogo puede verse como un programa o aplicación informática que permite la interacción y la comunicación entre la máquina y el humano con la mayor naturalidad posible. Además de los típicos módulos de reconocimiento y conversión de texto a voz, entre otros, todos estos sistemas presentan un elemento en común: un módulo central o núcleo denominado Gestor de Diálogo (GD) responsable de una doble tarea fundamental: interpretar la intención del usuario y decidir cómo continuará el diálogo. Para alcanzar con éxito el objetivo de ofrecer al usuario una respuesta lo más próxima posible a una interacción humano-humano, consideramos que el diseño de un sistema de diálogo debe abordarse tanto desde una perspectiva teórica como práctica. De este modo, es preciso prestar atención no sólo al “modelado del diálogo” (i.e. conjunto de teorías generales o modelos que proporcionan la base necesaria para la “gestión de diálogo”), sino también a la necesaria integración de esos modelos junto con el conocimiento específico de la tarea y el dominio de aplicación (i.e. modelos de tarea y dominio) para poder desarrollar procedimientos que soporten la interacción hombre-máquina en un diálogo colaborativo, cooperativo, en definitiva, útil. Fruto de este estudio, a continuación presentaremos las principales aportaciones de la presente tesis doctoral: 1. Nuevas soluciones de diálogo basadas en Redes Bayesianas (Bayesian Networks, BNs). Como alternativa a los sistemas de diálogo clásicos (autómatas de estados finitos o FSMs, sistemas basados en scripts o planes de diálogo, etc.), se han explorado nuevos esquemas de diálogo que permiten una mayor flexibilidad y naturalidad mediante una definición más conveniente del diálogo como la interacción con un sistema de inferencia. Las nuevas estrategias permiten avanzar en varios aspectos fundamentales: (a) El motor de inferencia basado en BNs permite una mejor identificación de los objetivos de diálogo del usuario (i.e. actividades que puede realizar el sistema) a partir de los conceptos (i.e. información semántica) facilitados por éste y de forma coherente con el contexto de diálogo actual. El motor de inferencia puede obtenerse a partir de tales conceptos lo que permite su diseño con el mayor grado posible de independencia del idioma empleado. Además, las BNs permiten llevar a cabo un análisis de congruencia entre los objetivos que el sistema cree que el usuario ha solicitado y el conjunto de datos recogidos durante la interacción. Gracias a este análisis el sistema puede decidir el flujo de la interacción y reaccionar conforme a la lógica del dominio de aplicación (e.g. realizando las tareas requeridas o solicitando al usuario la información necesaria para ello). La idea principal es detectar de forma automática qué conceptos son necesarios viii (estén disponibles o no), erróneos u opcionales en relación a los objetivos inferidos. De este modo el diálogo podría dirigirse hacia la producción de mensajes solicitando los ítems que sean precisos, aclarando los erróneos y obviando los opcionales. Esto permite evitar diálogos innecesariamente largos y facilita la consecución de los objetivos de forma ágil y eficaz. (b) Como alternativa a las soluciones tradicionales basadas en varios modelos de BN, uno por cada objetivo de información, se propone replantear el problema a partir de un modelo único para todos los conceptos y objetivos de información definidos en el dominio de aplicación. Para ello se ha definido un nuevo algoritmo de “fusión” de los modelos específicos para cada objetivo. Contar con modelos específicos para cada uno de los objetivos de diálogo resulta una decisión especialmente inapropiada ya que obliga a asumir una hipótesis de independencia entre los diferentes objetivos. En diálogo, dicho requisito se incumple muy frecuentemente en la medida en que una intervención pueda corresponder no sólo a un objetivo en concreto sino a múltiples objetivos (e.g. el usuario decide simultáneamente llevar a cabo un cierto conjunto de acciones). Por este motivo consideramos que dicha simplificación va en contra de nuestros intereses en cuanto a eficiencia y flexibilidad del diálogo. Gracias a esta estrategia basada en un modelo único, el resultado del análisis de congruencia es también único y se obtiene considerando un contexto global, común a todos los objetivos, evitando así posibles resultados dispares para un mismo dato o concepto al analizar cada objetivo por separado. Respuesta flexible. Supone probablemente la gran diferencia y a su vez la gran ventaja de las soluciones propuestas respecto a las convencionales, es decir, no existe ninguna secuencia de datos ni de objetivos prefijada a la que tenga que ceñirse el usuario. Así, las BNs nos permiten un modelado del diálogo basado en iniciativa mixta en el que el usuario puede elegir el conjunto de objetivos que quiere que el sistema le ofrezca. Esta flexibilidad es doble ya que no sólo se permite al usuario decidir los objetivos al comienzo de la interacción, sino que también se le permite saltar a otros objetivos sin haber completado el anterior. Por otra parte, el usuario puede responder con más datos de los solicitados en la pregunta o incluso responder a un dato no preguntado de los pertenecientes a un objetivo decidido por el sistema. Con objeto de evitar giros bruscos en la interpretación realizada (los cuales podrían producir desorientación o desconcierto en el usuario) el GD debe integrar en el proceso de decisión acerca de cómo continuar el diálogo toda la información disponible. Respuesta contextual. Habitualmente los sistemas deben hacer frente a situaciones complicadas en las que el usuario tiende a omitir cierta información, en ocasiones, información que resulta fundamental para el correcto desenlace del diálogo. La solución propuesta permite, a través de un proceso de negociación orquestado en base al procedimiento de inferencia, obtener dicha información. Adicionalmente, esta solución cuenta con la capacidad de recuperar rápidamente la información restante a partir del contexto del diálogo. Para ello, se han diseñado e implementado estrategias de aprovechamiento de la información contextual que mejoran la robustez del sistema de diálogo produciendo respuestas coherentes a partir de, entre otros: las medidas de confianza proporcionadas por los módulos de reconocimiento y comprensión, la historia del diálogo, el estado del sistema, el modelo de tarea (e.g. un ix marco semántico con todos los elementos de información necesarios para satisfacer un determinado objetivo de diálogo), el modelo del dominio de aplicación en cuestión (e.g. información de vuelos) y el modelo de usuario. Gracias a las estrategias diseñadas el sistema es capaz de dar el tratamiento adecuado a fenómenos como: “anáforas” (o elementos que hacen referencia a otras partes del diálogo aparecidas con antelación), “elipsis” (u omisión de ciertos elementos vitales para el diálogo pero que pueden deducirse a partir del contexto), y “deíxis” o referencias deícticas (aquellas cuyo significado depende del contexto, sobre todo del contexto físico, de los elementos extralingüísticos e.g. “reproduce la otra”, la otra canción por ejemplo, la anterior). 4. Respuesta dinámica. La robustez de los sistemas pasa en buena parte por que larespuesta de estos sea dinámica. Con ese propósito se han previsto los siguientes mecanismos de adaptación: El GD es capaz, a partir de la información contextual (e.g. turno anterior, historia) y la evolución del diálogo, extraer información sobre la expectativa que tiene el sistema acerca de lo que el usuario puede decir. Esta previsión puede emplearse para preparar el sistema con modelos adaptados (e.g. acústicos, de lenguaje,... etc.) de tal forma que se incentiven interpretaciones congruentes con las respuestas esperadas. Como característica dinámica del comportamiento del sistema, se han introducido mecanismos de atenuación que rebajan la relevancia o latencia de los elementos de información almacenados en la historia conforme a la evolución del diálogo. Tras ser almacenados, y debido a la atenuación sufrida tras cada turno de diálogo, estos elementos pueden evolucionar hasta alcanzar una relevancia por debajo de un cierto umbral predeterminado, motivo por el cual desaparecen definitivamente de la historia de diálogo. Gracias a este mecanismo es posible mantener la historia permanente actualizada en todo momento otorgando mayor peso a la información más reciente frente a la más antigua. Otra utilidad inmediata de este mecanismo es que de forma automática, sin necesidad de ningún proceso de aclaración, podrían desaparecer del diálogo tanto las observaciones erróneas como espurias simplemente por el hecho de que éstas no vuelvan a ser referenciadas en adelante por el usuario. 5. Definición de una metodología de diseño. Finalmente, la presente tesis profundiza en el análisis y aplicación de mecanismos y técnicas eficientes que minimicen el esfuerzo invertido para generar un nuevo sistema de diálogo (cambio de contexto semántico). Para ello se propone el uso de estrategias que permiten caracterizar el dominio de aplicación del sistema y que facilitan el aprendizaje automático de los modelos de diálogo. Gracias a esta metodología es posible obtener un modelo de diálogo completo de la aplicación partiendo del análisis de situaciones reales etiquetadas y de una descripción del modelo de datos de la aplicación junto con una descripción semántica de la misma (ontología). Todas estas aportaciones han sido finalmente evaluadas encontrándose el suficiente apoyo experimental como para demostrar su relevancia. X Abstract Speech is the most widely used and natural means of communication between people. As an evolution of everything learned during almost half a century of research into speech technology, it is time to design systems that make use of the communicative ability of speech, but this time with machines as partners. In this regard, we believe it is essential to incorporate to the design of such systems the ideas collected under the concept of “en-vironmental intelligence”, thus providing, intelligent interfaces that are able to negotiate following a natural dialogue to achieve the objectives that are required by users. The dialogues human-machine or man-machine always require a dialogue system. A dialogue system can be seen as a program or a computer application that enables interac-tion and communication between human and machine with highest degree of naturalness as possible. Besides the typical recognition and text to speech conversion modules, among others, all these systems have a common element, a module called Dialogue Manager (DM) responsible for a dual task: to interpret the intention of the user and decide how to continue the dialogue. To successfully attain the goal of providing the user with an answer as close as possible to a human-human interaction, we believe that the design of a dialogue system should be approached from both a theoretical and practical point of view. Thus, we must pay attention not only to“dialogue modeling”(i.e. set of general theories or models that provide the necessary basis for the “dialogue management”), but also the necessary integration of these models along with specific knowledge of the task and the application domain (i.e. task and domain models) to develop procedures that support the human-machine interaction in a collaborative dialogue, cooperative, in short, useful. As a result of this study, next we present the main contributions of this thesis: 1. New solutions for dialogue based on Bayesian Networks (Bayesian Networks, BNs). As an alternative to the classical dialogue systems (finite state automata or FSMs, script based systems or dialogue plans, . . . etc.), we have explored new dialogue approaches that allow greater flexibility and naturalness by appropriately defining dialogue as the interaction with an inference system. The new strategies allow advances in several key areas: (a) The inference system based on BNs enables a better identification of the dialogue goals of the user (i.e. activities or actions that the system can perform) from the available concepts (i.e. semantic information) consistently with the context of the ongoing dialogue. The inference engine can be obtained from such concepts which allows its design with the greatest possible degree of independence of the language used. In addition, BNs allow to conduct an analysis of congruence between the goals that the system assumes the user has requested, and all data collected during the interaction. Thanks to this analysis the system can determine the flow of interaction and react according to the logic of the application domain (e.g. performing the required tasks or asking the user the information necessary to do so). The main idea is to automatically detect what concepts are needed (available or not), erroneous or optional in relation to the objectives inferred. Thus the dialogue could go towards the production of messages requesting items that are accurate, clarifying the erroneous and xi obviating the optional. This allows to avoid unnecessarily long dialogues and facilitates the achievement of the dialogue goals in an efficient way. (b) As an alternative to traditional solutions based on several models of BN, one for each specific goal, it is proposed to rethink the problem from a single model for all concepts and goals defined in the application domain. A new algorithm has been defined for “fusion” of the specific models for each dialogue goal. To consider specific models for each of the dialogue objectives is a particularly inappropriate decision that forces to assume a hypothesis of independence bet-ween the different objectives. In dialogue, this requirement is breached too often to the extent that an intervention may not only correspond to a specific objective but to multiple objectives (e.g. the user decides to simultaneously carry out a certain set of actions). For this reason we believe that such simplification is against our interests in terms of dialogue efficiency and flexibility. Thanks to this strategy based on a single model, the result of the analysis is also unique and it is obtained considering a global context, common to all the objectives, thus avoiding potential different results for the same concept when analyzing each goal separately. Flexible Response. This probably means the big difference and in turn the great advantage of the proposed solutions in respect of the conventional ones, i.e. the user is not constrained to any predetermined objective or data sequence. Thus, the BNs allow us a mixed initiative dialogue modelling in which the user can choose at any time the set of objectives he wants the system offers. This flexibility is twofold as it not only allows the user to decide the objectives at the beginning of interaction, but also lets him to jump to other goals without having completed the previous one. Moreover, the user can respond with more data than those requested in a question or even respond to a fact not asked by the system regarding the inferred dialogue goals. To avoid sudden changes in the interpretation (which could produce disorientation or confusion in the user) the DM must integrate into the decision-making process on how to continue the dialogue all the available information. Contextual Response. Usually the systems are faced with complicated situations in which the user tends to omit certain information. Sometimes that information is essential for the proper outcome of the dialogue. The proposed solution allows, through a negotiation process based on the inference procedure, to obtain this information. Additionally, this solution has the ability to quickly recover the remaining information from the dialogue context. Several dialogue strategies to benefit from contextual information have been designed and implemented thus improving the robustness of the dialogue system and producing responses consistent with the dialogue context thanks to, among others: the confidence measures provided by recognition and understanding modules, the history of dialogue, the status of the system, the task model (e.g. a semantic frame containing all the information needed to meet a specific dialogue goal), the application domain model (e.g. flight information) and the user model. Thanks to the designed strategies the system is able to deal with phenomena such as: “anaphora” (or elements that refer to other previous parts of the dialogue), “ellipsis”(or omission of certain elements vital to the dialogue but that may be derived from context), and “deixis” or deictic references (those whose mea-ning depends on the context, especially the physical context, on the extra-linguistic elements, e.g. “play another”, another song for example, the previous one). xii 4. Dynamic Response. The robustness of the systems is mainly conditioned by the dynamical features of their response. To this end we have planned the following adaptation procedures: The DM is able to, considering the contextual information (e.g. the last dialogue, the history,. . . etc.) and the evolution of the dialogue, extract information on the system’s expectation about what the user can say. This prediction can be used to prepare the system with models adapted (e.g. acoustic, language,. . . etc.) so as to encourage interpretations consistent with the expected answers. As a dynamic feature of the behavior of the system, attenuation mechanisms have been introduced that down the relevance or latency of the information stored in the history with the evolution of dialogue. After being stored, and because of the attenuation suffered after each dialogue turn, the relevance of these elements can evolve to a level below a certain predefined threshold thus finally and definitely disappearing from the dialogue history. Thanks to this mechanism it is possible to maintain the dialogue history permanently updated at any time by giving greater weight to the latest or newest information than to the oldest. Another immediate use of this mechanism is that automatically, without any clarification process, both erroneous and spurious observations could simply disappear from dialogue if these are no longer referenced by the user. 5. Defining a design methodology. Finally, this thesis delves into the analysis and implementation of efficient mechanisms and techniques that minimize the effort invested to generate a new dialogue system (change of semantic context). We propose the use of strategies for characterizing the application domain of the system and that enable the automatic learning of dialogue models. Thanks to this methodology is possible to obtain a full dialogue model for a certain application based on the analysis of suitably labeled real situations and a description of the data model along with a semantic description of the application (ontology). Finally, all these contributions have been evaluated finding an experimental support enough to demonstrate their relevance.