Tesis:

Modelo computable enriquecido de adquisición y representación de conocimiento lingüístico para procesamiento multidireccional de la lengua española.


  • Autor: GALLARDO PEREZ, Carolina

  • Título: Modelo computable enriquecido de adquisición y representación de conocimiento lingüístico para procesamiento multidireccional de la lengua española.

  • Fecha: 2005

  • Materia: Sin materia definida

  • Escuela: FACULTAD DE INFORMATICA

  • Departamentos: INTELIGENCIA ARTIFICIAL

  • Acceso electrónico:

  • Director/a 1º: CARDEÑOSA LERA, Jesús

  • Resumen: La aproximación más tradicional a la formalización y tratamiento del conocimiento lingüístico se ha basado en las gramáticas formales derivadas de teorías lingüísticas. Sin embargo, las necesidades de sistemas de PLN para aplicaciones reales han descubierto las deficiencias que soportan los sistemas basados en teorías lingüísticas. Estas son aptas para crear herramientas de investigación teórica, pero inadecuadas para el diseño de sistemas orientados a la aplicación real, debido a la excesiva rigidez que el marco teórico de una teoría lingüística impone sobre el conocimiento lingüístico. Las teorías lingüísticas no son el único "conocimiento" que la lingüística proporciona. Las gramáticas descriptivas, aunque no están orientadas a un uso computacional, ofrecen una descripción del uso de la lengua provista de una mayor cobertura de conocimiento gramatical a pesar de su menor grado de formalización. Debido a este menor grado de formalización, el PLN ha dirigido sus trabajos a los modelos más directamente computables, los derivados de las gramáticas teóricas en detrimento de gramáticas de tipo descriptivo mucho más orientadas a los datos obtenidos por observación que a la aplicación computacional, de manera que el cúmulo de conocimiento gramatical contenido en una gramática descriptiva queda obviado. En este contexto, se ha orientado este trabajo tomando como objetivo la definición de un modelo que permita educir el conocimiento de la lengua española contenido en la mayor obra de referencia hasta el momento: la "Gramática Descriptiva de la Lengua Española" (GDLE) de la Real Academia Española, y representarlo de una manera computable de forma independiente de su aplicación final. Para ello se ha realizado un análisis profundo desde la fuente (GDLE) -mediante el uso de metodologías de ingeniería del conocimiento- modelizando sus contenidos por medio de una representación de conocimiento basada en un modelo estático (objetos y clases) y un modelo dinámico (reglas, operaciones y procesos). Es decir, se ha seguido un método de desarrollo de Sistemas Basados en el Conocimiento para educir el conocimiento desde una gramática descriptiva. Esta representación es la única que puede garantizar que el modelo sea útil y mantenible por sus características de modularidad, haciéndolo muy escalable (lo que permitiría su aumento de cobertura lingüística con mucha facilidad) y también reversible, es decir, que las reglas no dependan de la dirección del flujo de los grandes procesos básicos de análisis y de generación de lengua. Los distintos procesos involucrados se han agrupado en unas unidades funcionales (Léxico, Sintáctico y Semántico) que han sido la base de la definición de una arquitectura computacional propia de los sistemas distribuidos, como es la pizarra. El modelo definido se ha experimentado mediante un conjunto de casos de prueba orientados a garantizar la cobertura lingüística definida en las hipótesis de trabajo y también la corrección del modelo sobre todo en lo que a la reversibilidad se refiere. Este modelo no tiene precedente en la lengua española, lo cual abre una nueva línea de trabajo que permite desarrollar gramáticas computables con gran facilidad. Asimismo el modelo es exportable a otras lenguas ya que incluso la arquitectura y las estructuras del modelo son lo suficientemente elásticas como para permitir una adaptación rápida y coherente (salvo en el proceso de extracción de conocimiento) a las mismas.