Tesis:

Linguistic Linked Data for Lexicography


  • Autor: BOSQUE GIL, Julia

  • Título: Linguistic Linked Data for Lexicography

  • Fecha: 2019

  • Materia: Sin materia definida

  • Escuela: E.T.S DE INGENIEROS INFORMÁTICOS

  • Departamentos: INTELIGENCIA ARTIFICIAL

  • Acceso electrónico: http://oa.upm.es/57887/

  • Director/a 1º: GÓMEZ PÉREZ, Asunción
  • Director/a 2º: GRACIA DEL RÍO, Jorge

  • Resumen: Nowadays, the number of resources that provide lexical data keeps significantly increasing as outcomes of projects in linguistics, lexicography and language technologies. However, this data is scattered throughout the Web, isolated, and often comes in a vast number of different formats and languages. To address this landscape of heterogeneous and isolated language resources, experts working in the domain of the Semantic Web have adopted approaches to linguistic data representation based on the Linked Data (LD) paradigm, giving birth to the Linguistic Linked Data (LLD) line of research. Although LLD is focused on the representation, publication and sharing of language resources, there exists no previous wide-scope exploration and assessment of the impact of the application of LLD to lexicography as a discipline: the requirements and process this involves, its practical and theoretical benefits, the challenges it raises, and the open problems on the way. Furthermore, as a required ingredient towards this exploration, guidelines to represent a wide range of lexicographic resources (as outcomes of a lexicographic compilation process) by following this new paradigm are lacking as well. In this thesis we address the application of LLD to lexicography from the looking glass of the lexicographer, the user who consults lexicographic works, or the linguist interested in lexical semantics who needs lexicographic content for their work. We detect and resolve obstacles on the way for LLD adoption in lexicography regarding the representation requirements of lexicographic works through the definition of application profiles and extensions of the de facto standards for LLD representation. On the basis of a set of representative resources that we convert to the Resource Descriptioin Framework (RDF), we analyse and showcase the benefits and implications of LLD for dictionary representation, both as a target format of a conversion, as well as a potential native format for lexicographic projects in the future. ----------RESUMEN---------- Con el incesante aumento de los recursos léxicos que surgen de numerosos proyectos en lingüística, lexicografía, y tecnologías del lenguaje, hoy en día los datos léxicos se encuentran en distintos formatos, dispersos y aislados unos de otros en la Web. Los Datos Enlazados Lingüísticos (por sus siglas en inglés, LLD) es una línea de investigación desarrollada por expertos en el campo de la Web Semántica que responde a la necesidad de estandarización en la representación de datos lingüísticos y que se basa en el paradigma de los Datos Enlazados (LD). Pese a que la línea de LLD se centra en la representación, la publicación, y la difusión de los recursos lingüísticos, no existe hasta la fecha un estudio amplio ni una valoración del impacto que tendría su aplicación a la lexicografía como disciplina: cuáles son los requisitos que cumplir en la representación de recursos lexicográficos como LLD, qué procesos habría que llevar a cabo, cuáles serían las ventajas prácticas y teóricas de este tipo de representación, los desafíos a los que daría lugar, ni los posibles problemas a los que habría que hacer frente. Asimismo, como piezas necesarias en ese estudio, destaca también la falta de guías para representar un amplio abanico de recursos lexiográficos en este nuevo paradigma. En esta tesis doctoral se investiga la aplicación de los LLD a la lexicografía desde la perspectiva del lexicógrafo, el usuario de recursos lexicográficos, o el lingüista interesado en la semántica léxica que necesita acceder a contenido lexicográfico para su trabajo. Esta tesis identifica y resuelve una serie de problemas de modelado a la hora de representar contenido lexicográfico en el formato RDF (Resource Description Framework). Mediante la definición de perfiles de aplicación y extensiones para el estándar de facto más utilizado en LLD, este trabajo presenta una serie de recursos lexicográficos en formato RDF que sirven para analizar y demostrar las ventajas de este paradigma para codificar información lexicográfica, tanto como formato final de un recurso tras una conversión, como como formato nativo para la creación de nuevas obras lexicográficas.