Tesis Doctorales UPM: Consulta online

Autor: MARTIN CHOZAS, Patricia

Título: SemanticWeb-Driven Terminology Generation : Enrichment and Representation

Fecha: 2023

Materia: ---

Escuela: E.T.S DE INGENIEROS INFORMÁTICOS

Departamento: LINGÜISTICA APLICADA A LA CIENCIA Y A LA TECNOLOGIA

Acceso electrónico: https://oa.upm.es/74289/

Director/a(s):

Director/a: MONTIEL PONSODA, Elena
Director/a: RODRÍGUEZ DONCEL, Víctor

Resumen: Terminologies play a central role in many language technology solutions, but substantial manual effort still goes into the creation of such resources and, consequently, many of them are published in proprietary formats, which means that they are not easy to reuse in other applications. Automatic Term Extraction (ATE) tools help alleviate this cumbersome task. However, their results usually come in the form of plain term lists or unstructured data with limited linguistic information. Initiatives such as the Linguistic Linked Open Data (LLOD) cloud foster the publication of language resources in open structured formats and their linking to other resources in the Semantic Web. In order to leverage the wealth of linguistic data in the LLOD cloud and speed up the creation of linked terminological resources, this thesis proposes a method to generate enriched domain-specifc terminologies directly from unstructured text, and to publish them in open and structured formats, following the Linked Data Principles. This methodology is exemplifed in TermitUp, a proof of concept composed of fve modules performing terminology extraction, terminology post-processing, terminology enrichment, term relation validation and RDF publication. As part of the pipeline implemented by this service, existing resources in the LLOD cloud are linked with the resulting terminologies, contributing in this way to the population of the LLOD cloud. Nonetheless, existing formalisms to represent language resources in the Web of Data, such as SKOS and Ontolex, might not adequately capture the information contained in the terminologies that result from this method. Therefore, this thesis also proposes a comprehensive approach to represent terminologies in the machine readable-format of the Semantic Web, which improves the interoperability between terminological resources and opens up new possibilities yet to be discovered. After identifying the model requirements through a set of Competency Questions (CQs) derived from the analysis of terminological resources of varied scopes and domains, as suggested by the ontology development methodologies followed, this thesis presents the Termlex proposal as an extension of Ontolex that combines the conceptual structure of the SKOS model with the lexical information of Ontolex. Termlex proposes new classes and properties to cover specifc needs of terminological resources coming from a variety of approaches, which means that this model is not intended to be restrictive but complementary to other models. Besides these two main contributions, this thesis also presents several side contributions focused on defnition extraction, term relation validation, and domainspecifc term relation extraction as additional enrichment efforts that are to be implemented in the next version of TermitUp, together with the publication of the resulting terminologies following the Termlex model. RESUMEN Las terminologías juegan un papel esencial en muchos procesos dentro del campo de las tecnologías del lenguaje pero, para crear este tipo de recursos, aún se requiere un esfuerzo manual considerable. Como consecuencia, muchos de estos recursos se publican en formatos propietarios que no son fáciles de reutilizar por otras aplicaciones, concretamente aquellas que realizan tareas de Procesamiento del Lenguaje Natural. Las herramientas de extracción automática de términos facilitan esta tediosa tarea. Sin embargo, sus resultados generalmente se presentan en forma de listas de términos simples o datos no estructurados con información lingüística limitada. Iniciativas como la Nube de Datos Lingüísticos Enlazados Abiertos (LLOD cloud en inglés) fomentan la publicación de recursos lingüísticos en formatos estructurados abiertos y su enlazado con otros recursos de la Web Semántica. Con el f n de aprovechar la riqueza de datos lingüísticos en la LLOD cloud y acelerar la creación de recursos terminológicos enlazados, esta tesis propone un método para generar terminologías específicas de dominio enriquecidas directamente a partir de texto no estructurado y publicarlas en formatos abiertos y estructurados, siguiendo los Principios de los Datos Enlazados (Linked Data Principles). Este método se ejemplifica con TermitUp, una prueba de concepto compuesta por cinco módulos que realizan extracción, posprocesamiento y enriquecimiento de terminología, validación de relaciones terminológicas y publicación del recurso resultante en RDF. Durante este proceso, se enlazan los recursos de la LLOD cloud con las terminologías resultantes, impulsando el crecimiento de esta nube. No obstante, los formalismos existentes para representar los recursos lingüísticos en la Web de Datos, como SKOS y Ontolex, en ocasiones no capturan adecuadamente la información contenida en las terminologías resultantes de este método de enriquecimiento. Como consecuencia, esta tesis también propone un modelo completo para representar terminologías de la Web Semántica que mejora la interoperabilidad entre los recursos terminológicos y abre nuevas posibilidades aún por descubrir. Tras identificar los requisitos del modelo a través de un conjunto de Preguntas de Competencia (Competency Questions en inglés) derivadas del análisis de recursos terminológicos de diferentes alcances y dominios, como lo sugieren las metodologías de desarrollo de ontologías que se han seguido, este trabajo presenta la propuesta Termlex. Esta propuesta se idea como una extensión de Ontolex que combina la estructura conceptual del modelo SKOS con la información léxica de Ontolex. En Termlex se proponen nuevas clases y propiedades que cubren necesidades específicas de recursos terminológicos creados de acuerdo a diferentes enfoques. Esta visión integrada resulta en un modelo flexible, que no pretende ser restrictivo sino complementario a otros modelos. Además de estas dos contribuciones principales, esta tesis también presenta contribuciones adicionales centradas en extracción de definiciones, validación de relaciones terminológicas y extracción de relaciones terminológicas específicas de dominio, que se consideran esfuerzos de enriquecimiento adicionales. Estos enfoques se implementarán en la próxima versión de TermitUp, junto con la publicación de las terminologías resultantes según el modelo Termlex.