Tesis:
Processing, Identification and Representation of Temporal Expressions and Events in Legal Documents
- Autor: NAVAS LORO, María
- Título: Processing, Identification and Representation of Temporal Expressions and Events in Legal Documents
- Fecha: 2021
- Materia: Sin materia definida
- Escuela: FACULTAD DE INFORMATICA
- Departamentos: AEROTECNIA
- Acceso electrónico: https://oa.upm.es/69772/
- Director/a 1º: RODRÍGUEZ DONCEL, Víctor
- Director/a 2º: GOMEZ PEREZ, Asunción
- Resumen: Legal documents can be long, complex and difficult to understand. However, there is a strong demand for access to legal information, and thousands of documents are published every day. Although there is a multitude of institutional portals available to citizens and legal practitioners, the documents themselves are often plain texts from whom it is difficult to extract information. The retrieval of temporal information in judgments is particularly important, and the analysis of these texts often requires identifying dates and events. In fact, being able to represent a sentence as a set of relevant events would be extremely useful, as it would improve searches and facilitate the visualization and understanding of texts through summaries and timelines, among others. However, there is currently no system that facilitates the processing of temporal information in legal documents. This doctoral thesis aims to provide a framework that addresses the problem comprehensively, proposing algorithms for the recognition of temporal expressions and events, describing a data model for their representation and demonstrating that they facilitate the retrieval of temporal information in legal texts. The main contributions are (1) several annotated corpora in the legal domain, (2) a temporal tagger capable of processing Spanish and English texts that improves the state of the art in the legal domain, (3) an event extractor for European legal decisions that also generates a timeline, and (4) a pipeline that allows transforming European legal decisions into a set of events within a knowledge graph. For this purpose, several tools and resources have been developed, such as an ontology that allows representing a document as an aggregation of its most relevant events and its temporal annotations, or a converter between different temporal annotation formats and data conforming to this ontology. All these contributions allow to transform a legal document into an event-based representation that facilitates retrieving legal information. ----------RESUMEN---------- Los documentos legales pueden llegar a ser largos, complejos y difíciles de entender. No obstante, existe una fuerte demanda de acceso a información legal, y diariamente se publica una gran cantidad de documentos. Pese a que existen multitud de portales institucionales a disposición de ciudadanos y profesionales del derecho, los documentos en sí suelen ser texto plano de los cuales es difícil extraer información. La recuperación de información temporal en las sentencias judiciales es especialmente importante, y el análisis de estos textos requiere a menudo identificar fechas y eventos. De hecho, poder representar una sentencia como un conjunto de eventos relevantes sería extremadamente útil, pues permitiría mejorar las búsquedas y facilitar la visualización y comprensión de los textos mediante resúmenes y líneas temporales. Sin embargo, no existe a día de hoy un sistema que facilite el procesamiento de información temporal en documentos del ámbito legal. Esta tesis doctoral contribuye al avance del estado del arte proporcionando un marco de trabajo que aborde la información temporal de manera integral, proponiendo algoritmos de reconocimiento de expresiones temporales y eventos, describiendo un sistema de representación de los mismos y demostrando que su uso facilita consultar información temporal en textos jurídicos. Las principales contribuciones de esta tesis son (1) diversos corpus anotados en el dominio legal, (2) un anotador temporal capaz de procesar textos en español e inglés que mejora el estado del arte en el dominio legal (3) un extractor de eventos para sentencias europeas que genera además un timeline, y (4) un pipeline que permite transformar sentencias europeas en un conjunto de eventos dentro de un grafo del conocimiento. Para ello se han desarrollado distintos recursos, como una ontología que permite representar un documento como sus eventos más relevantes y sus anotaciones temporales, o un conversor entre distintos formatos de anotación temporal y los datos representados conforme a la ontología. Estas aportaciones permiten una representación del documento que facilita el acceso a la información.