Tesis:
A Framework for Linked Data Quality based on Data Profiling and RDF Shape Induction
- Autor: MIHINDUKULASOORIYA, Nandana
- Título: A Framework for Linked Data Quality based on Data Profiling and RDF Shape Induction
- Fecha: 2020
- Materia: Sin materia definida
- Escuela: FACULTAD DE INFORMATICA
- Departamentos: AEROTECNIA
- Acceso electrónico: http://oa.upm.es/62935/
- Director/a 1º: GARCÍA CASTRO, Raúl
- Director/a 2º: GOMEZ PEREZ, Asunción
- Resumen: In the era of digital transformation, where most decision-making and artificial intelligence (AI) applications are becoming data-driven, data is becoming an essential asset. Linked Data, published in structured, machine-readable formats, with explicit semantics using Semantic Web standards, and with links to other data, is even more useful. The Linked (Open) Data cloud is growing with millions of new triples each year. Nevertheless, as we discuss in this thesis, such vast amounts of data bring several new challenges in ensuring the quality of Linked Data. The main goal of this thesis is to propose novel and scalable methods for automatic quality assessment and repair of Linked Data. The motivation for it is to significantly reduce the manual effort required by current quality assessment and repair, and to propose novel methods suitable for large-scale Linked Data sources such as DBpedia or Wikidata. The main hypothesis of this work is that data profiling metrics and automatic RDF Shape induction can be used to develop scalable and automatic quality assessment and repair methods. In this context, the following main contributions are delivered in this thesis: • LDQM, a Linked Data Quality Model for representing Linked Data quality in a standard manner and LD Sniffer, a tool based on LDQM for validating accessibility of Linked Data. LDQM contains 15 quality characteristics, 89 base measures, 23 derived measures, and 124 quality indicators. • Loupe, a framework for Linked Data profiling that includes the Loupe Extended Dataset Description Model and a suite of Linked Data profiling tools. The model consists of 84 Linked Data profiling metrics useful for quality assessment and repair tasks. Loupe tools have been used to evaluate 26 thousand datasets containing 34 billions of triples and Loupe contributed to the winning system of ISWC Semantic Web Challenge 2017. The Loupe Web portal has been visited more than 40,000 times by ~3000 unique visitors from 87 countries. • An automatic RDF Shape induction method that follows a data-driven approach to induce integrity constraints using data profiling metrics as features. The proposed method achieved an F1 of 98.81% in deriving maximum cardinality constraints, an F1 of 97.30% in deriving minimum cardinality constraints, and an F1 of 95.94% in deriving range constraints. • Four methods for automatic quality assessment and repair using RDF Shapes and data profiling metrics. They are motivated by several practical use cases that cover both Linked Data generation process and output and also cover both public and enterprise data. The four methods include (a) a method for detecting inconsistent mappings, (b) a method for detecting and eliminating noisy triples produced by open information extraction tools, (c) a method to repair links in RDF data, and (d) a method to complete type information in Linked Data. Each method demonstrates a high performance (~90% and above) in their respective tasks. Several research projects, such as 4V, 3Cixty, BNE, and MappingPedia have already exploited the contributions of the thesis. In conclusion, we show that Linked Data research problems can learn from older paradigms, such as relational data. Through validating nine hypotheses related to the objectives of this thesis, we demonstrate that data profiling metrics can be used to develop scalable automatic methods for Linked Data quality assessment and repair with high accuracy. ----------RESUMEN---------- En la era de la transformación digital, donde la mayoría de las aplicaciones de toma de decisiones e inteligencia artificial (IA) están siendo impulsadas por los datos, los datos se han convertido en un recurso esencial. Linked Data (los datos enlazados), publicados en formatos estructurados y legibles por máquinas, con una semántica explícita que utiliza estándares web semánticos y con enlaces a otros datos, hacen que los datos sean aún más útiles. La nube de los datos enlazados está creciendo, con millones de tripletas nuevas cada año. Sin embargo, como discutimos en esta tesis, esta enormes cantidad de datos trae consigo varios retos nuevos para garantizar la calidad de los datos enlazados. El objetivo principal de esta tesis es proponer métodos novedosos y escalables para la evaluación automática de la calidad y la reparación de los datos enlazados. La motivación de este trabajo es reducir significativamente el esfuerzo manual requerido actualmente en las tareas de evaluación y reparación, y proponer nuevos métodos adecuados para fuentes a gran escala de los datos enlazados que contienen millones de tripletas como DBpedia o Wikidata. La hipótesis principal de este trabajo es que las métricas de data profiling (perfiles de datos) y la inducción automática de RDF Shapes puede utilizarse para desarrollar métodos escalables y automáticos de evaluación y reparación de calidad de los datos. Las siguientes contribuciones se presentan en esta tesis: • LDQM, un modelo para representar la calidad de los datos enlazados de manera estándar y LD Sniffer, una herramienta basada en LDQM que valida la accesibilidad de los datos enlazados. LDQM contiene 15 características de calidad, 89 medidas básicas, 23 medidas derivadas y 124 indicadores de calidad. • Loupe, un framework para la creación de perfiles de los datos enlazados que incluye un modelo extendido de descripción de conjuntos de datos enlazados y un grupo de herramientas de creación de perfiles de los datos enlazados. Este modelo tiene 84 métricas de perfiles de los datos enlazados útiles para la evaluación y reparación de la calidad de los datos. Loupe se ha utilizado para evaluar 26 mil conjuntos de datos que contienen 34 mil millones de tripletas y ha contribuido al sistema ganador en el ISWC Semantic Web Challenge 2017. El portal web de Loupe ha sido visitado más de 40.000 veces por más de 3.000 visitantes de 87 países. • Un método de inducción automático de RDF Shapes que sigue un enfoque basado en datos para inducir restricciones de integridad para datos RDF utilizando el perfil de datos. El método propuesto logró un F1 de 98.81% en derivar restricciones de cardinalidad máxima, un F1 de 97.30% en derivar restricciones de cardinalidad mínima y un F1 de 95.94% en derivar restricciones de rango. • Cuatro métodos para la evaluación y reparación automática de la calidad utilizando RDF Shapes y métricas de perfiles de datos. Estos métodos fueron motivados por varios casos de uso práctico que cubren tanto el proceso de generación de datos enlazados, así como por los resultados con datos públicos y empresariales. Los cuatro métodos incluyen (a) un método para detectar mapeos inconsistentes, (b) un método para detectar y eliminar tripletas ruidosas extraídas por herramientas abiertas de extracción de información, (c) un método para reparar enlaces en datos RDF, y (d) Un método para completar la información de tipo en datos enlazados. Cada método demuestra un alto rendimiento (~90% y superior) en sus respectivas tareas. Varios proyectos de investigación como 4V, 3Cixty, BNE y MappingPedia ya han explotado las contribuciones de esta tesis. En conclusión, mostramos que la investigación de los datos enlazados puede aprender de paradigmas más antiguos como los datos relacionales. Mediante la validación de nueve hipótesis relacionadas con los objetivos de esta tesis, demostramos que las métricas de perfilado de datos pueden utilizarse para desarrollar métodos automáticos escalablesde de gran precisión para la evaluación y reparación de la calidad de Linked Data.