Tesis:
Contribución a los procesos de gobierno del dato para Big Data basado en un modelado y razonamiento formal sobre un plano de conocimiento compartido
- Autor: CASTRO ESCUDERO, Alfonso
- Título: Contribución a los procesos de gobierno del dato para Big Data basado en un modelado y razonamiento formal sobre un plano de conocimiento compartido
- Fecha: 2021
- Materia: Sin materia definida
- Escuela: E.T.S. DE INGENIEROS DE TELECOMUNICACION
- Departamentos: INGENIERIA DE SISTEMAS TELEMATICOS
- Acceso electrónico: https://oa.upm.es/70131/
- Director/a 1º: VILLAGRÁ GONZÁLEZ, Victor Abraham
- Resumen: Los datos llevan siendo la base para tomar decisiones desde mucho tiempo atrás. A mediados del siglo XIX se amplió el significado del término estadística para incluir la disciplina que se ocupa de recolectar, resumir y analizar los datos. Hoy en día, empresas y organismos oficiales utilizan los datos como principal activo para tomar decisiones estratégicas. La mayor diferencia entre los análisis de siglos atrás y los presentes, se encuentra en la evolución que han sufrido las características de los datos. Los volúmenes de datos disponibles son inmensos, procediendo una gran variedad de fuentes y con una alta velocidad y variabilidad de cambio en sus valores. El termino Big Data hace referencia a este entorno actual de datos. El análisis de los datos en la actualidad, más conocido como ciencia de datos, no habría sido posible sin los avances en las tecnologías de procesamiento y almacenamiento de sistemas distribuidos. Éstas han permitido el uso de complejos algoritmos próximos a la inteligencia artificial para realizar análisis, predicciones y recomendaciones que ayudan en la toma de decisiones estratégicas. Se hace necesario así una gestión de datos robusta y fiable. El crecimiento continuo del volumen, la variedad y la velocidad de los datos conducen a un aumento constante en la complejidad de la gestión de los datos. El gobierno de datos es la clave para simplificar esa complejidad: es el elemento que controla la toma de decisiones y las responsabilidades de todos los procesos relacionados con la gestión de datos. Se han realizado diferentes trabajos que abordan ciertos aspectos de la gestión y el gobierno de datos, como calidad de datos o seguridad, de manera aislada. Esta tesis tiene por objetivo el desarrollo de una solución que aborde el gobierno del dato de manera completa, teniendo en cuenta las interacciones que existen entre los diferentes dominios de gestión de datos. Así, esta tesis propone un sistema de gobierno de datos basado en un sistema autónomo constituido por componentes distribuidos que disminuya la complejidad de la gestión de datos. Utiliza técnicas semánticas y razonamiento automático basado en ontologías, y los diferentes componentes utilizan un plano de conocimiento compartido para interactuar. Su pieza fundamental es una ontología que representa todos los procesos de gestión de datos incluidos en el gobierno de datos. Para su construcción, como primer punto se ha realizado una revisión profunda de los diferentes marcos de referencia del dominio de datos, con el objetivo de aclarar los conceptos que van a constituir la base de esta representación formal del dominio. Las políticas que controlan las actividades asociadas al gobierno de datos se van a implementar con un conjunto de reglas asociadas a la ontología. Por último, se muestran los resultados de la implementación del sistema en diferentes entornos de preproducción de Telefónica. Los resultados obtenidos muestran la viabilidad de utilizar este tipo de tecnología para reducir la complejidad de la gestión de entornos de Big Data. ----------ABSTRACT---------- Decisión making has been based on data for a long time. In the mid-19th century, the meaning of the term statistics was broadened to include the discipline that deals with collecting, summarizing, and analyzing data. Today, companies and official bodies use data as their main asset to make strategic decisions. The biggest difference between the analysis of centuries ago and the present ones is found in the evolution that the characteristics of the data have undergone. The volumes of available data are immense, coming from a great variety of sources and with a high speed and variability of change in their values. The term Big Data refers to this current data environment. Today's data analysis, better known as data science, would not have been possible without advances in distributed systems storage and processing technologies, which have allowed the use of complex algorithms close to artificial intelligence to perform analysis, predictions and recommendations that help in making strategic decisions. A robust and reliable data management is thus necessary. Continual growth in the volume, variety and speed of data leads to a steady increase in the complexity of data management. Data governance is the key to simplifying that complexity: it is the element that controls decision-making and the responsibilities of all processes related to data management. Different studies have been carried out that address certain aspects of data management and governance, such as data quality or security, in isolation. This thesis aims to develop a solution that fully addresses data governance, taking into account the interactions that exist between the different data management domains. Thus, this thesis proposes a data governance system based on an autonomous system made up of distributed components that reduces the complexity of data management. It uses semantic techniques and automatic reasoning based on ontologies, and the different components use a shared knowledge plane to interact. Its fundamental piece is an ontology that represents all the data management processes included in data governance. For its construction, as a first point a thorough review of the different frames of reference of the data domain has been carried out, with the aim of clarifying the concepts that will constitute the basis of this formal representation of the domain. The policies that control the activities associated with data governance will be implemented with a set of rules associated with the ontology. Finally, the results of the implementation of the system in different Telefónica pre-production environments are shown. The results obtained show the feasibility of using this type of technology to reduce the complexity of managing Big Data environments.