Tesis:
Contributions to Data Engineering in Spatio-Temporal Semantic Data Management for IoT
- Autor: SAN EMETERIO DE LA PARTE, Mario
- Título: Contributions to Data Engineering in Spatio-Temporal Semantic Data Management for IoT
- Fecha: 2024
- Materia:
- Escuela: E.T.S.I. Y SISTEMAS DE TELECOMUNICACIÓN
- Departamentos: INGENIERIA TELEMATICA Y ELECTRONICA
- Acceso electrónico: https://oa.upm.es/83151/
- Director/a 1º: MARTÍNEZ ORTEGA, José Fernán
- Resumen: In the current era of digitization, data have emerged as the most valuable resource, driving transformation across various sectors of society and the economy. From industry to healthcare, agriculture, and beyond, the ability to collect, process, and leverage data in real-time stands as a key differentiator. In this context, the Internet of Things (IoT) plays a crucial role by expanding the network of connected devices that continuously generate data.
Data generated by devices and sensors represent information in its purest state, a valuable raw material that requires processing and analysis to extract meaningful knowledge. In this regard, data management systems emerge as the cornerstone of the IoT ecosystem, facilitating the organization, storage, processing, and efficient access to this heterogeneous data. These systems not only manage the vast volume of generated data, but also enable its transformation into actionable information and, ultimately, into useful knowledge.
However, data generated by IoT devices exhibit a complex nature based on three fundamental dimensions: spatial, temporal, and semantic. This tridimensionality implies that the data not only contain information about the time they were collected (temporal dimension) and the place of origin (spatial dimension) but also about their meaning and context (semantic dimension). Current data management systems lack a comprehensive approach that recognizes and harnesses the intricate tridimensional nature of these data. Furthermore, these systems feature cloud-centralized architectures, which reduces their performance due to delays and communication difficulties with the edge layer. Another challenge in the current IoT landscape lies in insufficient interoperability, leading to a fragmented ecosystem of devices, platforms, solutions, and systems.
This thesis proposes a series of contributions to the management of spatio-temporal semantic data for IoT, which stem from the following objectives: 1) To formalize a data model based on the spatio-temporal semantic nature of the data generated by heterogeneous IoT devices and sensors. 2) Define a horizontally and vertically distributed spatio-temporal semantic data management system that enables the achievement of the next generation IoT. 3) Address the challenges arising from the lack of interoperability at the semantic level by proposing a system to support translation or alignment between the wide variety of existing IoT data models.
The data model proposed in this thesis has been extended and evaluated against real needs and data exposed in a large-scale IoT environment, described by the AFarCloud European Research Project. After validation, the data model provides the basis for the design of the named "DistDaMaS", an spatio-temporal semantic data management system based on a horizontally and vertically distributed architecture. As a proof of concept and validation, this system has been implemented in the framework of the European Research Project DEMETER. The third contribution of this thesis consists of the implementation of the system named "Semantic Interoperability Support System" (SISS). This system has been evaluated against a selection of eight widely recognized data models and ontologies used in the IoT domain.
The contributions presented in this dissertation formalize the foundations for more efficient and effective data management in IoT environments. These results contribute to the advancement towards next-generation IoT, driven by more adaptable, scalable, and interoperable data management systems.
RESUMEN
En la actual era de digitalización, los datos se han consolidado como el recurso más preciado, impulsando la transformación en diversos ámbitos de la sociedad y la economía. Desde la industria hasta la salud, la agricultura y más allá, la capacidad de recopilar, procesar y aprovechar datos en tiempo real se erige como un diferenciador clave. En este contexto, el Internet de las Cosas (IoT) desempeña un papel fundamental al expandir la red de dispositivos conectados que generan datos de forma constante.
Los datos generados por los dispositivos y sensores constituyen información en su estado más puro, una materia prima valiosa que requiere ser procesada y analizada para extraer conocimiento significativo. En este sentido, los sistemas de gestión de datos emergen como la piedra angular del ecosistema IoT, al facilitar la organización, almacenamiento, procesamiento y acceso eficiente a estos datos heterogéneos. Estos sistemas no solo se encargan de gestionar el gran volumen de datos generados, sino que también posibilitan su transformación en información procesable y, en última instancia, en conocimiento útil.
Sin embargo, los datos generados por los dispositivos IoT presentan una compleja naturaleza basada en tres dimensiones fundamentales: espacial, temporal y semántica. Esta tridimensionalidad implica que los datos no solo contienen información sobre el momento en que fueron generados (dimensión temporal) y el lugar donde se originaron (dimensión espacial), sino también sobre su significado y contexto (dimensión semántica). Los sistemas de gestión de datos actuales adolecen de un enfoque integral que reconozca y aproveche la compleja naturaleza tridimensional de estos datos. Además, estos sistemas presentan arquitecturas centralizadas en la nube, lo que reduce su rendimiento debido a los retardos y dificultades de comunicación con la capa de borde. Otro desafío en el actual contexto del IoT radica en la insuficiente interoperabilidad, lo que conduce a un ecosistema fragmentado de dispositivos, plataformas, soluciones y sistemas.
En esta tesis se proponen una serie de contribuciones a la gestión de datos espacio-temporal semánticos para IoT que parten de los siguientes objetivos: 1) Formalizar un modelo de datos basado en la naturaleza espacio-temporal semántica de los datos generados por los heterogéneos dispositivos y sensores del IoT. 2) Definir un sistema de gestión de datos espacio-temporal semántico distribuido horizontal y verticalmente, que habilite la consecución del IoT de próxima generación. 3) Abordar los desafíos derivados de la falta de interoperabilidad a nivel semántico mediante la propuesta de un sistema de soporte a la traducción o alineamiento entre la amplia variedad de modelos de datos existentes en IoT.
El modelo de datos propuesto en esta tesis ha sido ampliado y evaluado ante las necesidades y datos reales expuestos en un entorno IoT de gran envergadura, descrito por el Proyecto Europeo de Investigación AFarCloud. Tras su validación, el modelo de datos ofrece las bases para el diseño del denominado DistDaMaS, un sistema de gestión de datos espacio-temporal semántico basado en una arquitectura distribuida horizontal y verticalmente. Como prueba de concepto y validación, este sistema ha sido implementado en el marco del Proyecto Europeo de Investigación DEMETER. La tercera contribución de esta tesis consiste en la implementación del sistema denominado Semantic Interoperability Support System (SISS). Este sistema ha sido evaluado ante una selección de ocho modelos de datos y ontologías ampliamente reconocidos y utilizados en el ámbito del IoT.
Las contribuciones presentadas en esta tesis doctoral formalizan las bases para una gestión más eficiente y efectiva de los datos en entornos IoT. Estos resultados contribuyen al avance hacia el IoT de próxima generación, impulsado por sistemas de gestión de datos más adaptables, escalables e interoperables.