Tesis:

Semantic Representation of Privacy Terms and Policy-based Algorithms for Decentralised Data Environments


  • Autor: GONÇALVES CRISÓSTOMO ESTEVES, Beatriz

  • Título: Semantic Representation of Privacy Terms and Policy-based Algorithms for Decentralised Data Environments

  • Fecha: 2024

  • Materia:

  • Escuela: E.T.S DE INGENIEROS INFORMÁTICOS

  • Departamentos: INTELIGENCIA ARTIFICIAL

  • Acceso electrónico: https://oa.upm.es/83215/

  • Director/a 1º: RODRÍGUEZ DONCEL, Víctor
  • Director/a 2º: LEWIS, David

  • Resumen: With the widespread of technologies in every aspect of our day-to-day life, the amount of data available worldwide is growing rapidly and, consequently, the legal and ethical implications of its exploration have been under debate for quite a few years. When the General Data Protection Regulation (GDPR) came into full effect on the 25th of May 2018, companies had to deal with the impact of this new legislation on their processing of personal data and users were overloaded with the amount of complex technical information on their renewed rights over that processing. The main goal of this thesis is to find ways to help users of Web services deal with this overload, offering services that match their preferences and respect their rights, aiding them in taking control over the publication and sharing of their personal data. In this context, the use and extension of data protection vocabularies and machine-readable policy languages are suitable for the representation of individual privacy preferences and requirements, fine-grained policies for the processing of personal data and other machine-readable information related to GDPR rights and obligations, including the logging of processing activities for future auditing and the exercising of user's personal data-related rights. Furthermore, these specifications can also be used to establish a policy matching mechanism where fine-grained GDPR-aligned access control policies are used to manage and determine access to decentralised personal datastores, such as Solid Pods. Solid is a decentralised data environment that detaches the storage of data from the processing of said data performed by data-driven applications. Such an architecture allows Web users to have better control over the movement of their personal data and regain trust in the services using it as the users are the ones specifying who can access their data. The policy matching algorithm and the developed vocabularies are also used to deal with the requirements of sharing health data and to manage the requirements of the newly enforced Data Governance Act to showcase the representational capabilities of the developed technologies to cover specific use cases and to be expanded to deal with new demands, in particular, related to the expression of data reuse policies and consent terms. The contributions proposed in this Thesis confirm the hypothesis that Semantic Web technologies can be used to successfully express data protection-related information, including the definition of data subjects' privacy preferences as access control policies related to their personal data. Furthermore, said technologies can be used to increase the transparency and accountability of decentralised data environments, in particular when it comes to the involved entities and infrastructure, including their access control mechanisms. RESUMEN Con la expansión de las tecnologías en todos los aspectos de nuestra vida cotidiana, la cantidad de datos disponibles en todo el mundo está creciendo rápidamente y, en consecuencia, las implicaciones legales y éticas de su exploración han sido objeto de debate durante bastantes años. Cuando el Reglamento General de Protección de Datos (RGPD) entró en pleno vigor el 25 de mayo de 2018, las empresas tuvieron que lidiar con el impacto de esta nueva legislación en su procesamiento de datos personales y los usuarios se vieron sobrecargados con la cantidad de información técnica compleja relacionada con sus derechos renovados sobre ese tratamiento. El objetivo principal de esta tesis es encontrar formas de ayudar a los usuarios de servicios Web a lidiar con esta sobrecarga, ofreciéndoles servicios que se ajusten a sus preferencias y respeten sus derechos, ayudándoles a tomar control sobre la publicación y el intercambio de sus datos personales. En este contexto, el uso y la ampliación de vocabularios de protección de datos y lenguajes de políticas son adecuados para la representación de preferencias y requisitos de privacidad individuales, políticas detalladas para el procesamiento de datos personales y otra información legible por máquinas relacionada con los derechos y obligaciones del RGPD, incluido el registro de las actividades de procesamiento para futuras auditorías y el ejercicio de los derechos del usuario relacionados con los datos personales. Además, estas especificaciones también se pueden utilizar para establecer un mecanismo de coincidencia de políticas en el que se utilicen políticas de control de acceso detalladas y alineadas con el RGPD para gestionar y determinar el acceso a almacenes de datos personales descentralizados, como Solid Pods. Solid es un ambiente de datos descentralizado que separa el almacenamiento de datos del procesamiento de dichos datos realizado por aplicaciones. Esta arquitectura permite a los usuarios de la Web tener un mejor control sobre el movimiento de sus datos personales y recuperar la confianza en los servicios que los utilizan, ya que son los usuarios quienes especifican quién puede acceder a sus datos. El algoritmo de coincidencia de políticas y los vocabularios desarrollados también se utilizan para abordar los requisitos de compartir datos de salud y para gestionar los requisitos de la Ley de Gobernanza de Datos recientemente aplicada para mostrar las capacidades de representación de las tecnologías desarrolladas para cubrir casos de uso específicos y ampliarse para hacer frente a nuevas demandas, en particular, relacionadas con la expresión de políticas de reutilización de datos y términos de consentimiento. Las contribuciones propuestas en esta Tesis confirman la hipótesis de que las tecnologías de la Web Semántica pueden usarse para expresar con éxito información relacionada con la protección de datos, incluida la definición de las preferencias de privacidad de los interesados como políticas de control de acceso relacionadas con sus datos personales. Además, dichas tecnologías se pueden utilizar para aumentar la transparencia y la rendición de cuentas de los ambientes de datos descentralizados, en particular cuando se trata de las entidades y la infraestructura involucradas, incluidos sus mecanismos de control de acceso.