Tesis:

FAIR metadata, models, and interfaces to support machine-readable data access and use conditions


  • Autor: BENHAMED, Oussama Mohammed

  • Título: FAIR metadata, models, and interfaces to support machine-readable data access and use conditions

  • Fecha: 2024

  • Materia:

  • Escuela: E.T.S. DE INGENIERÍA AGRONÓMICA, ALIMENTARIA Y DE BIOSISTEMAS

  • Departamentos: BIOTECNOLOGIA-BIOLOGIA VEGETAL

  • Acceso electrónico: https://oa.upm.es/81819/

  • Director/a 1º: WILKINSON, Mark D.

  • Resumen: This work was supported by the Algerian Ministry of Higher Education and Scientific Research, and the European Joint Programme on Rare Diseases (EJP RD) and the International Rare Diseases Research Consortium (IRDiRC). The European Joint Programme on Rare Diseases, including the IRDiRC Scientific Secretariat is funded by the European Union under the European Union’s Horizon 2020 research and innovation programme Grant Agreement N°825575. There are competing values and objectives that define the contemporary high-throughput Web-based world. The first is the desire - often the need or even requirement - to share data. The other is a renewed focus on privacy and a recognition that much of the data we need to share can be considered sensitive. Data protection technologies have lagged behind the technologies for data sharing. The inability to define the constraints over data usage - including access, licenses, and consent - are hampering the optimal reuse of these vast amounts of data to aid in scientific discoveries and new treatments. In this thesis we attempt, by applying existing technologies in novel ways, and by creating novel tools, to define approaches to defining and sharing data access and usage policies that can support the kinds of high-throughput research endeavours that define the contemporary research and development environment. We focus on a specific technology - Open Digital Rights Language - that promises the ability to reflect the permissions, prohibitions and obligations/duties that were previously published as narrative text, into a format that can be interpreted and used by machines. We focus on clinical and other health-related data, since these have specific and interesting constraints such as patient informed consent. Our tooling includes both technologies that build these machine-readable data access condition policies, as well as technologies that allow them to be translated back into human narrative texts to ensure the informed part of informed consent can be properly supported. We further do some validation of these policy documents, to measure the degree to which we accurately captured the meaning of a consent statement via a series of survey-based studies using automatically-generated sentences that are assessed by a panel of domain experts. Statistical tests are applied to evaluate how closely the translations match the original consent statements, and the degree to which the evaluators agree with each other. While the technical developments described in this thesis were largely successful, our validation studies found that there are ambiguities in the encoding of narrative statements into a machine-readable format, but more importantly, that individuals have different interpretations of even the narrative forms of data access policies. This suggests that the complete solution may require advances beyond merely novel technologies, including deeper community agreement on the meanings of consent-related statements. RESUMEN Existen valores y objetivos contrapuestos que definen el actual ámbito Web de alto rendimiento. El primero es el deseo -a menudo la necesidad o incluso la exigencia- de compartir datos. El otro es una renovada atención a la privacidad y el reconocimiento de que muchos de los datos que necesitamos compartir pueden considerarse sensibles. Las tecnologías de protección de datos han ido por detrás de las tecnologías de intercambio de datos. La incapacidad para definir las restricciones sobre el uso de los datos -incluidos el acceso, las licencias y el consentimiento- está obstaculizando la reutilización óptima de estas ingentes cantidades de datos para contribuir a los descubrimientos científicos y los nuevos tratamientos. En esta tesis intentamos, aplicando tecnologías existentes de formas novedosas y creando nuevas herramientas, definir enfoques para definir y compartir políticas de acceso y uso de datos que puedan apoyar los esfuerzos de investigación de alto rendimiento que definen el entorno contemporáneo de investigación y desarrollo. Nos centramos en una tecnología específica - Open Digital Rights Language - que promete la capacidad de reflejar los permisos, prohibiciones y obligaciones/deberes que antes se publicaban como texto narrativo, en un formato que puede ser interpretado y utilizado por máquinas. Nos centramos en los datos clínicos y otros relacionados con la salud, ya que estos tienen restricciones específicas e interesantes, como el consentimiento informado del paciente. Nuestras herramientas incluyen tanto tecnologías que construyen estas políticas de condiciones de acceso a los datos legibles por máquinas, como tecnologías que permiten traducirlas de nuevo a textos narrativos legibles por humanos para garantizar que la parte "informada" del "consentimiento informado" pueda apoyarse adecuadamente. Además, realizamos una validación de estos documentos normativos para medir el grado de precisión con que captamos el significado de una declaración de consentimiento mediante una serie de estudios basados en encuestas en los que se utilizan frases generadas automáticamente que son evaluadas por un grupo de expertos en la materia. Se aplican pruebas estadísticas para evaluar en qué medida las traducciones coinciden con las declaraciones de consentimiento originales, y el grado en que los evaluadores están de acuerdo entre sí. Aunque los desarrollos técnicos descritos en esta tesis han tenido un gran éxito, nuestros estudios de validación han revelado que existen ambigüedades en la codificación de las declaraciones narrativas en un formato legible por máquina, pero lo que es más importante, que los individuos tienen diferentes interpretaciones incluso de las formas narrativas de las políticas de acceso a los datos. Esto sugiere que la solución completa puede requerir avances que vayan más allá de las meras tecnologías novedosas, incluido un acuerdo comunitario más detallado sobre los significados de las declaraciones relacionadas con el consentimiento.