Tesis:

Týr: Storage-Based HPC and Big Data Convergence Using Transactional Blobs


  • Autor: MATRI, Pierre

  • Título: Týr: Storage-Based HPC and Big Data Convergence Using Transactional Blobs

  • Fecha: 2018

  • Materia: Sin materia definida

  • Escuela: E.T.S DE INGENIEROS INFORMÁTICOS

  • Departamentos: ARQUITECTURA Y TECNOLOGIA DE SISTEMAS INFORMATICOS

  • Acceso electrónico: http://oa.upm.es/51431/

  • Director/a 1º: PÉREZ HERNÁNDEZ, María de los Santos
  • Director/a 2º: ANTONIU, Gabriel

  • Resumen: La creciente cantidad de datos procesados en plataformas HPC supone un reto para el sistema de almacenamiento subyacente. Una alternativa prometedora a los sistemas de almacenamiento basado en ficheros es el uso de BLOBs (Binary Large OBjects). Esta alternativa ofrece menor sobrecarga y mejor rendimiento a cambio de eliminar características típicas de los sistemas de ficheros, como la jerarquía en forma de directorios o los permisos. De manera análoga, los blobs pueden utilizarse para reemplazar sistemas de ficheros en el área de Big Data Analytics (BDA) o como base para otras abstracciones de almacenamiento, tales como bases de datos clave-valor o de series de tiempo. A partir de estas observaciones, podemos concluir que los blobs son un modelo de almacenamiento sólido para lograr la convergencia entre plataformas HPC y BDA. En este contexto, uno de los problemas críticos que hay que resolver es la consistencia de los datos, debido a los diferentes elecciones de cada una de las comunidades: mientras que los desarrolladores de BDA delegan habitualmente la responsabilidad de coordinar el acceso a los datos al sistema de almacenamiento, la falta de dicha capacidad en las plataformas HPC requiere que los desarrolladores tengan que utilizar herramientas a nivel de aplicación para realizar esta tarea. Esta tesis propone los principios de diseño principales de Týr, un sistema de almacenamiento convergente diseñado para responder a las necesidades de aplicaciones HPC y BDA, ofreciendo de forma nativa la coordinación en el acceso a los datos en forma de transacciones. La tesis demuestra la relevancia y eficiencia de este diseño aplicado a múltiples escenarios de ambos campos. Los experimentos implementados muestran las características de rendimiento y versatilidad ofrecidas por Týr, lo que supone un importante impulso para lograr la deseada convergencia entre HPC y BDA. ----------ABSTRACT---------- The increasingly growing data sets processed on HPC platforms raise major challenges for the underlying storage layer. A promising alternative to traditional file-based storage systems are simpler blobs (binary large objects). They offer lower overhead and better performance at the cost of largely unused features such as file hierarchies or permissions. In a similar fashion, blobs are increasingly considered for replacing distributed file systems for Big Data Analytics (BDA) or as a base for storage abstractions like keyvalue stores or time-series databases. From these observations we advocate that blobs provide a solid storage model for convergence between HPC and BDA platforms. We identify data consistency as a hard problem to solve in this context because of the different choices made by both communities: while BDA developers typically rely on the storage system to provide data access coordination, the lack of such semantics on HPC platforms requires developers to use application-level tools for this task. In this thesis we propose the key design principles of Ty´r, a converging storage system designed to answer the needs of both HPC and BDA applications, natively offering data access coordination in the form of transactions. We demonstrate the relevance and efficiency of its design in the light of convergence in multiple applicative contexts from both communities. These experiments validate that T´yr delivers its promise of high-throughput and versatility, hence fueling storage-based convergence between HPC and BDA.