Uso de SGBDs NoSQL na Gerência da Proveniência Distribuída em Workflows Científicos

Resumo. Um fator fundamental na gerência de experimentos modelados como workflows científicos são seus dados de proveniência. Esses dados basicamente são usados para garantir a reprodutibilidade, porém nos últimos anos eles também vêm sendo usados para tarefas de monitoramento e escalonamento de atividades. Como essas tarefas demandam consultas em tempo real, conforme a quantidade de dados de proveniência aumenta, mecanismos eficazes para armazenamento e consulta se fazem necessários. Uma das opções mais comuns é utilizar os SGBDs relacionais para gerenciar a proveniência, dada a tradição da tecnologia. Porém, novas tecnologias como os SGBDs NoSQL tem ganhado bastante atenção nos últimos anos e podem ser de grande valia nesse cenário, principalmente em ambientes distribuídos onde escalabilidade é essencial. Este artigo realiza um estudo comparativo entre SGBDs relacionais e um SGBD NoSQL (Cassandra) no que tange a gerência dos dados de proveniência. Apresentamos um estudo com um workflow real de bioinformática usando a máquina de workflows para nuvens SciCumulus.

[1]  Marta Mattoso,et al.  Towards supporting the life cycle of large scale scientific experiments , 2010, Int. J. Bus. Process. Integr. Manag..

[2]  Marta Mattoso,et al.  SciLightning: A Cloud Provenance-Based Event Notification for Parallel Workflows , 2013, ICSOC Workshops.

[3]  Jorge Bernardino,et al.  NoSQL databases: MongoDB vs cassandra , 2013, C3S2E '13.

[4]  Yixin Chen,et al.  A comparison of a graph database and a relational database: a data provenance perspective , 2010, ACM SE '10.

[5]  Beth Plale,et al.  Quality, retrieval and analysis of provenance in large-scale data , 2014 .

[6]  Wellington Moreira de Oliveira,et al.  Experiencing PROV-Wf for Provenance Interoperability in SWfMSs , 2014, IPAW.

[7]  Marta Mattoso,et al.  Capturing and querying workflow runtime provenance with PROV: a practical approach , 2013, EDBT '13.

[8]  Marta Mattoso,et al.  Enabling Re-executions of Parallel Scientific Workflows Using Runtime Provenance Data , 2012, IPAW.

[9]  Ian Foster,et al.  The Grid 2 - Blueprint for a New Computing Infrastructure, Second Edition , 1998, The Grid 2, 2nd Edition.

[10]  David A. Bader,et al.  A performance evaluation of open source graph databases , 2014, PPAA '14.

[11]  Marta Mattoso,et al.  SciPhy: A Cloud-Based Workflow for Phylogenetic Analysis of Drug Targets in Protozoan Genomes , 2011, BSB.

[12]  Marta Mattoso,et al.  Chiron: a parallel engine for algebraic scientific workflows , 2013, Concurr. Comput. Pract. Exp..

[13]  Yolanda Gil,et al.  PROV-DM: The PROV Data Model , 2013 .

[14]  Marta Mattoso,et al.  SciCumulus: A Lightweight Cloud Middleware to Explore Many Task Computing Paradigm in Scientific Workflows , 2010, 2010 IEEE 3rd International Conference on Cloud Computing.

[15]  Jianfeng Tang,et al.  The NoSQL Principles and Basic Application of Cassandra Model , 2012, 2012 International Conference on Computer Science and Service System.

[16]  Cristian Bucur,et al.  A comparison between several NoSQL databases with comments and notes , 2011, 2011 RoEduNet International Conference 10th Edition: Networking in Education and Research.

[17]  Sanjay Ghemawat,et al.  MapReduce: a flexible data processing tool , 2010, CACM.

[18]  Dennis Gannon,et al.  Workflows for e-Science, Scientific Workflows for Grids , 2014 .

[19]  Marta Mattoso,et al.  A Provenance-based Adaptive Scheduling Heuristic for Parallel Scientific Workflows in Clouds , 2012, Journal of Grid Computing.

[20]  Alexandros Labrinidis,et al.  Challenges and Opportunities with Big Data , 2012, Proc. VLDB Endow..

[21]  Cláudio T. Silva,et al.  Provenance for Computational Tasks: A Survey , 2008, Computing in Science & Engineering.

[22]  Ami Marowka,et al.  The GRID: Blueprint for a New Computing Infrastructure , 2000, Parallel Distributed Comput. Pract..

[23]  Chris Rose,et al.  A Break in the Clouds: Towards a Cloud Definition , 2011 .