The communication costs involved in retrieving distributed data in SPARQL queries have a big impact on the system performance. In this paper, we define a parallel graph processing model that explores the existence of allocation patterns, which consist of information on how data has been distributed among servers. Based on this model, we define two types of communication schedules: get-frag and send-result. These strategies are of great interest to query optimizers for efficient query processing on distributed RDF stores. Resumo. Grande parte do custo envolvido no processamento distribuı́do de consultas SPARQL resulta do custo de comunicação para a obtenção dos dados envolvidos na consulta. Neste trabalho é definido um modelo de exploração de grafos paralelo para consultas SPARQL que considera a existência de padrões de distribuição de dados. A partir deste modelo, são definidos dois modelos de escalonamento de comunicação entre servidores: get-frag e send-result. Estes modelos poderão ser explorados futuramente por um otimizador para a execução eficiente de consultas sobre bases RDF distribuı́das.
[1]
Gerhard Weikum,et al.
The RDF-3X engine for scalable management of RDF data
,
2010,
The VLDB Journal.
[2]
Haixun Wang,et al.
A Distributed Graph Engine for Web Scale RDF Data
,
2013,
Proc. VLDB Endow..
[3]
Daniel J. Abadi,et al.
Scalable SPARQL querying of large RDF graphs
,
2011,
Proc. VLDB Endow..
[4]
Martin Theobald,et al.
TriAD: a distributed shared-nothing RDF engine based on asynchronous message passing
,
2014,
SIGMOD Conference.
[5]
Xiaoyong Du,et al.
Efficient SPARQL Query Evaluation via Automatic Data Partitioning
,
2013,
DASFAA.
[6]
Adina Crainiceanu,et al.
Rya: a scalable RDF triple store for the clouds
,
2012,
Cloud-I '12.
[7]
Marcelo Arenas,et al.
Semantics and Complexity of SPARQL
,
2006,
International Semantic Web Conference.
[8]
Julian R. Ullmann,et al.
An Algorithm for Subgraph Isomorphism
,
1976,
J. ACM.