Optimisation de requêtes dynamiques pour l'analyse de la biodiversité

La quantite des donnees produites par de nombreux domaines augmente constamment et rend leur traitement de plus en plus difficile a gerer. Parmi ces domaines nous nous interessons a la biodiversite pour laquelle le GBIF (Global Biodiversity Information Facility) vise a federer et partager les donnees de biodiversite produites par de nombreux fournisseurs a l’echelle mondiale. Aujourd’hui, avec un nombre croissant d’utilisateurs caracterises par un comportement versatile et une frequence d’acces aux donnees tres aleatoire, les solutions actuelles n’ont pas ete concues pour s’adapter dynamiquement a ce type de situation. Par ailleurs, avec un nombre croissant de fournisseurs de donnees et d’utilisateurs qui interrogent sa base, le GBIF est confronte a un probleme d’efficacite difficile a resoudre. Nous visons, dans cet article, a resoudre les problemes de performances du GBIF. Dans cette perspective, nous proposons une approche d’optimisation de requete d’analyse de donnees de biodiversite qui s’adapte dynamiquement au contexte des environnements repartis a large echelle pour garantir la disponibilite des donnees. L’implementation de notre solution et les resultats des experiences sont satisfaisants pour la garantie de performance et du passage a l’echelle.

[1]  Christine Collet,et al.  UBIQUEST, for rapid prototyping of networking applications , 2012, IDEAS '12.

[2]  Tim Kraska,et al.  RTP: robust tenant placement for elastic in-memory database clusters , 2013, SIGMOD '13.

[3]  Ndiouma Bame,et al.  Architecture répartie à large échelle pour le traitement parallèle de requêtes de biodiversité , 2012 .

[4]  Ndiouma Bame,et al.  BigBio: Utiliser les techniques de gestion du Big data pour les données de la Biodiversité , 2014 .

[5]  Sanjay Ghemawat,et al.  MapReduce: Simplified Data Processing on Large Clusters , 2004, OSDI.

[6]  Martin L. Kersten,et al.  MonetDB: Two Decades of Research in Column-oriented Database Architectures , 2012, IEEE Data Eng. Bull..

[7]  Scott Shenker,et al.  Shark: SQL and rich analytics at scale , 2012, SIGMOD '13.

[8]  George C. Caragea,et al.  Orca: a modular query optimizer architecture for big data , 2014, SIGMOD Conference.

[9]  Wilson C. Hsieh,et al.  Bigtable: A Distributed Storage System for Structured Data , 2006, TOCS.

[10]  GhemawatSanjay,et al.  The Google file system , 2003 .

[11]  Zheng Shao,et al.  Hive - a petabyte scale data warehouse using Hadoop , 2010, 2010 IEEE 26th International Conference on Data Engineering (ICDE 2010).

[12]  Abraham Silberschatz,et al.  HadoopDB in action: building real world applications , 2010, SIGMOD Conference.

[13]  Michael J. Franklin,et al.  Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing , 2012, NSDI.

[14]  Hairong Kuang,et al.  The Hadoop Distributed File System , 2010, 2010 IEEE 26th Symposium on Mass Storage Systems and Technologies (MSST).

[15]  Abraham Silberschatz,et al.  Efficient processing of data warehousing queries in a split execution environment , 2011, SIGMOD '11.

[16]  Melnned M. Kantardzic Big Data Analytics , 2013, Lecture Notes in Computer Science.

[17]  Srikanth Kandula,et al.  Reoptimizing Data Parallel Computing , 2012, NSDI.

[18]  Hubert Naacke,et al.  Algorithmes de traitement de requêtes de biodiversité dans un environnement distribué , 2014, ARIMA J..