DynaClose : Une approche de data mining pour la sélection des index de jointure binaires dans les entrepôts de données

Résumé. L’indexation est l’une des techniques d'optimisation redondantes qui accélère les requêtes OLAP. Deux types d’index sont disponibles : les mono-index (B-tree, index binaire, projection, etc.) et les multi-index (index de jointure). Pour un entrepôt représenté par un schéma en étoile, les index de jointure binaires sont souvent utilisés pour accélérer les requêtes de jointure en étoile connues pour leur nombre important d’opérations de jointure. La sélection des index de jointure binaires est un problème difficile vu le nombre important des attributs candidats participant à la construction des index. Pour surmonter cette difficulté, nous proposons la démarche suivante : (1) nous adaptons d’abord un algorithme de fouille de données, appelé, Close qui permet de générer un ensemble d’itemsets fermés fréquents qui représentent les attributs candidats pour le processus de sélection des index. (2) Une fois les attributs candidats générés, nous proposons un algorithme itératif qui sélectionne un ensemble d’index de jointure binaires en prenant en compte l’ensemble des attributs candidats. Ces index doivent minimiser le coût d’exécution d’un ensemble de requêtes fréquentes et respecter une contrainte de stockage. Finalement, notre approche est validée par une étude expérimentale en la comparant avec les solutions existantes.

[1]  Gerd Stumme,et al.  Mining frequent patterns with counting inference , 2000, SKDD.

[2]  Surajit Chaudhuri,et al.  An Efficient Cost-Driven Index Selection Tool for Microsoft SQL Server , 1997, VLDB.

[3]  Omar Boussaïd,et al.  Automatic Selection of Bitmap Join Indexes in Data Warehouses , 2005, DaWaK.

[4]  Yves Bastide,et al.  Intelligent Structuring and Reducing of Association Rules with Formal Concept Analysis , 2001, KI/ÖGAI.

[5]  Yishai A. Feldman,et al.  A knowledge-based approach for index selection in relational databases , 2003, Expert Syst. Appl..

[6]  Jeffrey D. Ullman,et al.  Selection and maintenance of views in a data warehouse , 1999 .

[7]  Chun Zhang,et al.  Automating physical database design in a parallel database , 2002, SIGMOD '02.

[8]  Henk M. Blanken,et al.  On the Selection of Secondary Indices in Relational Databases , 1993, Data Knowl. Eng..

[9]  Gerd Stumme,et al.  PASCAL : un algorithme d extraction des motifs fréquents , 2002, Tech. Sci. Informatiques.

[10]  Ben Taskar,et al.  Selectivity estimation using probabilistic models , 2001, SIGMOD '01.

[11]  Surajit Chaudhuri,et al.  Index selection for databases: a hardness study and a principled heuristic solution , 2004, IEEE Transactions on Knowledge and Data Engineering.

[12]  Ramakrishnan Srikant,et al.  Fast Algorithms for Mining Association Rules in Large Databases , 1994, VLDB.

[13]  Taflan İmre Gündem,et al.  Near optimal multiple choice index selection for relational databases , 1999 .

[14]  Ettore Saltarelli,et al.  View Materialization vs. Indexing: Balancing Space Constraints in Data Warehouse Design , 2003, CAiSE.

[15]  Raghu Ramakrishnan,et al.  Database Management Systems , 1976 .

[16]  Qing Li,et al.  Evaluation of Materialized View Indexing in Data Warehousing Environments , 2000, DaWaK.

[17]  Patrick E. O'Neil,et al.  Improved query performance with variant indexes , 1997, SIGMOD '97.

[18]  Vivek R. Narasayya,et al.  Integrating vertical and horizontal partitioning into automated physical database design , 2004, SIGMOD '04.

[19]  Patrick Valduriez,et al.  Join and Semijoin Algorithms for a Multiprocessor Database Machine , 1984, TODS.

[20]  Qing Li,et al.  Cost-driven vertical class partitioning for methods in object oriented databases , 2003, The VLDB Journal.

[21]  Theodore Johnson,et al.  Performance Measurements of Compressed Bitmap Indices , 1999, VLDB.

[22]  Ladjel Bellatreche Utilisation des vues materialisees, des index et de la fragmentation dans la conception logique et physique d'un entrepot de donnees , 2000 .