论文信息 - Master-detail clustering using merged indexes

Master-detail clustering using merged indexes

AbstractMerged indexes are B-trees that contain multiple traditional indexes and interleave their records based on a common sort order. In relational databases, merged indexes implement ‘‘master-detail clustering’’ of related records, e.g., orders and order details. Thus, merged indexes shift de-normalization from the logical level of tables and rows to the physical level of indexes and records, which is a much more appropriate place for it. For object-oriented applications, clustering can reduce the I/O cost for joining rows in related tables to a fraction compared to traditional indexes, with additional beneficial effects on buffer pool requirements. Prior research has covered merged indexes without providing much guidance for their implementation. Enabling the design proposed here is a strict separation of B-tree and index into two layers of abstraction. In addition, this paper provides algorithms (i) for data layout including bitmap indexes and column stores, (ii) for concurrency control and recovery including locking of individual keys and of complex objects, (iii) for update operations including bulk insertions, bulk deletions, and deferred index maintenance, (iv) for adding and removing individual indexes within a merged index, (v) for enforcement of relational integrity constraints from uniqueness constraints to foreign key constraints, and (vi) for query processing including caching in query execution plans dominated by nested iteration and index navigation. In the proposed design for merged indexes, the set of tables, views, and indexes can evolve without restriction. The set of clustering columns can also evolve freely. A relational query processor can search and update index records just as in traditional indexes. With these abilities, the proposed design may finally bring general master-detail clustering to traditional databases together with its advantages in performance and cost. ZusammenfassungMerged Indexes (eine Art physischer Sammelindex) sind spezielle B-Bäume, die mehrere herkömmliche Indexe vereinigen und ihre Einträge in einer gemeinsamen Sortierreihenfolge speichern. In relationalen Datenbanken implementieren Merged Indexes eine ,,hierarchische Clusterbildung‘‘ (master-detail clustering) zusammengehöriger Sätze, beispielsweise von Bestellungen und Bestellposten. Damit verlagern Merged Indexes die Denormalisierung von der logischen Ebene der Tabellen und Zeilen auf die physische Ebene der Indexe und Sätze, was eine viel besser geeignete Stelle dafür ist. Im Vergleich zum Einsatz herkömmlicher Indexe können bei objektorientierten Anwendungen durch Clusterbildung die E/A-Kosten für den Verbund in Beziehung stehender Tabellen auf einen Bruchteil gesenkt werden, wobei zusätzlich Spareffekte bei der Puffernutzung erzielt werden. In früheren Publikationen werden Merged Indexes ohne spezielle Hinweise zu ihrer Implementierung erwähnt. Unsere Vorgehensweise bei ihrer Realisierung sieht eine strikte Trennung von B-Baum und Index in zwei Abstraktionsebenen vor. Zusätzlich liefert unser Beitrag Algorithmen (i) für die Datenabbildung einschließlich der Bitlisten-Indexe und der spaltenorientierten Speicherung, (ii) für Mehrbenutzersynchronisation und Recovery einschließlich spezieller Sperren für einzelne Schlüsselwerte und komplexe Objekte, (iii) für Aktualisierungsoperationen einschließlich Einfügungen und Löschungen großer Datenmengen, (iv) für das Hinzufügen und Entfernen einzelner Indexe innerhalb eines Merged Index, (v) zur Kontrolle relationaler Integritätsbedingungen wie Unique- und Fremdschlüsselbedingungen und (vi) für die Anfrageverarbeitung einschließlich Caching-Vorkehrungen bei Anfrageausführungsplänen mit hohem Anteil an geschachtelter Iteration und Index-Navigation. In unserem Entwurf für Merged Indexes kann die Menge der beteiligten Tabellen, Sichten und Indexe unbeschränkt erweitert werden. Auch die Menge der Attribute (Spalten) mit Clusterbildung unterliegt keinen Beschränkungen. Ein relationaler Anfrageprozessor kann Indexeinträge genauso wie in herkömmlichen Indexen suchen und modifizieren. Diese Eigenschaften unseres Entwurfs ermöglichen es schließlich, das Konzept der allgemeinen hierarchischen Clusterbildung in herkömmliche Datenbanken zu integrieren und dabei ihre Vorteile hinsichtlich Leistung und Kosten zu erhalten.

Goetz Graefe

[1] Goetz Graefe. Algorithms for merged indexes , 2007, BTW.

[2] Stefano Stefani,et al. Query processing for SQL updates , 2004, SIGMOD '04.

[3] Goetz Graefe,et al. Microsoft SQL Server (Chapter 27) , 2001, Database System Concepts, 4th Edition..

[4] Andreas Reuter,et al. Principles of transaction-oriented database recovery , 1983, CSUR.

[5] David B. Lomet,et al. Key Range Locking Strategies for Improved Concurrency , 1993, VLDB.

[6] Paul R. Mcjones. The 1995 SQL Reunion: People, Project, and Politics, May 29, 1995 , 1997, Digital System Research Center Report.

[7] Goetz Graefe,et al. Multi-table joins through bitmapped join indices , 1995, SGMD.

[8] James R. Hamilton,et al. An Architecture for Modular Data Centers , 2006, CIDR.

[9] Patrick E. O'Neil,et al. The Escrow transactional method , 1986, TODS.

[10] C. Mohan,et al. ARIES/KVL: A Key-Value Locking Method for Concurrency Control of Multiaction Transactions Operating on B-Tree Indexes , 1990, VLDB.

[11] LometDavid. The evolution of effective B-tree , 2001 .