Content-Aware DataGuides for Indexing Semi-Structured Data

This work presents the Content-Aware DataGuide (CADG), a new index for tree-shaped SemiStructured Data. Based on the well-known DataGuide index, its major contribution is the simultaneous use of both structural and textual query criteria during several phases of the retrieval process. Two new pruning techniques for content-aware path matching are presented – one based on index node IDs and the other on a novel use of heuristic keyword signatures – which narrow down the search space at evaluation time considerably. This not only avoids needless index navigation, but also some expensive disk operations. Furthermore, content-aware occurrence fetching substantially enhances database look-ups. The new index structure is tested extensively with different sets of both manually and automatically generated queries on a variety of document collections, including data from the XML Benchmark Project. Three variations of the CADG are compared to each other and to the original DataGuide. Further techniques for retrieval optimization are tested with all index structures. A generic query classification scheme is presented which allows for a systematic comparison and analysis of the performance results (which are also appended for further examination). The experiments prove that the CADG is superior to the DataGuide in virtually all cases, often with a performance gain of 50% and more. Moreover, the new approach scales well to large document collections. Zusammenfassung Mit dem Content-Aware DataGuide (CADG) präsentiert die vorliegende Arbeit einen neuartigen Index für semistrukturierte Baumdatenbanken. Eine wesentliche Neuerung gegenüber dem bekannten DataGuide-Index, auf dem der CADG basiert, besteht in der kombinierten Auswertung von strukturellen und textuellen Anfragekriterien, d. h. von Suchpfaden und Suchwörtern, in verschiedenen Phasen des Auswertungsprozesses. Es werden zwei neue Verfahren zur suchwortabhängigen Navigation (content-aware navigation) im Index vorgestellt, mit deren Hilfe der Suchraum zur Auswertungszeit z. T. erheblich verkleinert werden kann: ein exaktes, auf Knotenbezeichnern basierendes Verfahren sowie ein zweites, das heuristische Suchwortsignaturen auf neue Weise einsetzt. Beide vermeiden nicht nur überflüssige Pfadvergleiche im Index, sondern auch teuere Datenbankzugriffe. Die Integration der strukturellen und textuellen Teile einer Anfrage ermöglicht es dem CADG darüber hinaus, effizientere Anfragen an die darunterliegende Datenbank zu stellen (content-aware occurrence fetching). Die neue Indexstruktur ist ausgiebigen Tests unterzogen worden, bei denen große Mengen sowohl händisch als auch automatisch erzeugter Anfragen an verschiedene Baumdatenbanken gestellt werden, etwa aus dem XML Benchmark Project. Hierbei sind drei Varianten des CADG untereinander und mit dem ursprünglichen DataGuide verglichen worden. Alle Indexstrukturen sind außerdem in Kombination mit weiteren Optimierungen getestet worden. Mit Hilfe eines neuen generischen Modells zur Anfrageklassifizierung werden die Testergebnisse systematisch verglichen und ausgewertet. (Sie sind zur weiteren Analyse dem Text beigefügt.) Die Experimente belegen, daß der CADG dem herkömmlichen DataGuide in so gut wie allen Fällen überlegen ist, häufig um 50% oder mehr. Zudem ist der neue Ansatz skalierbar, d. h. auch für große Dokumentsammlungen geeignet.

[1]  Ricardo A. Baeza-Yates,et al.  Proximal nodes: a model to query document databases by content and structure , 1997, TOIS.

[2]  Beng Chin Ooi,et al.  XStorM: A Scalable Storage Mapping Scheme for XML Data , 2004, World Wide Web.

[3]  Dan Suciu,et al.  An overview of semistructured data , 1998, SIGA.

[4]  Holger Meuss Logical tree matching with complete answer aggregates for retrieving structured documents , 2000 .

[5]  Dongwook Shin XML Indexing and Retrieval with a Hybrid Storage Model , 2001, Knowledge and Information Systems.

[6]  Menzo Windhouwer,et al.  Efficient Relational Storage and Retrieval of XML Documents , 2000, WebDB.

[7]  Holger Meuss Indexed Tree Matching with Complete Answer Representations , 1998, PODDP.

[8]  Juergen Oesterle,et al.  Toe GNoP (German noun phrase) treebank , 1998 .

[9]  Michael J. Franklin,et al.  Managing complex and varied data with the IndexFabric/sup TM/ , 2002, Proceedings 18th International Conference on Data Engineering.

[10]  Masatoshi Yoshikawa,et al.  Storage and Retrieval of XML Documents Using Object-Relational Databases , 1999, DEXA.

[11]  Jennifer Widom,et al.  Object exchange across heterogeneous information sources , 1995, Proceedings of the Eleventh International Conference on Data Engineering.

[12]  Klaus U. Schulz,et al.  Complete answer aggregates for treelike databases: a novel approach to combine querying and navigation , 2001, TOIS.

[13]  Ioana Manolescu,et al.  Agora: Living with XML and Relational , 2000, VLDB.

[14]  Dongwook Shin,et al.  BUS: an effective indexing and retrieval scheme in structured documents , 1998, DL '98.

[15]  Donald R. Morrison,et al.  PATRICIA—Practical Algorithm To Retrieve Information Coded in Alphanumeric , 1968, J. ACM.

[16]  Holger Meuss,et al.  Improving Index Structures for Structured Document Retrieval , 1999, BCS-IRSG Annual Colloquium on IR Research.

[17]  Felix Weigel A Survey of Indexing Techniques for Semistructured Documents, Institute of Computer Science, LMU, Mu , 2002 .

[18]  Dan Suciu,et al.  Index Structures for Path Expressions , 1999, ICDT.

[19]  Roy Goldman,et al.  Lore: a database management system for semistructured data , 1997, SGMD.