Aktuelles Schlagwort "Semi-strukturierte Daten"

Wie die meisten Forschungsgebiete der Informatik wurde die Datenbankforschung zuerst vorwiegend vom Paradigma einer zentralen Verwaltung gepragt. Diese Sicht wurde zunehmend in Frage gestellt. Der Ansatz der “Semi-strukturierten Daten” seit Mitte der 90er Jahre ist ein weiterer Schritt in diese Richtung. Ausgangspunkt war die Verwaltung von Inhalten im dezentralen WWW und die Datenmodellierungssprache XML [8]. In den Ansatz “Semi-strukturierte Daten” fuhrt das Buch [1] ein. Ein traditionelles Datenbanksystem setzt voraus, dass die gespeicherten Daten gemas einem im voraus festgelegten Datenschema strukturiert sind. Schemata erleichtern die Datenspeicherung und dienen der Anfrageauswertung. Im dezentral verwalteten WWW sind Schemata oft zu restriktiv. In vielen Bereichen wie in der Bioinformatik werden Daten in heterogenen Formaten zwischen Datenbanken oder sonstigen Anwendungen ausgetauscht, denen kein einheitliches Schema zu Grunde liegt, weswegen solche Daten zunachst “unstrukturiert” danach “semi-strukturiert” genannt wurden [4]. Oft haben zudem die Daten eine Struktur, die mit den flachen Tupeln des relationalen Datenmodells nur unzutreffend wiedergegeben werden kann. Auch das Objektmodell ist oft ungeeignet: Zwar kann man damit auch “tiefe” Strukturen reprasentieren, allerdings keine unregelmasige Strukturen mit fehlenden oder wiederholten Komponenten. Fehlt das Schema, so muss zudem die Bedeutung der Struktur in den Datensatzen selbst wiedergegeben werden. Man spricht von “strukturtragenden” oder von “selbsterklarenden” Daten.