Ein Ansatz zur Modellierung und Analyse von Dokumenten durch ein Zerschneidungsverfahren für das Layout

Die Verfahren der Dokumentanalyse versuchen, den Informationsgehalt eines Papierdokumentes rechnergestutzt zu erfassen und es in ein elektronisches Dokument umzuwandeln. Die elektronische Reprasentation mus nicht nur den Inhalt, sondern auch die Logik- und Layoutstruktur des Dokumentes enthalten. Das fur die Analyse wichtige Dokumentmodell und die Reprasentation der Ergebnisse der Dokumentanalyse basieren auf Konzepten, deren Rahmen durch die Standards fur Burodokument-Architekturen gegeben ist. Die Resultate der Vorverarbeitung des abgetasteten Dokumentes werden wie die Endergebnisse der Analyse durch objektorientierte Datenstrukturen beschrieben. Die Analyse wird durch ein hierarchisches Layoutmodell gesteuert. Dieses beschreibt das geometrische Erscheinungsbild einer Dokumentseite durch ihre rekursive Aufteilung in immer kleinere Bereiche. Das Layoutmodell enthalt auserdem Hypothesen fur die semantische Bedeutung von Briefteilen in Abhangigkeit von deren Lage. Die Analyse nutzt diese Hypothesen bei einer bewertungsgesteuerten Suche (best-first-search). Die Hypothesen fur die semantische Zuordnung der Blocke werden durch eine Wissensbasis verifiziert, wobei sie entweder bestatigt werden oder die Bildung neuer Hypothesen angeregt wird. Das System wurde fur die Analyse von vereinfachten Geschaftsbriefen implementiert und ist unempfindlich gegenuber Variationen und Storungen des Layouts.