论文信息 - Text Block Recognition in Multi-Oriented Handwritten Documents

Text Block Recognition in Multi-Oriented Handwritten Documents

Die automatische Erkennung von Textblocken auf digitalisierten Dokumenten ist haufig eine Voraussetzung fur die Anwendung von Zeichenerkennungs- oder "Word-spotting"-Methoden. Unser Ansatz erkennt Textblocke mittels Gabor Transformation auf historischen handschriftlichen Dokumenten. Haufig findet man neben einem Haupttextblock Randtexte, deren Textgrose, Orientierung und Abmessungen deutlich variieren. Um auch solche Randtexte erfassen zu konnen, werden von unserer Methode keine Vorannahmen bezuglich Textblockanzahl, Position, Textgrose, Textblockgrose oder Form gemacht. Einzige Voraussetzungen sind ein Mindestumfang von drei Zeilen bei annahernd gleichartigem Abstand und Orientierung. Gute Resultate wurden auf 40 der zur Auswertung benutzten Dokumente erzielt. Diese stammen aus unterschiedlichen Quellen mit verschiedenem Layout in europaischen und asiatischen Schreibsystemen. Automatic detection of text blocks is an important step before applying OCR or word-spotting techniques to document images. Our approach focusses on handwritten (historical) documents and uses the Gabor Transformation to facilitate this task. Apart from the main text, which often consists of rectangular shaped text blocks, marginalia are of special interest here. These areas are generally unconstrained regarding size, dimensions or orientation. Our system detects text blocks of at least three lines, representing a moderately homogeneous region regarding orientation and distances of text lines. Experiments on 40 documents, written in different european and asian writing systems, show good results, depending on the complexity of the layout.

Bernd Neumann | Arved Solth | Rainer Herzog