Reconnaissance structurelle de documents imprimés : études et réalisations

aCette these concerne la reconnaissance de la structure de documents imprimes. En lecture optique, il ne suffit pas d'identifier les caracteres qui forment le contenu d'un document pour bien le reconnaitre. Il est indispensable de reconnaitre egalement sa structure (physique et logique) si l'on veut conserver une information optimale sur le document. Ainsi, un document pour lequel on a reconnu la structure, au meme titre que le contenu, pourra aisement etre restitue sous un format proche de celui d'origine. il pourra egalement etre archive, consulte, mis a jour, transfere, etc. Cette these est organisee en quatre parties principales. Dans la premiere partie, nous etudions l'interet des normes internationales pour la structuration. Ces normes ayant ete concues pour la production, nous etudions leurs apports pour la lecture optique et definissons un langage de modelisation. La deuxieme partie concerne la reconnaissance de la structure de haut niveau (macro-structure). Cette reconnaissance est illustree a travers une classe de documents de type "articles scientifiques". Il s'agit ici de reconnaitre des entites de type paragraphe, titre, figure, resume, etc. Le modele joue un role moteur car il guide la strategie en fournissant les differents choix de decomposition. Le choix de la "meilleure hypothese" est base sur un calcul de score qui s'inspire de la notion physique d'entropie. La reconnaissance de la structure de bas niveau (micro-structure) est traitee dans la troisieme partie, a travers l'exemple des notices bibliographiques issues de catalogues de la Bibliotheque Nationale. Il s'agit ici de reconnaitre la structuration dans une architecture de type paragraphe. Nous avons opte pour une strategie differente basee sur une extraction d'indices pertinents de l'image, suivie d'une propagation de contraintes syntaxiques sur la chaine des mots. Une analyse ascendante/descendante permet de reconstituer l'arbre structurel a partir d'elements fiables appeles "ilots de confiance". La derniere partie concerne l'implementation d'une plate-forme de recherche pour la reconnaissance structurelle. Cette plate-forme, appelee GRAPHEIN possede une architecture multi-agents, basee sur le modele du blackboard. Le controle est hierarchise afin de permettre une strategie de focalisation adaptable en fonction des connaissances tirees du modele et de l'image. Suivant l'etat de ces connaissances, le systeme adopte une strategie descendante (guidee par le modele), ascendante (guidee par les donnees) ou mixte. Le blackboard est structure en niveaux permettant de representer la structure specifique du document analyse.