Interprétation interactive de documents structurés : application à la rétroconversion de plans d'architecture manuscrits. (Interactive interpretation of structured documents: application to the retro-conversion of handwritten architectural plans)
暂无分享,去创建一个
Cette these entre dans le cadre de projet ANR-Mobisketch (http://mobisketch.irisa.fr/). Ce projet vise a elaborer une solution logicielle generique orientee stylo pour la realisation de documents techniques : schemas, plans... L'objectif est d'aboutir a un continuum entre un document technique sous sa forme papier et ce meme document sous sa forme numerique interpretee. Ce continuum necessite deux analyseurs coherents : un pour la phase de reconnaissance et un autre pour la composition/edition. Nous nous sommes interesses dans cette these a l'analyseur pour la reconnaissance de documents. Le but de nos travaux etait d'elaborer une approche interactive, generique et incrementale. L'originalite de notre methode de reconnaissance, nommee IMISketch, est la sollicitation de l'utilisateur durant la phase d'analyse. En effet, le processus d'analyse est capable de solliciter l'utilisateur s'il rencontre des cas d'ambiguites. Deux cas d'ambiguite peuvent se presenter : l'ambiguite structurelle et l'ambiguite de forme. L'ambiguite structurelle est levee par le systeme d'analyse quand il hesite entre deux segmentations differentes pour interpreter un symbole. Par exemple, dans un plan d'architecture, une ambiguite structurelle peut etre levee pour trouver la bonne segmentation des primitives entre un mur et un ouvrant (porte, fenetre, etc.). L'ambiguite de forme est levee s'il existe plusieurs hypotheses concurrentes pour etiqueter un symbole, par exemple une ambiguite entre une porte et une fenetre. L'integration de l'utilisateur dans la boucle de reconnaissance evite une correction a posteriori fastidieuse des erreurs de reconnaissance tout en permettant d'avoir un systeme auto-evolutif au fur et a mesure de l'analyse. Le processus de reconnaissance est base sur une separation de l'analyseur et des connaissances liees au type de document a reconnaitre. Les connaissances structurelles a priori du document sont exprimees a travers un langage visuel grammatical base sur l'ecriture de regles de production. L'application de chaque regle est quantifiee par l'attribution d'un score a chaque hypothese sous tendue par une branche de l'arbre d'analyse. La description grammaticale ainsi produite permet de piloter l'analyseur. Notre analyseur a base de regles est capable de mettre en concurrence des hypotheses possibles d'interpretation, afin de solliciter l'utilisateur lorsque c'est necessaire. De plus, afin de limiter la combinatoire, l'analyseur se base sur un contexte local de recherche. Nous avons egalement mis en place un processus d'exploration hybride original, guide par la description grammaticale, qui permet d'accelerer localement l'analyse tout en limitant le risque de realiser une fausse interpretation. Notre methode interactive a ete validee sur les plans d'architecture dessines a main levee. Ces plans sont composes de murs, de trois types d'ouvrants et d'une dizaine de classes de mobilier. Ces travaux montrent que la sollicitation de l'utilisateur permet d'ameliorer la qualite de reconnaissance des documents.