Audit d'une base de documents étiquetée

Dans cet article, deja presente a ICDAR 2015, nous nous interessons a l’etiquetage d’une base d’images de documents dans un contexte industriel. Nous travaillons plus particu- lierement sur l’evaluation de la qualite d’un etiquetage preexistant. Dans la plupart des cas pratiques, un operateur etiquette manuellement une base d’images de documents en parcourant sequentiellement les vignettes correspondant aux images. Cette tâche est tres repetitive ; de plus le plan de classement definissant les noms et le nombre des classes est souvent incomplet, ce qui conduit a de nombreuses erreurs d’etiquetage. La question est alors d’evaluer si la qualite d’un lot etiquete est suffisante pour qu’il soit accepte. Notre objectif est de faciliter et d’accelerer cette evaluation qui prend en pratique plus de 1, 5 fois le temps necessaire a l’etiquetage lui-meme. Nous proposons un outil interactif pour visualiser les donnees sous la forme d’un graphe. Ce graphe met en evidence les similarites entre documents ainsi que la qualite de l’etiquetage. Nous definissons des criteres sur le graphe qui caracterisent les trois types d’erreur qu’un operateur peut faire : une image est mal etiquetee, une classe devrait etre decoupee en sous-classes plus pertinentes, plusieurs classes devraient etre fusionnees en une seule. Ceci nous permet de focali- ser l’attention de l’utilisateur sur de potentielles erreurs. Il peut alors plus facilement compter les erreurs d’etiquetage et valider (ou pas) une qualite d’etiquetage conforme aux attentes.

[1]  Ben Shneiderman,et al.  The eyes have it: a task by data type taxonomy for information visualizations , 1996, Proceedings 1996 IEEE Symposium on Visual Languages.

[2]  Denyse Baillargeon,et al.  Bibliographie , 1929 .

[3]  Anton J. Enright,et al.  An efficient algorithm for large-scale detection of protein families. , 2002, Nucleic acids research.

[4]  Guy Melançon,et al.  Tulip : a scalable graph visualization framework , 2010, EGC.

[5]  Kristin A. Cook,et al.  Illuminating the Path: The Research and Development Agenda for Visual Analytics , 2005 .

[6]  Colin Ware,et al.  Information Visualization: Perception for Design , 2000 .

[7]  Peter J. Stuckey,et al.  Fast Node Overlap Removal , 2005, GD.

[8]  Edward M. Reingold,et al.  Graph drawing by force‐directed placement , 1991, Softw. Pract. Exp..

[9]  Marcel Worring,et al.  A multimedia analytics framework for browsing image collections in digital forensics , 2012, ACM Multimedia.

[10]  Jean-Philippe Domenger,et al.  Document Images Indexing with Relevance Feedback: An Application to Industrial Context , 2011, 2011 International Conference on Document Analysis and Recognition.

[11]  Michael Jünger,et al.  Drawing Large Graphs with a Potential-Field-Based Multilevel Algorithm , 2004, GD.

[12]  Nicholas Journet,et al.  Visual graph analysis for quality assessment of manually labelled documents image database , 2015, 2015 13th International Conference on Document Analysis and Recognition (ICDAR).

[13]  Emden R. Gansner,et al.  Using automatic clustering to produce high-level system organizations of source code , 1998, Proceedings. 6th International Workshop on Program Comprehension. IWPC'98 (Cat. No.98TB100242).

[14]  Gerald Schaefer,et al.  Visualisation and Browsing of Image Databases , 2011, Multimedia Analysis, Processing and Communications.