Une approche de discrimination arabe / latin, imprimé / manuscrit
暂无分享,去创建一个
Cet article concerne le probleme de la reconnaissance de textes issus de documents multilingues et en particulier des documents contenant a la fois de l'arabe et du latin, imprime ou manuscrit. Nous proposons une methode d'identification a la fois du script, arabe ou latin, et de la nature du texte imprime ou manuscrit. Cette methode est basee sur l'extraction de caracteristiques morphologiques et geometriques en cherchant a exploiter les particularites de chacun des scripts. Contrairement aux methodes presentees dans la litterature qui, pour la plupart, ne traitent pas le cas de textes manuscrits, notre approche s'articule autour de trois niveaux d'analyse lui permettant de s'affranchir de la necessite de disposer d'un bloc de texte homogene et de taille consequente pour etre operationnelle. Cette analyse peut donc etre menee au niveau d'une masse connexe, d'une ligne ou encore d'un bloc de texte. La strategie en cours de mise en place consiste a etablir un schema d'interaction entre ces 3 niveaux, pilotee par un module d'analyse de documents. Les resultats preliminaires obtenus sur une base de 400 documents latins et arabes, imprimes et manuscrits sont presentes.