Constitution d'un corpus de la langue Arabe à partir du Web

La toile est une source intarissable de donnees textuelles. Ces dernieres annees la communaute travaillant sur les differents aspects de la langue s'est tournee vers le web afin de beneficier de cette masse impressionnante d'informations. Cet article decrit un outil de construction de corpus pour l'Arabe. Il permet de recueillir automatiquement une liste de sites dedies a la langue Arabe. Ensuite le contenu de ces sites est extrait et est normalise. Le corpus ainsi constitue peut etre utilise dans diverses applications de traitement du langage naturel et plus particulierement dans le calcul de modeles de langage statistiques.