Outils génériques pour l'étiquetage morphosyntaxique de la langue arabe : segmentation et corpus d'entraînement

L'objectif de ce travail est la realisation d'un nouvel outil pour l'etiquetage morphosyntaxique de la langue arabe. Apres avoir etudie les specificites de la langue arabe et confronte celles-ci avec les differentes approches de l'etiquetage, nous avons mis en oeuvre un systeme base sur l'etiqueteur stochastique TreeTagger, repute pour son efficacite et la genericite de son architecture. Pour ce faire, nous avons commence par la constitution de notre corpus de travail. Celui-ci nous a d'abord servi a realiser l'etape de segmentation lexicale. Dans un second temps, ce corpus a permis d'effectuer l'entrainement de TreeTagger, grâce a un premier etiquetage realise avec l'etiqueteur ASVM 1.0, suivi d'une phase de correction manuelle. Nous detaillons ainsi les pretraitements requis et les differentes etapes de la phase d'apprentissage avec cet outil. Nous terminons par une evaluation sommaire des resultats, a la fois qualitative et quantitative. Cette evaluation, bien que realisee sur un corpus de test de taille modeste, montre que nos premiers resultats sont encourageants.