论文信息 - Outils génériques pour l'étiquetage morphosyntaxique de la langue arabe : segmentation et corpus d'entraînement

Outils génériques pour l'étiquetage morphosyntaxique de la langue arabe : segmentation et corpus d'entraînement

L'objectif de ce travail est la realisation d'un nouvel outil pour l'etiquetage morphosyntaxique de la langue arabe. Apres avoir etudie les specificites de la langue arabe et confronte celles-ci avec les differentes approches de l'etiquetage, nous avons mis en oeuvre un systeme base sur l'etiqueteur stochastique TreeTagger, repute pour son efficacite et la genericite de son architecture. Pour ce faire, nous avons commence par la constitution de notre corpus de travail. Celui-ci nous a d'abord servi a realiser l'etape de segmentation lexicale. Dans un second temps, ce corpus a permis d'effectuer l'entrainement de TreeTagger, grâce a un premier etiquetage realise avec l'etiqueteur ASVM 1.0, suivi d'une phase de correction manuelle. Nous detaillons ainsi les pretraitements requis et les differentes etapes de la phase d'apprentissage avec cet outil. Nous terminons par une evaluation sommaire des resultats, a la fois qualitative et quantitative. Cette evaluation, bien que realisee sur un corpus de test de taille modeste, montre que nos premiers resultats sont encourageants.

Dhaou Ghoul

[1] S. Khoja,et al. APT: Arabic Part-of-speech Tagger , 2001 .

[2] Laurent Romary,et al. Une étude de cas pour l'étiquetage morpho-syntaxique de textes vietnamiens , 2003 .

[3] Ophir Frieder,et al. On arabic search: improving the retrieval effectiveness via a light stemming approach , 2002, CIKM '02.

[4] Eric Laporte,et al. Mots et niveau lexical , 2000 .

[5] Udo Kruschwitz,et al. Using Mechanical Turk to Create a Corpus of Arabic Summaries , 2010 .

[6] Mona T. Diab,et al. Second Generation AMIRA Tools for Arabic Processing : Fast and Robust Tokenization , POS tagging , and Base Phrase Chunking , 2009 .

[7] Nizar Habash,et al. Arabic Tokenization, Part-of-Speech Tagging and Morphological Disambiguation in One Fell Swoop , 2005, ACL.

[8] Alexander M. Fraser,et al. Empirical studies in strategies for Arabic retrieval , 2002, SIGIR '02.

[9] Eric Brill,et al. Tagging an Unfamiliar Text With Minimal Human Supervision , 1992 .

[10] Mélanie Thibeault. La catégorisation grammaticale automatique : adaptation du catégoriseur de Brill au français et modification de l'approche , 2004 .

[11] George Anton Kiraz. Analysis of the Arabic Broken Plural and Diminutive , 1995, ArXiv.

[12] Daniel Jurafsky,et al. Automatic Tagging of Arabic Text: From Raw Text to Base Phrase Chunks , 2004, NAACL.