Détection et correction automatique d'erreurs d'annotation morpho-syntaxique du French TreeBank (Detecting and Correcting POS Annotation in the French TreeBank) [in French]

La qualite de l'annotation morpho-syntaxique d'un corpus est determinante pour l'entrainement et l'evaluation de methodes d'etiquetage. Cet article presente une serie d'experiences que nous avons menee sur la detection et la correction automatique des erreurs du French Treebank. Deux methodes sont utilisees. La premiere consiste a identifier les mots sans etiquette et leur attribuer celle d'une forme correspondante observee dans le corpus. La seconde methode utilise les variations de n-gramme pour detecter et corriger les anomalies d'annotation. L'evaluation des corrections apportees au corpus est realisee de maniere extrinseque en comparant les scores de performance de differentes methodes d'etiquetage morpho-syntaxique en fonction du niveau de correction. Les resultats montrent une amelioration significative de la precision et indiquent que la qualite du corpus peut etre sensiblement amelioree par l'application de methodes de correction automatique des erreurs d'annotation.

[1]  Dan Klein,et al.  Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency Network , 2003, NAACL.

[2]  Walt Detmar Meurers,et al.  Detecting Errors in Part-of-Speech Annotation , 2003, EACL.

[3]  Benoît Sagot,et al.  Exploitation d’une ressource lexicale pour la construction d’un étiqueteur morpho-syntaxique état-de-l’art du français , 2010, JEPTALNRECITAL.

[4]  Karel Oliva,et al.  (Semi-)Automatic Detection of Errors in PoS-Tagged Corpora , 2002, COLING.

[5]  Christopher D. Manning Part-of-Speech Tagging from 97% to 100%: Is It Time for Some Linguistics? , 2011, CICLing.

[6]  Marie Candito,et al.  Expériences d’analyse syntaxique statistique du français , 2008, JEPTALNRECITAL.

[7]  Christopher D. Manning,et al.  Multiword Expression Identification with Tree Substitution Grammars: A Parsing tour de force with French , 2011, EMNLP.

[8]  Matthieu Constant,et al.  Intégrer des connaissances linguistiques dans un CRF : application à l'apprentissage d'un segmenteur-étiqueteu r du français , 2011 .

[9]  Hrafn Loftsson,et al.  Correcting a POS-Tagged Corpus Using Three Complementary Methods , 2009, EACL.

[10]  P. Resnik Treebanks : Building and Using Parsed Corpora , 2022 .

[11]  Alexandra Kinyon,et al.  Building a Treebank for French , 2000, LREC.

[12]  Frank Keller,et al.  Lexicalization in Crosslinguistic Probabilistic Parsing: The Case of French , 2005, ACL.

[13]  Beatrice Santorini,et al.  Building a Large Annotated Corpus of English: The Penn Treebank , 1993, CL.

[14]  Yuji Matsumoto,et al.  Detecting Errors in Corpora Using Support Vector Machines , 2002, COLING.