Construction d'un large corpus écrit libre annoté morpho-syntaxiquement en français

Construction of a Free Large Part-of-Speech Annotated Corpus in French This paper studies the possibility of creating a new part-of-speech annotated corpus in French from an existing one. The objectives are to propose an exit from the restrictive licence of the source corpus and to obtain a perpetual modernisation of texts. Results show that it is possible to train a state-of-the-art POS-tagger from an automatically tagged corpus if this one is large enough. MOTS-CLES:corpus arbore, construction de corpus, etiquetage morpho-syntaxique.

[1]  Walt Detmar Meurers,et al.  Detecting Errors in Part-of-Speech Annotation , 2003, EACL.

[2]  Joakim Nivre,et al.  Benchmarking of Statistical Dependency Parsers for French , 2010, COLING.

[3]  Benoît Sagot,et al.  TCOF-POS : un corpus libre de français parlé annoté en morphosyntaxe (TCOF-POS : A Freely Available POS-Tagged Corpus of Spoken French) [in French] , 2012, JEP-TALN-RECITAL.

[4]  Benoît Sagot,et al.  SxPipe 2: architecture pour le traitement pré-syntaxique de corpus bruts , 2008 .

[5]  J. Veronis,et al.  Etiquetage grammatical multilingue : le projet MULTEXT , 1995 .

[6]  Marie Candito,et al.  Le corpus Sequoia : annotation syntaxique et exploitation pour l’adaptation d’analyseur par pont lexical (The Sequoia Corpus : Syntactic Annotation and Use for a Parser Lexical Domain Adaptation Method) [in French] , 2012, JEP/TALN/RECITAL.

[7]  Laurence Danlos,et al.  Vers le FDTB : French Discourse Tree Bank (Towards the FDTB : French Discourse Tree Bank) [in French] , 2012, JEP/TALN/RECITAL.

[8]  Seth Kulick,et al.  Fully Parsing the Penn Treebank , 2006, NAACL.

[9]  Eiríkur Rögnvaldsson,et al.  Developing a PoS-tagged corpus using existing tools , 2010 .

[10]  Marie Candito,et al.  Expériences d’analyse syntaxique statistique du français , 2008, JEPTALNRECITAL.

[11]  Christopher D. Manning,et al.  Multiword Expression Identification with Tree Substitution Grammars: A Parsing tour de force with French , 2011, EMNLP.

[12]  Pascal Denis,et al.  Statistical French Dependency Parsing: Treebank Conversion and First Results , 2010, LREC.

[13]  Benoît Sagot,et al.  Influence of Pre-Annotation on POS-Tagged Corpus Development , 2010, Linguistic Annotation Workshop.

[14]  Matthieu Constant,et al.  Intégrer des connaissances linguistiques dans un CRF : application à l'apprentissage d'un segmenteur-étiqueteu r du français , 2011 .

[15]  Dan Klein,et al.  Feature-Rich Part-of-Speech Tagging with a Cyclic Dependency Network , 2003, NAACL.

[16]  Benoît Sagot,et al.  Exploitation d’une ressource lexicale pour la construction d’un étiqueteur morpho-syntaxique état-de-l’art du français , 2010, JEPTALNRECITAL.

[17]  Benoît Sagot,et al.  Annotation référentielle du Corpus Arboré de Paris 7 en entités nommées (Referential named entity annotation of the Paris 7 French TreeBank) [in French] , 2012, JEP/TALN/RECITAL.

[18]  Alexis Nasr,et al.  MACAON : Une chaîne linguistique pour le traitement de graphes de mots , 2009 .

[19]  Helmut Schmidt,et al.  Probabilistic part-of-speech tagging using decision trees , 1994 .

[20]  Thomas Vogt,et al.  Reinventing Discovery: The New Era of Networked Science , 2012 .

[21]  Frank Keller,et al.  Lexicalization in Crosslinguistic Probabilistic Parsing: The Case of French , 2005, ACL.

[22]  Florian Boudin,et al.  Détection et correction automatique d'erreurs d'annotation morpho-syntaxique du French TreeBank (Detecting and Correcting POS Annotation in the French TreeBank) [in French] , 2012, JEP-TALN-RECITAL.

[23]  Laurent Romary,et al.  La FREEBANK : vers une base libre de corpus annotés , 2004, JEPTALNRECITAL.

[24]  Josef van Genabith,et al.  Preparing, restructuring, and augmenting a French treebank:lexicalised parsers or coherent treebanks? , 2007 .

[25]  Hrafn Loftsson,et al.  Correcting a POS-Tagged Corpus Using Three Complementary Methods , 2009, EACL.

[26]  James R. Curran,et al.  Bootstrapping POS-taggers using unlabelled data , 2003, CoNLL.

[27]  Philipp Koehn,et al.  Europarl: A Parallel Corpus for Statistical Machine Translation , 2005, MTSUMMIT.

[28]  Beatrice Santorini,et al.  Building a Large Annotated Corpus of English: The Penn Treebank , 1993, CL.

[29]  Un étiqueteur de rôles grammaticaux libre pour le français intégré à Apache UIMA , 2010, JEPTALNRECITAL.