Chunker différents types de discours oraux : défis pour l’apprentissage automatique (Chunking different spoken speech types : challenges for machine learning)

Le travail decrit le developpement d'un chunker pour l'oral par apprentissage supervise avec les CRFs, a partir d'un corpus de reference de petite taille et compose de productions de nature differente : monologue prepare vs discussion spontanee. La methodologie respecte les specificites des donnees traitees. L'apprentissage tient compte des resultats proposes par differents etiqueteurs morpho-syntaxiques disponibles sans correction manuelle de leurs resultats. Les experiences montrent que le genre de discours (monologue vs discussion), la nature de discours (spontane vs prepare) et la taille du corpus peuvent influencer les resultats de l'apprentissage, ce qui confirme que la nature des donnees traitees est a prendre en consideration dans l'interpretation des resultats.

[1]  Andrew McCallum,et al.  Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data , 2001, ICML.

[2]  Groupe de Fribourg Grammaire de la période , 2012 .

[3]  Helmut Schmidt,et al.  Probabilistic part-of-speech tagging using decision trees , 1994 .

[4]  George Christodoulides,et al.  DisMo: A Morphosyntactic, Disfluency and Multi-Word Unit Annotator. An Evaluation on a Corpus of French Spontaneous and Read Speech , 2014, LREC.

[5]  Dan Roth,et al.  Design Challenges and Misconceptions in Named Entity Recognition , 2009, CoNLL.

[6]  Benoît Sagot,et al.  The Lefff, a Freely Available and Large-coverage Morphological and Syntactic Lexicon for French , 2010, LREC.

[7]  Benoît Sagot,et al.  TCOF-POS : un corpus libre de français parlé annoté en morphosyntaxe (TCOF-POS : A Freely Available POS-Tagged Corpus of Spoken French) [in French] , 2012, JEP-TALN-RECITAL.

[8]  Sophia Ananiadou,et al.  Fast Full Parsing by Linear-Chain Conditional Random Fields , 2009, EACL.

[9]  Steven Abney,et al.  Parsing By Chunks , 1991 .

[10]  Patrick Watrin,et al.  Partial Parsing of Spontaneous Spoken French , 2010, LREC.

[11]  Jacob Cohen A Coefficient of Agreement for Nominal Scales , 1960 .

[12]  C. Blanche-Benveniste,et al.  Le français parlé : études grammaticales , 1990 .

[13]  C. Blanche-Benveniste Approches de la langue parlée en français , 2000 .

[14]  Paul Boersma,et al.  Speak and unSpeak with P RAATRAAT , 2002 .