Normalizing speech transcriptions for Natural Language Processing

Morphosyntactic tagging and syntactic parsing are key parts of Natural Language processing. Many systems now reach exploitable results for written French texts (Veronis, 2000; Clement, 2001), but there were rare attempts to automatically annotate spoken textual data (see though Mertens, 2002; Valli et Veronis, 1999). Indeed, existing software are inadequate to analyse texts transcribed from speech and face specific problems, all related to the nature of the data:

[1]  Steven Abney,et al.  Parsing By Chunks , 1991 .

[2]  Mark Cook The Incidence of Filled Pauses in Relation To Part of Speech , 1971, Language and speech.

[3]  J. Blankenship,et al.  Hesitation Phenomena in English Speech: A Study in Distribution , 1964 .

[4]  Max Silberztein,et al.  Dictionnaires électroniques et analyse automatique de textes : le système intex , 1993 .

[5]  Berthille Pallaud Les amorces de mots comme faits autonymiques en langage oral , 2002 .

[6]  Anne-Catherine Simon,et al.  Le rôle de la prosodie dans le repérage des unités textuelles minimales , 2002 .

[7]  Jean-Paul Bronckart,et al.  De la phrase aux énoncés : grammaire scolaire et descriptions linguistiques , 2000 .

[8]  Sébastien Paumier Unitex - Manuel d'utilisation , 2011 .

[9]  Lorenza Mondada,et al.  Modèles du discours en confrontation , 2000 .

[10]  Joakim Nivre,et al.  Tagging a Corpus of Spoken Swedish , 2001 .

[11]  Patrick Paroubek,et al.  A disfluency study for cleaning spontaneous speech automatic transcripts and improving speech language models , 2003, DiSS.

[12]  T. Greidanus Le Français parlé , 1994 .

[13]  Lorenza Mondada,et al.  Les effets théoriques des pratiques de transcription , 2000 .

[14]  Jean Véronis,et al.  Étiquetage grammatical des corpus de parole : problèmes et perspectives , 1999 .

[15]  Kathleen Callow,et al.  Discourse considerations in Translating the Word of God , 1974 .

[16]  A. Dittmann,et al.  Hesitation Pauses and Juncture Pauses in Speech , 1962 .

[17]  Nelleke Oostdijk Normalizations and Disfluencies in Spoken Language Data , 2003 .

[18]  A. Simon,et al.  Conventions de transcription régissant les corpus de la banque de données VALIBEL , 2007 .

[19]  W. Levelt,et al.  Speaking: From Intention to Articulation , 1990 .

[20]  M. Béguelin,et al.  Clause, période ou autre ? La phrase graphique et la question des niveaux d'analyse , 2002 .

[21]  Marie-Laure Guénot Parsing de l’oral: traiter les disfluences , 2005, JEPTALNRECITAL.