Le C.I.D. -Corpus of interactional data- : Protocoles, conventions, annotations

L'analyse du langage et de la parole repose sur l'etude de domaines varies allant de la phonetique a la pragmatique, tout en prenant en compte les modalites de leur expression. Pour la linguistique moderne, si chaque domaine dispose d'un certain niveau d'autonomie, il ne peut etre explique que dans son interaction avec les autres : l'information linguistique est le produit de la convergence de multiples sources d'information, information aussi contrainte par l'environnement ou le message a ete produit. L'analyse linguistique ne peut donc se faire qu'en tenant compte des differentes modalites d'expression de l'information. Mais a ce jour, aucune theorie ne traite de maniere integree des informations issues des differents niveaux de la chaine linguistique, qui est par essence un contenu perceptuel multimodal. Bien que de nombreux projets d'annotation se soient developpes ces dernieres annees, des problemes subsistent: les ressources multimodales annotees n'existent quasiment pas pour le francais ; les standards d'annotation ne repondent pas completement aux besoins et les outils ne sont pas adaptes. Or, le developpement de ce type de ressources est utile a plusieurs titres,entre autres la description des informations de chacun des domaines et de leurs interactions. Nous presentons le Corpus of Interactional Data (CID), corpus audio et video comptant actuellement 8h de dilogue en francais, les annotations a l'etude (phonetique, prosodique, morphosyntaxique, mimo-gestuelle) et leur etat de realisation.

[1]  E. Schegloff,et al.  A simplest systematics for the organization of turn-taking for conversation , 1974 .

[2]  Jerry R. Hobbs Coherence and Coreference , 1979, Cogn. Sci..

[3]  E. Schegloff Discourse as an interactional achievement : Some uses of "Uh huh" and other things that come between sentences , 1982 .

[4]  Georges Matoré,et al.  Claire Blanche-Benveniste et Colette Jeanjean, Le français parlé, Transcription et édition, Institut national de la langue française, Paris, Didier érudition, 1987 , 1988 .

[5]  C. Blanche-Benveniste,et al.  Le français parlé : transcription et édition , 1989 .

[6]  Rossi 6 - Segmentation automatique de la parole : pourquoi? Quels segments? , 1990 .

[7]  Steven Abney,et al.  Parsing By Chunks , 1991 .

[8]  James Pustejovsky,et al.  The Generative Lexicon , 1995, CL.

[9]  D. McNeill Hand and Mind: What Gestures Reveal about Thought , 1992 .

[10]  Beth Levin,et al.  English Verb Classes and Alternations: A Preliminary Investigation , 1993 .

[11]  G. Ayers,et al.  Guidelines for ToBI labelling , 1994 .

[12]  C. Meunier,et al.  Les groupes de consonnes : problématique de la segmentation et variabilité acoustique , 1994 .

[13]  D. McNeill Hand and Mind , 1995 .

[14]  Cecilia E. Ford,et al.  Interactional units in conversation: Syntactic, intonational, and pragmatic resources for the mana , 1996 .

[15]  Mark G. Core,et al.  Coding Dialogs with the DAMSL Annotation Scheme , 1997 .

[16]  A. Ichikawa,et al.  An Analysis of Turn-Taking and Backchannels Based on Prosodic and Syntactic Features in Japanese Map Task Dialogs , 1998, Language and speech.

[17]  Margret Selting,et al.  InLiSt No . 4 Interaction and Linguistic Structures TCUs and TRPs : The Construction of Units in Conversational Talk * , 1998 .

[18]  James Pustejovsky,et al.  The Metaphysics of Words in Context , 1999 .

[19]  A Query Tool for Syntactically Frame Acquisition , 2000, EMNLP.

[20]  Laura Kallmeyer A Query Tool for Syntactically Annotated Corpora , 2000, ACL 2000.

[21]  Niels Ole Bernsen,et al.  The MATE Markup Framework , 2000, SIGDIAL Workshop.

[22]  Evelyn McClave,et al.  The relationship between spontaneous gestures of the hearing and American Sign Language , 2001 .

[23]  C. Fougeron,et al.  Realizations of accentual phrase in French intonation , 2002 .

[24]  Paul Boersma,et al.  Praat, a system for doing phonetics by computer , 2002 .

[25]  Jonathan G. Fiscus,et al.  A Pratical Introduction to ATLAS , 2002, LREC.

[26]  Sotaro Kita,et al.  Interplay of gaze, hand, torso orientation and language in pointing , 2003 .

[27]  Philippe Blache Meta-Level Contstraints for Linguistic Domain Interaction , 2003, IWPT.

[28]  Stefanie Shattuck-Hufnagel,et al.  The original ToBI system and the evolution of the ToBI framework , 2003 .

[29]  Tristan van Rullen,et al.  Vers une analyse syntaxique à granularité variable , 2003 .

[30]  Albert Di Cristo,et al.  OUTILS PROSODIQUES ET ANALYSE DU DISCOURS , 2004 .

[31]  N. Nguyen,et al.  Perceptual relevance of long-domain phonetic dependencies , 2004 .

[32]  Sarah Hawkins,et al.  Influence of syllable-coda voicing on the acoustic properties of syllable-onset /l/ in English , 2004, J. Phonetics.

[33]  Edward Gibson,et al.  Representing discourse coherence: A corpus-based analysis , 2004, COLING.

[34]  Costanza Navarretta,et al.  The MUMIN multimodal coding scheme , 2005 .

[35]  Roxane Bertrand,et al.  Some cues about the interactional value of the «continuation» contour in French , 2005 .

[36]  Roxane Bertrand,et al.  Fonctions pragmatiques et prosodie de enfin en français spontané , 2005 .

[37]  Anne-Catherine Simon,et al.  IVTS, un système de transcription pour la variation prosodique , 2006 .