Transformation et synthèse de la voix parlée et de la voix chantée

La mission principale de l’Institut de recherche et coordination acoustique/musique (Ircam) est la création musicale et la création artistique en général, ce qui inclut notamment les arts du spectacle comme le théâtre ou le film. Cet institut possède une longue expérience dans l’analyse et la synthèse des sons, et en particulier de la parole. En effet, de nombreux compositeurs contemporains portent un vif intérêt à la voix, chantée mais aussi parlée. Ils considèrent la voix non seulement comme un matériau musical qui peut entrer, d’une façon ou d’une autre, dans leurs compositions, mais aussi pour sa structure, depuis les niveaux acoustiques et phonétiques jusqu’aux niveaux linguistiques les plus élevés. Dans ce contexte, l’équipe « Analyse-synthèse » des sons de l’Ircam a développé depuis plusieurs années un savoir-faire, des études et des outils, en particulier informatiques, concernant l’analyse, le traitement et la synthèse de la voix et de la parole. Ces moyens sont d’abord utilisés pour la création musicale à l’Ircam. Ils ont été employés, par exemple, pour des pièces récentes de Jean-Baptiste Barrière, Joshua Fineberg, Stefano Gervasoni ou Jonathan Harvey. Mais ces moyens trouvent également des applications dans le multimédia en général. En effet, alors que les images de synthèse ont envahi de nombreux médias, dessins animés, jeux vidéo et films notamment, la voix reste aujourd’hui le parent pauvre en la matière : elle est, la plupart du temps, simplement enregistrée par des acteurs, souvent synchronisée de façon « manuelle » avec le mouvement des personnages et n’utilise presque aucune technique de synthèse, sauf à de rares

[1]  Nelleke Oostdijk,et al.  The Spoken Dutch Corpus. Overview and First Evaluation , 2000, LREC.

[2]  Julia Hirschberg,et al.  Detecting pitch accent using pitch-corrected energy-based predictors , 2007, INTERSPEECH.

[3]  Anne Lacheret,et al.  A method for automatic and dynamic estimation of discourse genre typology with prosodic features , 2008, Interspeech.

[4]  Axel Röbel,et al.  Transient detection and preservation in the phase vocoder , 2003, ICMC.

[5]  Maxine Eskénazi,et al.  BREF, a large vocabulary spoken corpus for French , 1991, EUROSPEECH.

[6]  X. Rodet EFFICIENT SPECTRAL ENVELOPE ESTIMATION AND ITS APPLICATION TO PITCH SHIFTING AND ENVELOPE PRESERVATION , 2005 .

[7]  Axel Röbel,et al.  Improving Lpc Spectral Envelope Extraction Of Voiced Speech By True-Envelope Estimation , 2006, 2006 IEEE International Conference on Acoustics Speech and Signal Processing Proceedings.

[8]  Andrew J. Viterbi,et al.  Error bounds for convolutional codes and an asymptotically optimum decoding algorithm , 1967, IEEE Trans. Inf. Theory.

[9]  Paul Taylor,et al.  Heterogeneous relation graphs as a formalism for representing linguistic information , 2001, Speech Commun..

[10]  Ulrich Heid,et al.  Querying Annotated Speech Corpora , 2004 .

[11]  Axel Röbel,et al.  Natural Transformation of Type and Nature of the Voice for Extending Vocal Repertoire in High-Fidelity Applications , 2009 .

[12]  Preslav Nakov,et al.  Supporting Annotation Layers for Natural Language Processing , 2005, ACL.

[13]  Shinji Maeda,et al.  A digital simulation method of the vocal-tract system , 1982, Speech Commun..

[14]  Hideki Kawahara,et al.  YIN, a fundamental frequency estimator for speech and music. , 2002, The Journal of the Acoustical Society of America.

[15]  Axel Röbel,et al.  On cepstral and all-pole based spectral envelope modeling with unknown model order , 2007, Pattern Recognit. Lett..

[16]  Mark Liberman,et al.  A formal framework for linguistic annotation , 1999, Speech Commun..

[17]  W. Chafe The importance of corpus linguistics to understanding the nature of language , 1992 .

[18]  Alan W. Black,et al.  Unit selection in a concatenative speech synthesis system using a large speech database , 1996, 1996 IEEE International Conference on Acoustics, Speech, and Signal Processing Conference Proceedings.

[19]  Thomas F. Quatieri,et al.  Shape invariant time-scale and pitch modification of speech , 1992, IEEE Trans. Signal Process..

[20]  Jean Laroche,et al.  New phase-vocoder techniques for real-time pitch shifting , 1999 .

[21]  X. Rodet,et al.  Sound Analysis and Processing with AudioSculpt 2 , 2004, ICMC.

[22]  Axel Röbel,et al.  Speech to chant transformation with the phase vocoder , 2007, INTERSPEECH.

[23]  Lawrence R. Rabiner,et al.  A tutorial on hidden Markov models and selected applications in speech recognition , 1989, Proc. IEEE.

[24]  Anne Lacheret,et al.  French prominence: A probabilistic framework , 2008, 2008 IEEE International Conference on Acoustics, Speech and Signal Processing.

[25]  Catherine Lai,et al.  Querying and Updating Treebanks: A Critical Survey and Requirements Analysis , 2004, ALTA.

[26]  Xavier Rodet,et al.  Automatic Phoneme Segmentation with Relaxed Textual Constraints , 2008, LREC.

[27]  Christoph Müller A Flexible Stand-Off Data Model with Query Language for Multi-Level Annotation , 2005, ACL.