Scat Generation Research Program Based on STRAIGHT, a High-quality Speech Analysis Modification and Synthesis System

音楽としての歌唱の魅力は,歌詞をともなうことに多くを負っているといわれる.しかし,歌詞の 理解できない外国語の歌唱であっても,楽器としての人間の声の魅力を楽しむことができることも事 実である.ここでは,楽器としての声そのものの魅力を楽しむスキャット,ヴォーカリーズ,口三味 線,鼻歌等を対象として取り上げ,音声処理技術を用いて,その魅力の分析,再合成,加工を行うシ ステムの開発を狙う一連の研究構想を提案し,実現技術の予備検討結果を紹介する.具体的には著者 らが開発している高品質音声分析変換合成システム STRAIGHTをエンジンとして利用し,基本的 な反射弓を修飾する発声制御モジュール,韻律制御モジュール,音楽情報処理モジュール,インタラ クション制御モジュール等を逐次更新していく生態学的枠組みに基づく開発戦略を提案する.様々な 研究者が,このようなシステムの実現を意識して研究を進めることは,計算機音楽の範囲を拡大する だけではなく,音声に含まれる非言語情報やパラ言語情報の処理技術に対する有力なベンチマークの 機会を提供するものと考えられる.

[1]  Tohru Takagi,et al.  Acoustic parameters of voice individuality and voice-quality control by analysis-synthesis method , 1991, Speech Commun..

[2]  C. Larson,et al.  Effects of pitch-shift velocity on voice Fo responses. , 2000, The Journal of the Acoustical Society of America.

[3]  Roy D. Patterson,et al.  Fixed point analysis of frequency to instantaneous frequency mapping for accurate estimation of F0 and periodicity , 1999, EUROSPEECH.

[4]  Hideki Kawahara,et al.  Restructuring speech representations using a pitch-adaptive time-frequency smoothing and an instantaneous-frequency-based F0 extraction: Possible role of a repetitive structure in sounds , 1999, Speech Commun..

[5]  G R Farley A biomechanical laryngeal model of voice F0 and glottal width control. , 1996, The Journal of the Acoustical Society of America.

[6]  Jeffery A. Jones,et al.  Perceptual calibration of F0 production: evidence from feedback perturbation. , 2000, The Journal of the Acoustical Society of America.

[7]  M. Kawato,et al.  A hierarchical neural-network model for control and learning of voluntary movement , 2004, Biological Cybernetics.

[8]  Hideki Kawahara,et al.  Aperiodicity extraction and control using mixed mode excitation and group delay manipulation for a high quality speech analysis, modification and synthesis system STRAIGHT , 2001, MAVEBA.

[9]  Mitsuo Kawato,et al.  Internal models for motor control and trajectory planning , 1999, Current Opinion in Neurobiology.

[10]  Hideki Kawahara,et al.  Speech representation and transformation using adaptive interpolation of weighted spectrum: vocoder revisited , 1997, 1997 IEEE International Conference on Acoustics, Speech, and Signal Processing.

[11]  S. Rosset,et al.  The pitch of short-duration fundamental frequency glissandos. , 1998, The Journal of the Acoustical Society of America.

[12]  Hideki Kawahara,et al.  Accurate vocal event detection method based on a fixed-point analysis of mapping from time to weighted average group delay , 2000, INTERSPEECH.

[13]  K. Stevens,et al.  Linguistic experience alters phonetic perception in infants by 6 months of age. , 1992, Science.

[14]  Thomas F. Quatieri,et al.  Speech analysis/Synthesis based on a sinusoidal representation , 1986, IEEE Trans. Acoust. Speech Signal Process..

[15]  R. Orlikoff,et al.  Fundamental frequency modulation of the human voice by the heartbeat: preliminary results and possible mechanisms. , 1989, The Journal of the Acoustical Society of America.

[16]  Hideki Kasuya,et al.  Perceptual Contributions of Static and Dynamic Features of Vocal Tract Characteristics to Talker Individuality , 1998 .

[17]  Keikichi Hirose,et al.  Analysis of voice fundamental frequency contours for declarative sentences of Japanese , 1984 .