Robust Automatic Speech Recognition Emphasizing Important Modulation Spectrum

あらまし CMS法や動的特徴量を用いることにより,音声認識性能が向上することが知られている.これらの 手法では特徴パラメータの時間軌跡を操作している.この時間軌跡を周波数次元で表したものは変調スペクトル と呼ばれる.よって CMS法や動的特徴量は,変調スペクトルを操作しているものとみなせる.また音声認識情 報のほとんどが 1~16Hzの変調周波数バンドに存在することが明らかになってきた.そこで本研究では,音声 認識情報を担う変調スペクトル成分のみを特徴量として用い,数字音声認識実験を行った.広く用いられている RASTAでは IIRフィルタを用いて約 1~12Hzの変調周波数バンドを抽出しているのに対し,本論文では位相 ひずみの少ない FIRフィルタを用いることにより認識性能が向上することを確認した.また,この特徴量と一般 によく用いられている動的特徴量を含めた MFCCを種々の雑音環境(SNR 10 dB)において比較した結果,認 識誤り率が平均 3%改善されることを確認した.更に重要な変調周波数バンドを複数のバンドに分割すると,認 識誤り率が平均 8%改善された. キーワード 変調スペクトル,変調周波数,頑強な音声認識,特徴抽出

[1]  H Hermansky,et al.  Perceptual linear predictive (PLP) analysis of speech. , 1990, The Journal of the Acoustical Society of America.

[2]  Lou Boves,et al.  Channel normalization techniques for automatic speech recognition over the telephone , 1998, Speech Commun..

[3]  H. Hermansky,et al.  Syllable intelligibility for temporally filtered LPC cepstral trajectories. , 1999, The Journal of the Acoustical Society of America.

[4]  Sadaoki Furui,et al.  Speaker-independent isolated word recognition using dynamic features of speech spectrum , 1986, IEEE Trans. Acoust. Speech Signal Process..

[5]  B. Atal Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification. , 1974, The Journal of the Acoustical Society of America.

[6]  Misha Pavel,et al.  On the importance of various modulation frequencies for speech recognition , 1997, EUROSPEECH.

[7]  Hynek Hermansky,et al.  On properties of modulation spectrum for robust automatic speech recognition , 1998, Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP '98 (Cat. No.98CH36181).

[8]  R. Plomp,et al.  Effect of temporal envelope smearing on speech reception. , 1994, The Journal of the Acoustical Society of America.

[9]  R. Plomp,et al.  Effect of reducing slow temporal modulations on speech reception. , 1994, The Journal of the Acoustical Society of America.

[10]  Misha Pavel,et al.  On the relative importance of various components of the modulation spectrum for automatic speech recognition , 1999, Speech Commun..

[11]  T. Houtgast,et al.  A review of the MTF concept in room acoustics and its use for estimating speech intelligibility in auditoria , 1985 .

[12]  Herman J. M. Steeneken,et al.  Assessment for automatic speech recognition: II. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems , 1993, Speech Commun..

[13]  Hynek Hermansky,et al.  RASTA processing of speech , 1994, IEEE Trans. Speech Audio Process..

[14]  Hynek Hermansky,et al.  Recognition of speech in additive and convolutional noise based on RASTA spectral processing , 1993, 1993 IEEE International Conference on Acoustics, Speech, and Signal Processing.

[15]  Misha Pavel,et al.  Intelligibility of speech with filtered time trajectories of spectral envelopes , 1996, Proceeding of Fourth International Conference on Spoken Language Processing. ICSLP '96.

[16]  Steven Greenberg,et al.  UNDERSTANDING SPEECH UNDERSTANDING: TOWARDS A UNIFIED THEORY OF SPEECH PERCEPTION , 1996 .