Discriminative Piecewise Linear Transformation Based on Deep Neural Networks for Noise Robust Automatic Speech Recognition

あらまし 本論文では,ディープニューラルネットワークを用いた区分的線形変換による統計的特徴量強調の 拡張を提案する.本提案手法の目的は,雑音環境下音声認識を想定した特徴量領域における雑音除去を目的とし, 観測された音声特徴量から対応する静音環境下での音声特徴量の再現を行うことである.その際,ニューラルネッ トワークを用いて,観測された雑音環境下の音声特徴量より,ガウス混合分布でクラスタリングされた静音環境 下における音声特徴量の領域を識別する.その後,各領域に対応する線形変換をニューラルネットワークにより得 られる事後確率を重みとして足し合わせることで静音環境下での音声特徴量を推定する.これによって,ニュー ラルネットワークのもつ高い識別性能と,従来の生成モデルに基づく特徴量マッピング手法のもつ高い汎化性能 の融合を狙う.Aurora-2データベースを用いた連続音声認識実験により,提案手法は従来の区分線形変換法の一 つである Stereo-based Piecewise LInear Compensation for Environments (SPLICE) と比較して,雑音が既 知の条件では 53.72%単語誤り率を削減することができた.更に,ニューラルネットワークを回帰モデルとして 用いたオートエンコーダと比較した場合,雑音環境が未知な条件で 26.96%の単語誤り率の削減が可能となった. キーワード 音声認識,耐雑音性,特徴量強調,ディープラーニング,ニューラルネットワーク

[1]  Yifan Gong,et al.  Improvements to VTS feature enhancement , 2012, 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).

[2]  Tuomas Virtanen,et al.  Exemplar-Based Sparse Representations for Noise Robust Automatic Speech Recognition , 2011, IEEE Transactions on Audio, Speech, and Language Processing.

[3]  Keikichi Hirose,et al.  MFCC enhancement using joint corrupted and noise feature space for highly non-stationary noise environments , 2012, 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).

[4]  Keikichi Hirose,et al.  Feature Enhancement With Joint Use of Consecutive Corrupted and Noise Feature Vectors With Discriminative Region Weighting , 2013, IEEE Transactions on Audio, Speech, and Language Processing.

[5]  Mark J. F. Gales,et al.  Model-Based Approaches to Handling Uncertainty , 2011, Robust Speech Recognition of Uncertain or Missing Data.

[6]  Li Deng,et al.  Evaluation of SPLICE on the Aurora 2 and 3 tasks , 2002, INTERSPEECH.

[7]  Yoshua Bengio,et al.  Extracting and composing robust features with denoising autoencoders , 2008, ICML '08.

[8]  Xiaodong Cui,et al.  Stereo-Based Stochastic Mapping for Robust Speech Recognition , 2009, IEEE Transactions on Audio, Speech, and Language Processing.

[9]  David Pearce,et al.  The aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions , 2000, INTERSPEECH.

[10]  Quoc V. Le,et al.  Recurrent Neural Networks for Noise Reduction in Robust ASR , 2012, INTERSPEECH.

[11]  Yee Whye Teh,et al.  A Fast Learning Algorithm for Deep Belief Nets , 2006, Neural Computation.

[12]  Daniel Povey,et al.  The Kaldi Speech Recognition Toolkit , 2011 .

[13]  Keikichi Hirose,et al.  Discriminative piecewise linear transformation based on deep learning for noise robust automatic speech recognition , 2013, 2013 IEEE Workshop on Automatic Speech Recognition and Understanding.

[14]  Li Deng,et al.  Evaluation of the SPLICE algorithm on the Aurora2 database , 2001, INTERSPEECH.