Multichannel Extensions of Nonnegative Matrix Factorization

非負値行列因子分解(NMF: Nonnegative Matrix Factorization)は,与えられた非負値行列Xをより小さい二 つの非負値行列 Tと V に因子分解するものである.こ れは,画像のパーツ分解 [1],文書クラスタリング [2],音 楽の自動採譜 [3]など,幅広い応用分野を持つ信号処理/ データ解析手法である.音響信号や音楽を対象とする場合 は,それらの時間領域波形に短時間フーリエ変換(STFT: Short-Time Fourier Transform)を施し,さらに各時間周 波数スロットの値(複素数)の絶対値やその二乗を計算す る(式1参照)ことで,非負値行列Xを作成する.図 1 に示す通り,分解後の行列 Tには頻出する音の周波数パ ターンが基底として抽出され,行列Vには各基底がどの タイミングでアクティブになるかという情報が得られる. さて近年,図 2に示すように,音源分離や音源位置推定 を目的として,複数のマイクロホンを用いる状況でNMF を多チャンネルに拡張する研究がいくつか行われている. 瞬時混合に関わるもの [4], [5]では,各音源から各マイク ロホンへのゲインがモデル化されるが,ゲインは非負値 であるため,単純に行列からテンソルへ拡張するだけで 良い.一方,畳み込み混合では,マイクペア間の位相差が 音源分離や方向推定において重要な情報となるため,複 素数を扱う必要がある.しかし,NMFの枠組みにおける 周 波 数

[1]  Andreas Ziehe,et al.  The 2011 Signal Separation Evaluation Campaign (SiSEC2011): - Audio Source Separation - , 2012, LVA/ICA.

[2]  H. Sebastian Seung,et al.  Learning the parts of objects by non-negative matrix factorization , 1999, Nature.

[3]  D. Fitzgerald,et al.  Non-negative Tensor Factorisation for Sound Source Separation , 2005 .

[4]  Hirokazu Kameoka,et al.  Efficient algorithms for multichannel extensions of Itakura-Saito nonnegative matrix factorization , 2012, 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).

[5]  Xin Liu,et al.  Document clustering based on non-negative matrix factorization , 2003, SIGIR.

[6]  Hiroshi Sawada,et al.  Underdetermined Convolutive Blind Source Separation via Frequency Bin-Wise Clustering and Permutation Alignment , 2011, IEEE Transactions on Audio, Speech, and Language Processing.

[7]  H. Kameoka,et al.  Convergence-guaranteed multiplicative algorithms for nonnegative matrix factorization with β-divergence , 2010, 2010 IEEE International Workshop on Machine Learning for Signal Processing.

[8]  Irfan A. Essa,et al.  Estimating the Spatial Position of Spectral Components in Audio , 2006, ICA.

[9]  H. Sebastian Seung,et al.  Algorithms for Non-negative Matrix Factorization , 2000, NIPS.

[10]  Alexey Ozerov,et al.  Multichannel Nonnegative Matrix Factorization in Convolutive Mixtures for Audio Source Separation , 2010, IEEE Transactions on Audio, Speech, and Language Processing.

[11]  P. Smaragdis,et al.  Non-negative matrix factorization for polyphonic music transcription , 2003, 2003 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (IEEE Cat. No.03TH8684).

[12]  Pierre Vandergheynst,et al.  Nonnegative matrix factorization and spatial covariance model for under-determined reverberant audio source separation , 2010, 10th International Conference on Information Science, Signal Processing and their Applications (ISSPA 2010).

[13]  Nancy Bertin,et al.  Nonnegative Matrix Factorization with the Itakura-Saito Divergence: With Application to Music Analysis , 2009, Neural Computation.