论文信息 - Multichannel Extensions of Nonnegative Matrix Factorization

Multichannel Extensions of Nonnegative Matrix Factorization

非負値行列因子分解(NMF: Nonnegative Matrix Factorization)は,与えられた非負値行列Xをより小さい二つの非負値行列 Tと V に因子分解するものである.これは,画像のパーツ分解 [1],文書クラスタリング [2],音楽の自動採譜 [3]など,幅広い応用分野を持つ信号処理/ データ解析手法である.音響信号や音楽を対象とする場合は,それらの時間領域波形に短時間フーリエ変換(STFT: Short-Time Fourier Transform)を施し,さらに各時間周波数スロットの値(複素数)の絶対値やその二乗を計算する(式1参照)ことで,非負値行列Xを作成する.図 1 に示す通り,分解後の行列 Tには頻出する音の周波数パターンが基底として抽出され,行列Vには各基底がどのタイミングでアクティブになるかという情報が得られる. さて近年,図 2に示すように,音源分離や音源位置推定を目的として,複数のマイクロホンを用いる状況でNMF を多チャンネルに拡張する研究がいくつか行われている. 瞬時混合に関わるもの [4], [5]では,各音源から各マイクロホンへのゲインがモデル化されるが,ゲインは非負値であるため,単純に行列からテンソルへ拡張するだけで良い.一方,畳み込み混合では,マイクペア間の位相差が音源分離や方向推定において重要な情報となるため,複素数を扱う必要がある.しかし,NMFの枠組みにおける周波数

Hirokazu Kameoka | Naonori Ueda | Hiroshi Sawada | Shoko Araki

[1] Andreas Ziehe,et al. The 2011 Signal Separation Evaluation Campaign (SiSEC2011): - Audio Source Separation - , 2012, LVA/ICA.

[2] H. Sebastian Seung,et al. Learning the parts of objects by non-negative matrix factorization , 1999, Nature.

[3] D. Fitzgerald,et al. Non-negative Tensor Factorisation for Sound Source Separation , 2005 .

[4] Hirokazu Kameoka,et al. Efficient algorithms for multichannel extensions of Itakura-Saito nonnegative matrix factorization , 2012, 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).

[5] Xin Liu,et al. Document clustering based on non-negative matrix factorization , 2003, SIGIR.

[6] Hiroshi Sawada,et al. Underdetermined Convolutive Blind Source Separation via Frequency Bin-Wise Clustering and Permutation Alignment , 2011, IEEE Transactions on Audio, Speech, and Language Processing.

[7] H. Kameoka,et al. Convergence-guaranteed multiplicative algorithms for nonnegative matrix factorization with β-divergence , 2010, 2010 IEEE International Workshop on Machine Learning for Signal Processing.

[8] Irfan A. Essa,et al. Estimating the Spatial Position of Spectral Components in Audio , 2006, ICA.

[9] H. Sebastian Seung,et al. Algorithms for Non-negative Matrix Factorization , 2000, NIPS.

[10] Alexey Ozerov,et al. Multichannel Nonnegative Matrix Factorization in Convolutive Mixtures for Audio Source Separation , 2010, IEEE Transactions on Audio, Speech, and Language Processing.

[11] P. Smaragdis,et al. Non-negative matrix factorization for polyphonic music transcription , 2003, 2003 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (IEEE Cat. No.03TH8684).

[12] Pierre Vandergheynst,et al. Nonnegative matrix factorization and spatial covariance model for under-determined reverberant audio source separation , 2010, 10th International Conference on Information Science, Signal Processing and their Applications (ISSPA 2010).

[13] Nancy Bertin,et al. Nonnegative Matrix Factorization with the Itakura-Saito Divergence: With Application to Music Analysis , 2009, Neural Computation.