A Method of Two-Stage Clustering with Constraints Using Agglomerative Hierarchical Algorithm and One-Pass k-Means++

The aim of this paper is to propose a two-stage method of clustering in which the first stage uses a one-pass k-means++ and the second stage uses an agglomerative hierarchical algorithm. This method outperforms a foregoing two-stage algorithm by replacing the one-pass k-means by a one-pass k-means++ in the first stage. Pairwise constraints are also taken into consideration in order to improve its performance. Effectiveness of the proposed method is shown by numerical examples. 1 はじめに クラスタリング [11]はデータを外的基準なしに自動 的にいくつかのグループに分類する手法である.また 近年は,いくつかの個体のみに外的基準を与えて分類 制度の向上を目指す,半教師付きクラスタリング [1]の 研究も盛んになっている. クラスタリングは階層的方法と非階層的方法の 2つ に大別することができる.階層的方法は計算量が大き く,大量のデータセットを扱いづらいという欠点があ る.この欠点を軽減するために小原らによって二段階 クラスタリングが提案された [5][6].これは第 1 段階 で one-pass k-means[3] を行い,得たクラスター中心 を第 2段階で階層的方法を用いて分類するというもの である.しかしこの手法には,第一段階で用いている one-pass k-meansの初期値依存性という欠点がある. 本研究では第 1段階に one-pass k-means++[2]を用 いることで,二段階クラスタリングの初期値依存性を 軽減することを目的とする.また,分類率をさらに向上 させるため半教師の 1つである対制約を導入し [7][9], その効果について考察する. 2 階層的クラスタリング まず階層的クラスタリングについて述べるため,個 体の集合を X = {x1, · · · , xn}と定義し,クラスター の集合を G = {G1, G2, · · · , GC} と定義する.また xi(i = 1, · · · , n) は p 次元ユークリッド空間上の点 xi = (xi1, · · · , xip)とする.このとき