Constrained Clustering for Blog Articles with Diverse Views

ブログマイニングに関するアプローチの多くでは,ブログの特徴である個人性や即 時性,時系列データであることなどに着目し,ブログで注目されるトピックの変遷の 抽出などの試みがされている.ここでの課題の 1つは,ブログのマイニング時に,必 要とされるトピックの切り出し方を,こうした多様な目的の違いに応じて変えなけれ ばならない点である.本論文では,ブログ記事よりトピックを抽出する際に,利用者 の多様な目的を意識し,多視点からトピックを抽出する手法に焦点を当てる.視点の 違いに合わせて適切にトピックの抽出を行うためには,トピック抽出過程で視点の違 いを何らかの方法で反映させる必要がある.本論文では,利用者がブログを分析した いと思う際の視点の違いを,文書中に出現する特徴語となるべき語の品詞の差異,お よび,背景知識に基づいて明示的に指示されたブログ記事間の関係の 2つから表現す ることを考える.トピック抽出のためのクラスタリング手法に,要素内の局所的な構 造を反映させやすく,要素間での制約を記述できる非階層的クラスタリング手法であ る Constrained Locally Weighted Clustering 法を用いる.本論文では,収集した ブログ記事集合に対する実験的評価,および,試作システムの実装について述べる.