대규모 데이터 분석을 위한 계층적 베이지안망 학습

베이지안망(Bayesian network)은 다수의 변수들 사이의 확률적 관계(조건부독립성: conditional independence)를 그래프 구조로 표현하는 모델이다. 이러한 베이지안망은 비감독학습(unsupervised learning)을 통한 데이터마이닝에 적합하다. 이를 위해 데이터로부터 베이지안망의 구조와 파라미터를 학습하게 된다. 주어진 데이터의 likelihood를 최대로 하는 베이지안망 구조를 찾는 문제는 NP-hard임이 알려져 있으므로, greedy search를 통한 근사해(approximate solution)를 구하는 방법이 주로 이용된다. 하지만, 이러한 근사적 학습방법들도 데이터를 구성하는 변수들이 수천 ~ 수만에 이르는 경우, 방대한 계산량으로 인해 그 적용이 실질적으로 불가능하게 된다. 본 논문에서는 그러한 대규모 데이터에서 학습될 수 있는 계층적 베이지안망(hierarchical Bayesian network) 모델 및 그 학습방법을 제안하고, 그 가능성을 실험을 통해 보인다.