시소러스 도구를 이용한 실시간 개념 기반 문서 분류 시스템

대부분의 문서분류 시스템은 용어를 기반으로 한 분류 방법을 사용한다. 그러나 용어 기반의 분류 방법은 아주 많은 용어로 인하여 웹 문서와 같이 실시간의 처리를 요하는 문서 분류에는 적합하지가 않다. 본 논문은 시소러스 도구를 이용하여 실시간의 문서 분류를 할 수 있는 문서 분류 시스템을 제안한다. 이 문서 분류 시스템은 한국어 분석기, 시소러스 도구, 확률벡터 관련도 분석기로 구성된다. 시소러스 도구는 문서의 분석 결과인 용어를 입력으로 용어에 대한 의미를 추출하고 이를 의미-벡터로 표현한다. 150개의 단위 의미로 구성되어 있는 의미-벡터는 용어-벡터보다 그 크기가 작아 실시간의 처리를 가능하게 한다. 또한 의미-벡터는 문서가 포함하고 있는 뜻을 의미별로 표현할 수 있어 개념 기반으로 문서를 분류할 수 있는 토대를 마련한다. 확률벡터 관련도 분석기는 문서의 의미-확률벡터를 입력으로 주제들의 의미-확률벡터와 관련도를 검사하여 문서의 주제를 결정한다. 본 시스템의 실험으로 실시간의 문서분류와 개념 기반의 문서분류를 할 수 있음을 보았고, 문서 분류의 질을 개선하기 위하여 시소러스 도구를 확장해야 함을 알 수 있었다.