반복적 추출 단어 분리를 이용한 핵심 키워드 추출 기법에 관한 연구

최근 사용자 생산 콘텐츠(UCC-User Created Contents, UGC-User Generated Contents 등)의 급증은 대규모 처리 시스템과 맞물려 콘텐츠에 최적화된 문맥광고(Contextual Advertisement) 및 콘텐츠 기반 서비스(Contents based Service) 등의 출현을 가능하게 하였다. 한국어는 영어와는 다른 교착어이기 때문에 한국어에 최적화된 고유의 처리방식이 적용되어야 하며, 이에 대한 많은 연구들이 진행되어 왔다. 한국어의 특성상 복합명사 추출에 대한 복잡도는 높을 뿐만 아니라, 복합명사 추출시 보다 정확한 추출을 위해 사전을 기반으로 추출 시도하지만, 이는 사전의 지속적인 갱신을 통한 최신화 문제, 검색시 소요되는 수행속도의 증가 등의 문제가 있다. 본 논문에서는 기존의 키워드 추출 과정에 키워드 분리 과정을 추가한 기법을 통해 비사전기반의 키워드 추출 기법을 제시하며, 본 키워드 추출 기법에 관한 구현 및 실험을 하였다.