기계학습을 이용한 한국어 형태소 합성 및 분석

한국어 형태소의 기계적 처리에 대한 기존의 연구는 사전 정보에 의존하는 형태소 분석 중심이었다. 본 논문은 기계학습을 이용하여 자동적으로 습득된 규칙을 기반으로 한 형태소 합성과 분석 방법을 제시한다. MASK ( A system for Morphological Analysis and Synthesis of Korean)는 한국어 형태소 합성 및 분석기이다. 사전에는 어휘적 형태소와 품사, 변칙만이 수록되며, 모든 형태소의 생성과 분석은 규칙을 기반으로 한다. 규칙 학습기 Meta-MASK는 사전과 형태소 결합의 예로부터 형태소 결합 규칙을 학습한다. 형태소 합성기 MOS는 이 규칙을 LHS-driven 전진 추론 방식으로 적용하여 형태소 합성을 하고, 형태소 분석기 MOA는 이 규칙을 RHS-driven 전진추론 방식으로 적용하여 형태소 분석을 한다. MASK는 한국어 형태소의 불규칙 현상이나 음운 현상을 일관성있게 프로덕션 규칙으로 표현하며, 형태소를 다양하게 생성하고 분석할 수 있다. 또한, 그 구조가 프로덕션 시스템이고, 규칙이 기계학습 방법에 의해 다양하게 습득되므로 여러 자연언어 처리 시스템에 접속이 가능하다.