Study of Building Korean Universal Dependency Corpus focused on Syntactic Relations

Universal Dependency (UD)는 여러 언어의 언어현상 을 일관된 방법으로 설명하기 위하여, 형태론적인 패턴 과 구문적인 관계를 정의하고 이를 기반으로 리소스를 구축하며, 공유할 수 있는 프레임워크를 제공하기 위한 국제적인 공동연구 프로젝트이다 [1]. 이 프로젝트를 통해 여러 기관들 사이에서 협업이 가능하게 되었고, 전산 언어학 분야에 전 세계에서 통용될 수 있는 가이 드라인을 제공함으로써 실용 언어처리시스템에서 광범 위하게 사용되고 있다. 또한 이를 바탕으로 다른 언어 에 대한 말뭉치를 손쉽게 확장 구축할 수 있게 되면서 언어자원이 부족한 언어들에 대한 연구가 탄력을 받게 되었다. 또한 하나의 언어 분석을 위해 개발한 통계 및 기계학습 모델을 다른 언어에 적용할 수 있는 가능성을 탐구하는 연구를 촉진하게 되었다. UD를 사용하지 않을 경우 여러 언어에 대한 실험결과 를 객관적으로 비교하기 어렵고, 언어 간 구조변환 연 구에서도 일관된 방법을 적용하기 힘들다. 또한 언어 개별로 분석 시스템을 개발하여 유지 관리하여야 하는 단점이 있다. 본 논문에서는 이러한 문제에 접근하기 위하여 한국 어 의존구분석 말뭉치 구축 및 시스템 개발에서 UD 가 이드라인을 적용할 때 논의되어야 하는 항목을 나열하 고 자세한 설명을 하고자 한다. UD 가이드라인은 토큰 분할, 형태소 태그, 구문 관계 가이드라인을 포함하고 있다. 본 논문에서는 이 중에서 구문 관계 가이드라인 을 중심으로 설명한다.