단순명사의 통계적 언어처리를 이용한 복합명사 표현방법 연구
暂无分享,去创建一个
본 논문에서는 대용량 음성인식 시스템의 성능향상을 위하여 최대우도추정법(Maximum likelihood Estimation)에 기반한 한국어 관심지점(POI: Point Of Interest) 복합명사 분해 알고리즘을 제안한다. 내비게이션 및 114 안내시스템에서는 백만개 이상의 POI를 사용하고 있으며 복합명사를 단순명사로 분해해서 사용되는 것이 성능향상 및 시스템 효율에 도움이 된다. 통계적 우도정보에 기반하여 복합명사를 단위명사로 분해하기 위해서는 상향식 알고리즘을 사용한다. 초기 단어명사로 1음절, 1음절+2음절, 1음절+2음절+3음절 등 세 가지 방식으로 활용하여 훈련 코퍼스에서 통계적 우도값 만을 이용해서 단위명사를 통합하는 알고리즘을 비교하였다. 실험 코퍼스를 통해 성능 비교를 한 결과 1음절+2음절 초기 단어명사를 사용하였을 경우가 다른 방법에 의한 것보다 13.1% 정도 문법 복잡도를 줄이는 성능을 얻었다.