마코프 정보원을 이용한 한글 정보원의 근사적 해석

본 논문에서 허프만 부호나 산술 부호로 한글 특성을 이용해서 한글을 압축할 때, 최대로 압축할 수 있는 값, 즉 한글 정보원의 엔트로피와 한글 특성에 의해서 줄어드는 양, 즉 엔트로피 감소율을 이론적으로 해석하였다. 한글 문자는 영어와는 달리 초성, 중성, 종성의 자소 별로 구성되어지는 특징을 갖고 있다. 이러한 특징을 갖고 있는 한글 정보원은 영어 정보원과는 다른 방식으로 엔트로피를 구해야 한다. 본 논문에서 마코프 정보원을 이용하여 두 가지 방식으로 한글정보원의 엔트로피를 해석하였다. 첫째, 모든 영어 문자가 언제라도 출현할 수 있는 영어 정보원을 해석하는 방식으로 한글의 엔트로피를 구하였다. 둘째, 초성, 중성, 종성 순으로 자소가 발생하는 한글의 특징을 고려하여 한글의 엔트로피를 구하였다. 그 결과 m차 마코프 정보원의 엔트로피보다 이러한 한글의 특징을 고려한 m차 한글 마코프 정보원의 엔트로피가 줄었으며, 그 엔트로피 감소율을 구하였다.