과다 분리 및 사전 후처리 기법을 이용한 한글이 포함된 무제약 필기 문자열의 오프라인 인식
暂无分享,去创建一个
본 논문에서는 오프라인 무제약 필기 한글 단어를 인식하기 위한 시스템을 제안한다. 제안된 단어 인식 시스템은 크게 다섯 가지 모듈-문자 분리, 조합 행렬 생성, 특징 추출, 문자 인식, 사전 후처리-로 구성되어 있다. 문자 분리 모듈은 입력된 단어 영상을 하나의 문자 보다 더 작은 이미지 조각으로 과다 분리하며, 조합 행렬 생성 모듈에서는 동적 프로그래밍 기법을 이용하여 분리된 이미지 조각들로부터 사전상의 모든 단어들과 대응되는 가능한 모든 조합을 생성한다. 여기서 하나의 조합은 대응되는 단어내의 문자 수 만큼의 이미지 조각 그룹들로 구성된다. 문자 인식 모듈은 각 그룹에 대하여 일괄적으로 얻어진 특징과 유니그램을 이용하여 문자 인식을 수행한다. 마지막으로 사전 후처리 모듈에서는 각 그룹에 대한 문자 인식 결과와 단어 사전을 사용하여 입력 단어에 대한 최종 인식 결과를 도출한다. 본 논문에서 제안한 방법은 문자 분리, 문자 인식 및 후처리를 상호 보완적으로 결합함으로써 한글이 포함된 무제약 필기 문자열을 효과적으로 인식할 수 있다. 제안된 시스템의 성능을 평가하기 위하여 실제 우편 봉투 상에 쓰여진 필기 한글 단어 200 개를 대상으로 실험을 하였다. 실험 결과 200 개의 단어 중 172 개의 단어를 정인식하여 86% 의 정확도를 얻을 수 있었으며, 나머지 28 개의 오인식된 단어들을 분석한 결과 대부분의 오류는 문자 인식기의 낮은 신뢰도 때문임을 알 수 있었다. 또한, 하나의 단어를 인식하기 위하여 약 2 초가 소요되었다.