다층 신경망을 이용한 대화체 음소 인식을 위한 음소 분할기

본 논문은 다층 신경망을 이용하여 음성 인식의 전처리 단계로써 인식 단위와 음성 신호를 인식이 가능한 단위로 분할하는 음소 분할기를 제안한다. 다층 신경망은 입력 노드 52개, 출력 노드 1개, 임의 수를 갖는 은닉 노드로 구성되고, 특징 벡터는 13차 PLP Cepstrum을 사용하였다. 음성 데이터는 1 인 화자 대화체 음성으로 약 36 분 분량, 총 22,610개의 음소를 사용하였다. 최적의 은닉 노드 수를 23로 선택했을 때, Open Test의 On Frame 분할율은 70%, ± 1 Frame 분할율은 82% 되었다. 따라서 분할의 결과는 후처리를 통하여 수정 할 수 있으므로 음소 분할기에 대한 다층 신경망의 응용은 적합하다.