음소별 성조 정보를 이용한 신경망 기반의 한국어 음소 지속시간 모델링

인간의 음성에 실리는 운율은 크게 운율구 경계, 음소별 지속시간, 억양, 음의 세기 등으로 정의될 수 있는데, 자연성이 우수한 합성음을 위해 각각의 운을 요소들을 정확히 모델링되어야 한다. 본 논문에서는, 이러한 요소들 중 음소별 지속시간을 신경망을 이용하여 모델링하고 성능 평가를 수행한다. 신경망의 함수 근사 기능을 이용하여, 출력노드에서 음소의 지속 시간을 실수 형태로 출력하는 신경망을 구성하고 이를 오류 역전과 알고리즘으로 학습시켰다. 사용된 특징 변수로는 음소의 문맥 정보 및 운율구와의 위치 관계를 고려한 7개의 변수를 사용하였고, 품사 정보의 유용성을 알아보기 위해 품사 정보를 추가로 사용하였다. 실험 결과 예측값과 실제값 사이의 상관계수로 0.851의 값을 얻을 수 있었으며, 품사 정보를 사용하는 경우와 사용하지 않는 경우의 성능 차이가 거의 나지 않음을 알 수 있었다. 한편 CART 방법과의 비교에서 상대 평균 제곱 오류와 상관 계수가 모두 더 좋은 성능을 나타내었다.