사용자 모델을 이용한 대화 전략의 효과적인 학습

대화 시스템은 효율적인 대화 관리를 위하여 대화 전략(Dialog Strategy)을 사용한다. 하지만 효과적인 대화 전략을 작성하기 위해서는 전문가의 많은 시간과 노력이 필요하다. 따라서 최적화된 대화 전략을 자동을 생성하기 위한 연구가 진행되고 있으며, 그 중 많은 연구가 기계 학습 방법의 한 종류인 강화학습(Reinforced Learning)을 이용하고 있다. 강화학습은 대화 전략을 학습하는데 적합하지만 충분한 학습 대화 자료를 확보하는데 어려움이 많고 학습속도가 느리다. 따라서 본 논문에서는 기존의 연구와 유사한 성능을 유지하면서 적은 양의 학습 데이터를 사용하고 학습 속도를 향상시킨 모델을 제안한다. 제안한 방법은 학습 과정에서 현재 상황에 보다 적합하다고 예측되는 행동들을 사용자 모델(User Model) 정보를 기반으로 선택적으로 시도하는 것이다. 이것은 시스템이 불필요하게 탐색해야 할 공간을 줄임으로써 학습되는 대화 전략의 질(Quality)을 유지하면서도 학습 속도를 증가 시킬 수 있다. 실험 결과에서 제안한 모델은 비교 시스템에 비해 대화 전략 학습 속도가 35% 정도 증가하였으며 학습에 필요한 데이터의 양도 46% 정도로 줄일 수 있었다.