데모-기반 학습을 위한 행동정책 일반화

데모-기반 학습은 비-전문가인 사용자의 시연만으로도 로봇에게 복잡한 작업지식을 손쉽게 가르칠 수 있다는 장점 때문에 관심이 높다. 하지만 실제 로봇 작업환경은 환경의 가변성과 로봇 동작의 비-결정성을 대부분 포함하고 있기 때문에, 일회성 작업데모로부터 얻어진 부분 행동정책만으로는 작업의 완성을 보장할 수 있는 충분한 작업지식이 될 수 없다. 이 문제를 해결하기 위해서는 동일 작업에 대한 다수의 반복적인 데모가 필요할 뿐만 아니라, 데모를 통해 확보된 부분 행동정책을 보다 넓은 상태공간으로 확장하는 일반화가 필요하다. 본 논문에서는 시뮬레이션으로 구현된 로봇 작업환경과 이 환경에 적용된 데모-기반 학습 전반에 대한 간략한 소개에 이어, 행동정책 일반화를 위한 구체적인 k-NN 적용방법을 설명하고 실험을 통해 이 방법의 효용성을 분석해본다.