확률분포 통합 형태를 이용한 음성과 제스처의 멀티모달 융합

최근 멀티모달 융합 인식은 유비쿼터스 연구 분야에서 큰 이슈로 대두되고 있다. 특히, 음성과 제스처는 인간과 기계간의 상호작용에 있어서 가장 중요한 모달리티로 떠오르고 있다. 비록 음성인식 기술이 많은 발전을 해왔지만 잡음이 있는 환경에서 음성인식률이 저하된다는 심각한 문제를 가지고 있다. 이와 같은 경우, 음성과 동시에 발생하는 제스처는 음성의 의미를 이해하는데 좋은 대안으로 사용할 수 있다. 본 논문에서는 음성과 제스처의 멀티모달 융합 인식을 위하여 두 모달리티의 이산적 확률밀도 분포를 통합하여 하나의 새로운 확률밀도 분포를 생성하고, 이를 이용하여 음성과 제스처를 융합 인식하는 새로운 멀티모달 융합 방법을 제시한다. 실험은 실시간 환경에서 마이크로폰과 3축 가속도 센서를 이용하여 진행되었다. 본 논문에서 제시한 통합된 확률밀도 분포의 융합인식률이 기존의 단순한 확률밀도 덧셈에 의한 방법에 비하여 보다 더 효과적임을 보였다.