Deploying UAV based on Reinforcement Learning for Throughput Maximization in UAV Environments

요 약 현재 5G 기술의 상용화가 이루어 지는 단계이지만 통신 품질을 안정적으로 높이기 위해서는 많은 기 지국이 필요하다. 따라서 지상 기지국을 대신하여 UAV-Base Station(UAV-BS)로 이동성과 경제적 이점 을 얻을 수 있도록 연구가 이루어 지고 있는 추세이다. 이에 본 논문은 다수의 사용자가 UAV 통신을 할 때, 사용자들의 요구량을 고려하여 최적의 서비스 처리량을 가질 수 있는 위치를 찾는 기법을 제안한다. The Air-To-Ground Path Loss Model을 토대로 가상 통신 환경 구축하고, 사용자 요구량에 따른 공평한 채널 사용 시간 분배를 위해 Airtime Fairness를 적용한다. 더불어, 본 논문은 서비스 처리량 최대 위치를 찾기 위한 방법으로 Proximal Policy Optimization(PPO) 강화학습 알고리즘을 사용한다. 결과적으로 본 연 구를 통해 서로 다른 요구량을 가진 사용자들이 임의로 배치되어 있을 때, 학습의 결과 모델을 통해 높 은 서비스 처리량을 가진 위치를 찾을 수 있었다.