论文信息 - Improving proximal policy optimization with alpha divergence - 字舞流文

Improving proximal policy optimization with alpha divergence

Jie Lu | Guangquan Zhang | Haotian Xu | Junyu Xuan | Zheng Yan