论文信息 - An Off-Policy Trust Region Policy Optimization Method With Monotonic Improvement Guarantee for Deep Reinforcement Learning - 字舞流文

An Off-Policy Trust Region Policy Optimization Method With Monotonic Improvement Guarantee for Deep Reinforcement Learning

Wenjia Meng | Qian Zheng | Gang Pan | Yuejun Shi