论文信息 - Mind the Gap: Offline Policy Optimization for Imperfect Rewards - 字舞流文

Mind the Gap: Offline Policy Optimization for Imperfect Rewards

Qing-Shan Jia | Xianyuan Zhan | Haoran Xu | Jianxiong Li | Ya-Qin Zhang | Xiao Hu | Jingjing Liu | Xianyuan Zhan