论文信息 - Optimal Estimation of Off-Policy Policy Gradient via Double Fitted Iteration - 字舞流文

Optimal Estimation of Off-Policy Policy Gradient via Double Fitted Iteration

Mengdi Wang | Xiang Ji | Xuezhou Zhang | Chengzhuo Ni | Ruiqi Zhang