论文信息 - Policy Gradient Methods for Reinforcement Learning with Function Approximation and Action-Dependent Baselines

Policy Gradient Methods for Reinforcement Learning with Function Approximation and Action-Dependent Baselines

We show how an action-dependent baseline can be used by the policy gradient theorem using function approximation, originally presented with action-independent baselines by (Sutton et al. 2000).

Philip S. Thomas | Emma Brunskill | P. Thomas | Emma Brunskill | E. Brunskill

[1] Yishay Mansour,et al. Policy Gradient Methods for Reinforcement Learning with Function Approximation , 1999, NIPS.

[2] P. Bartlett,et al. Direct Gradient-Based Reinforcement Learning: I. Gradient Estimation Algorithms , 1999 .

[3] Philip S. Thomas,et al. A Notation for Markov Decision Processes , 2015, ArXiv.