论文信息 - Global Policy Construction in Modular Reinforcement Learning

Global Policy Construction in Modular Reinforcement Learning

We propose a modular reinforcement learning algorithm which decomposes a Markov decision process into independent modules. Each module is trained using Sarsa(λ). We introduce three algorithms for forming global policy from modules policies, and demonstrate our results using a 2D grid world.

Dana H. Ballard | Zhao Song | Ruohan Zhang

[1] Richard S. Sutton,et al. Introduction to Reinforcement Learning , 1998 .

[2] Stuart J. Russell,et al. Q-Decomposition for Reinforcement Learning Agents , 2003, ICML.

[3] Mitsuo Kawato,et al. Multiple Model-Based Reinforcement Learning , 2002, Neural Computation.

[4] Dana H. Ballard,et al. Multiple-Goal Reinforcement Learning with Modular Sarsa(0) , 2003, IJCAI.

[5] Thomas G. Dietterich. The MAXQ Method for Hierarchical Reinforcement Learning , 1998, ICML.

[6] Maja J. Matarić,et al. Action Selection methods using Reinforcement Learning , 1996 .

[7] Andrew W. Moore,et al. Generalization in Reinforcement Learning: Safely Approximating the Value Function , 1994, NIPS.