论文信息 - Action Elimination Procedures for Modified Policy Iteration Algorithms

Action Elimination Procedures for Modified Policy Iteration Algorithms

This paper proposes bounds and action elimination procedures for policy iteration and modified policy iteration. Procedures to eliminate nonoptimal actions for one iteration and for all subsequent iterations are presented. The implementation of these procedures is discussed and encouraging computational results are presented.

Martin L. Puterman | Moon Chirl Shin | M. Puterman | M. C. Shin

[1] Ronald A. Howard,et al. Dynamic Programming and Markov Processes , 1960 .

[2] Evan L. Porteus. Some Bounds for Discounted Sequential Decision Processes , 1971 .

[3] N. Hastings,et al. Tests for Suboptimal Actions in Discounted Markov Programming , 1973 .

[4] Evan L. Porteus. Bounds and Transformations for Discounted Finite Markov Decision Chains , 1975, Oper. Res..

[5] N. Hastings,et al. Note---A Test for Nonoptimal Actions in Undiscounted Finite Markov Decision Chains , 1976 .

[6] J.A.E.E. van Nunen,et al. The action elimination algorithm for Markov decision processes , 1976 .

[7] J. A. E. E. van Nunen. Contracting Markov decision processes , 1976 .

[8] G. Hübner. Improved Procedures for Eliminating Suboptimal Actions in Markov Programming by the Use of Contraction Properties , 1977 .

[9] Evan L. Porteus,et al. Technical Note - Accelerated Computation of the Expected Discounted Return in a Markov Chain , 1978, Oper. Res..

[10] M. Puterman,et al. Modified Policy Iteration Algorithms for Discounted Markov Decision Problems , 1978 .

[11] Martin L. Puterman,et al. On the Convergence of Policy Iteration in Stationary Dynamic Programming , 1979, Math. Oper. Res..

[12] Evan L. Porteus. Improved iterative computation of the expected discounted return in Markov and semi-Markov chains , 1980, Z. Oper. Research.

[13] Moon Chirl Shin. Computational methods for Markov decision problems , 1980 .