论文信息 - Adaptive Policies in Markov Decision Processes with Uncertain Transition Matrices

Adaptive Policies in Markov Decision Processes with Uncertain Transition Matrices

This study is concerned with Markov Decision Processes with uncertain transition matrices. In the discounted case, the Bayesian analysis of this model is studied.We define an adaptive policy and a learning policy and show that there exists, for any ???> 0 an ???-optimal and learning policy. In the average case, the non-Bayesian analysis of this model is studied and an optimal adaptive policy is constructed.

Masami Kurano

[1] U. Rieder. Bayesian dynamic programming , 1975, Advances in Applied Probability.

[2] D. Blackwell. Discounted Dynamic Programming , 1965 .

[3] C. Derman. On Sequential Decisions and Markov Chains , 1962 .

[4] B. L. Miller,et al. An Optimality Condition for Discrete Dynamic Programming with no Discounting , 1968 .

[5] Adaptive competitive decision in repeated play of a matrix game with uncertain entries , 1968 .

[6] B. Fox,et al. Adaptive Policies for Markov Renewal Programs , 1973 .