论文信息 - Total Reward Variance in Discrete and Continuous Time Markov Chains - 字舞流文

Total Reward Variance in Discrete and Continuous Time Markov Chains

This note studies the variance of total cumulative rewards for Markov reward chains in both discrete and continuous time. It is shown that parallel results can be obtained for both cases.

Karel Sladký | Nico M. van Dijk | K. Sladký | N. Dijk

[1] M. J. Sobel. The variance of discounted Markov decision processes , 1982 .

[2] D. G. MacKay. Context-dependent stuttering , 1970, Kybernetik.

[3] Francisco Benito. Calculating the variance in Markov-processes with random reward , 1982 .

[4] K. Sladký,et al. Optimal Solutions for Undiscounted Variance Penalized Markov Decision Chains , 2004 .

[5] Georg Ch. Pflug,et al. Dynamic Stochastic Optimization , 2004 .

[6] Martin L. Puterman,et al. Markov Decision Processes: Discrete Stochastic Dynamic Programming , 1994 .

[7] D. White. Mean, variance, and probabilistic criteria in finite Markov decision processes: A review , 1988 .