论文信息 - Finite-horizon variance penalised Markov decision processes

Finite-horizon variance penalised Markov decision processes

We consider a finite horizon Markov decision process with only terminal rewards. We describe a finite algorithm for computing a Markov deterministic policy which maximises the variance penalised reward and we outline a vertex elimination algorithm which can reduce the computation involved.ZusammenfassungEs wird ein Markoffscher Entscheidungsprozeß mit endlichem Horizont betrachtet; Auszahlungen erfolgen nur am Ende des Prozesses. Dazu wird ein endlicher Algorithmus zur Bestimmung einer deterministischen Markoff-Politik beschrieben, der die um einen Varianz-Strafterm verminderte Auszahlung maximiert. Darüber hinaus wird eine Ecken-Eliminationsprozedur dargestellt, die zu einer Reduktion des Rechenaufwands führen kann.

E. J. Collins

[1] Cyrus Derman,et al. Finite State Markovian Decision Processes , 1970 .

[2] G. C. Shephard,et al. Convex Polytopes and the Upper Bound Conjecture , 1971 .

[3] M. J. Sobel. The variance of discounted Markov decision processes , 1982 .

[4] Jerzy A. Filar,et al. Variance-Penalized Markov Decision Processes , 1989, Math. Oper. Res..

[5] D. J. White. Computational approaches to variance-penalised Markov decision processes , 1992 .

[6] Ying Huang,et al. On Finding Optimal Policies for Markov Decision Chains: A Unifying Framework for Mean-Variance-Tradeoffs , 1994, Math. Oper. Res..

[7] D. J. White. A mathematical programming approach to a problem in variance penalised Markov decision processes , 1994 .

[8] E. J. Collins,et al. Finite-horizon dynamic optimisation when the terminal reward is a concave functional of the distribution of the final state , 1998, Advances in Applied Probability.