Finite-horizon variance penalised Markov decision processes

We consider a finite horizon Markov decision process with only terminal rewards. We describe a finite algorithm for computing a Markov deterministic policy which maximises the variance penalised reward and we outline a vertex elimination algorithm which can reduce the computation involved.ZusammenfassungEs wird ein Markoffscher Entscheidungsprozeß mit endlichem Horizont betrachtet; Auszahlungen erfolgen nur am Ende des Prozesses. Dazu wird ein endlicher Algorithmus zur Bestimmung einer deterministischen Markoff-Politik beschrieben, der die um einen Varianz-Strafterm verminderte Auszahlung maximiert. Darüber hinaus wird eine Ecken-Eliminationsprozedur dargestellt, die zu einer Reduktion des Rechenaufwands führen kann.