论文信息 - Efficient Reinforcement Learning with Multiple Reward Functions for Randomized Controlled Trial Analysis

Efficient Reinforcement Learning with Multiple Reward Functions for Randomized Controlled Trial Analysis

We introduce new, efficient algorithms for value iteration with multiple reward functions and continuous state. We also give an algorithm for finding the set of all non-dominated actions in the continuous state setting. This novel extension is appropriate for environments with continuous or finely discretized states where generalization is required, as is the case for data analysis of randomized controlled trials.

[1] John N. Tsitsiklis,et al. Neuro-Dynamic Programming , 1996, Encyclopedia of Machine Learning.

[2] Joelle Pineau,et al. Point-based value iteration: An anytime algorithm for POMDPs , 2003, IJCAI.

[3] D. Kupfer,et al. Sequenced treatment alternatives to relieve depression (STAR*D): rationale and design. , 2004, Controlled clinical trials.

[4] Matthias Ehrgott,et al. Multicriteria Optimization , 2005 .

[5] Joelle Pineau,et al. Constructing evidence-based treatment strategies using methods from computer science. , 2007, Drug and alcohol dependence.

[6] S. Murphy,et al. Methodological Challenges in Constructing Effective Treatment Sequences for Chronic Psychiatric Disorders , 2007, Neuropsychopharmacology.

[7] Srini Narayanan,et al. Learning all optimal policies with multiple criteria , 2008, ICML '08.

[8] M. Kosorok,et al. Reinforcement learning design for cancer clinical trials , 2009, Statistics in medicine.