论文信息 - Near-optimal Regret Bounds for Reinforcement Learning in Factored MDPs - 字舞流文

Near-optimal Regret Bounds for Reinforcement Learning in Factored MDPs

Benjamin Van Roy | Ian Osband | Ian Osband