标签:

Conservative Q-Learning for Offline Reinforcement Learning

这篇论文发布于2020年的NIPS,一作为伯克利人工智能实验室的研究人员 Aviral Kumar。论文旨在解决离线(offline)强化学习中由分布漂移(distributional shift)导致的价值函数超估(overestimation)问题。

这篇论文发布于2020年的NIPS,一作为伯克利人工智能实验室的研究人员 Aviral Kumar。论文旨在解决离线(offline)强化学习中由分布漂移(distributional shift)导致的价值函数超估(overestimation)问题。