标签:

深度强化学习中的探索策略

在强化学习中,探索与利用是一个非常重要的主题。我们希望智能体可以尽可能快地找到最佳解决方案。而同时,在没有经过足够探索的情况所获取到的策略可能很糟糕。它很有可能是一个局部最优方案或者是一个失败的方案。以最大回报率为优化目标的现代强化学习算法可以非常高效地实施“利用”这一过程,但是,如何进行探索一直是一个开放讨论的话题。

在强化学习中,探索与利用是一个非常重要的主题。我们希望智能体可以尽可能快地找到最佳解决方案。而同时,在没有经过足够探索的情况所获取到的策略可能很糟糕。它很有可能是一个局部最优方案或者是一个失败的方案。以最大回报率为优化目标的现代强化学习算法可以非常高效地实施“利用”这一过程,但是,如何进行探索一直是一个开放讨论的话题。