标签:

强化学习之一二

在这篇文章中,我们从强化学习的基本概念开始,而后介绍一些经典的算法,带大家快速浏览强化学习世界。希望这篇文章帮助新手快速开始精彩的强化学习之旅。【注意】 这篇文章比较长哦。

在这篇文章中,我们从强化学习的基本概念开始,而后介绍一些经典的算法,带大家快速浏览强化学习世界。希望这篇文章帮助新手快速开始精彩的强化学习之旅。【注意】 这篇文章比较长哦。

策略梯度算法专题

在本文中,我们深入了解一下策略梯度算法、工作原理以及一些近年来新提出的改进算法,包含:朴素(vanilla)策略梯度、actor-critic、off-policy 策略梯度、A3C、A2C、DPG、DDPG、D4PG、MADDPG、TRPO、PPO、ACER、ACTKR、SAC、TD3以及SVPG。

在本文中,我们深入了解一下策略梯度算法、工作原理以及一些近年来新提出的改进算法,包含:朴素(vanilla)策略梯度、actor-critic、off-policy 策略梯度、A3C、A2C、DPG、DDPG、D4PG、MADDPG、TRPO、PPO、ACER、ACTKR、SAC、TD3以及SVPG。

Proximal Policy Optimization Algorithms

此文提出了著名的PPO算法,由谷歌 Open AI 于17年发布,对于深度强化学习领域产生了巨大的影响。在此之前,Natural Policy Gradient 算法解决了策略梯度算法的收敛性问题,但是此算法需要计算二阶导矩阵,在实际使用中性能受限,扩展性差。现有许多研究研究工作都是围绕如何通过近似二阶优化算法来降低算法复杂度。PPO算法采用了一个不太一样的方法,它没有引入一个强约束,而是将约束项作为目标函数中的一个惩罚项。这样就可以使用一阶优化算法来进行模型优化,大大降低了算法复杂度。

此文提出了著名的PPO算法,由谷歌 Open AI 于17年发布,对于深度强化学习领域产生了巨大的影响。在此之前,Natural Policy Gradient 算法解决了策略梯度算法的收敛性问题,但是此算法需要计算二阶导矩阵,在实际使用中性能受限,扩展性差。现有许多研究研究工作都是围绕如何通过近似二阶优化算法来降低算法复杂度。PPO算法采用了一个不太一样的方法,它没有引入一个强约束,而是将约束项作为目标函数中的一个惩罚项。这样就可以使用一阶优化算法来进行模型优化,大大降低了算法复杂度。

High-Dimensional Continuous Control Using Generalized Advantage Estimation

强化学习中常用的策略梯度算法有两个主要的挑战: 1. 算法需要大量样本支撑:以降低训练过程中的样本方差大的问题; 2. 稳定训练困难:在实际训练过程中,我们经常可以看到模型得到的奖励值波动非常大。 对于第一个挑战,本文通过设计的值函数,可以以少量偏差的损失为代价来换取方差的降低。对于第二个问题,本文提出对于策略函数和值函数应用可信域优化的方法来稳定训练过程。

强化学习中常用的策略梯度算法有两个主要的挑战: 1. 算法需要大量样本支撑:以降低训练过程中的样本方差大的问题; 2. 稳定训练困难:在实际训练过程中,我们经常可以看到模型得到的奖励值波动非常大。 对于第一个挑战,本文通过设计的值函数,可以以少量偏差的损失为代价来换取方差的降低。对于第二个问题,本文提出对于策略函数和值函数应用可信域优化的方法来稳定训练过程。