标签搜索 - 策略梯度

标签： 策略梯度

关注

强化学习之一二

在这篇文章中，我们从强化学习的基本概念开始，而后介绍一些经典的算法，带大家快速浏览强化学习世界。希望这篇文章帮助新手快速开始精彩的强化学习之旅。【注意】这篇文章比较长哦。

人工智能策略梯度强化学习 TD学习蒙特卡洛

爱吃猫的鱼

15614

2021年9月13日

策略梯度算法专题

在本文中，我们深入了解一下策略梯度算法、工作原理以及一些近年来新提出的改进算法，包含：朴素(vanilla)策略梯度、actor-critic、off-policy 策略梯度、A3C、A2C、DPG、DDPG、D4PG、MADDPG、TRPO、PPO、ACER、ACTKR、SAC、TD3以及SVPG。

策略梯度强化学习 actor-critic PG

爱吃猫的鱼

9531

2021年8月23日

Proximal Policy Optimization Algorithms

此文提出了著名的PPO算法，由谷歌 Open AI 于17年发布，对于深度强化学习领域产生了巨大的影响。在此之前，Natural Policy Gradient 算法解决了策略梯度算法的收敛性问题，但是此算法需要计算二阶导矩阵，在实际使用中性能受限，扩展性差。现有许多研究研究工作都是围绕如何通过近似二阶优化算法来降低算法复杂度。PPO算法采用了一个不太一样的方法，它没有引入一个强约束，而是将约束项作为目标函数中的一个惩罚项。这样就可以使用一阶优化算法来进行模型优化，大大降低了算法复杂度。

策略梯度强化学习 PPO

爱吃猫的鱼

1146

2021年7月5日

High-Dimensional Continuous Control Using Generalized Advantage Estimation

强化学习中常用的策略梯度算法有两个主要的挑战： 1. 算法需要大量样本支撑：以降低训练过程中的样本方差大的问题； 2. 稳定训练困难：在实际训练过程中，我们经常可以看到模型得到的奖励值波动非常大。对于第一个挑战，本文通过设计的值函数，可以以少量偏差的损失为代价来换取方差的降低。对于第二个问题，本文提出对于策略函数和值函数应用可信域优化的方法来稳定训练过程。

人工智能策略梯度 GAE 强化学习

爱吃猫的鱼

1992

2021年6月18日

强化学习之一二

策略梯度算法专题

Proximal Policy Optimization Algorithms

High-Dimensional Continuous Control Using Generalized Advantage Estimation

热门主题