标签:

强化学习之一二

在这篇文章中,我们从强化学习的基本概念开始,而后介绍一些经典的算法,带大家快速浏览强化学习世界。希望这篇文章帮助新手快速开始精彩的强化学习之旅。【注意】 这篇文章比较长哦。

在这篇文章中,我们从强化学习的基本概念开始,而后介绍一些经典的算法,带大家快速浏览强化学习世界。希望这篇文章帮助新手快速开始精彩的强化学习之旅。【注意】 这篇文章比较长哦。

策略梯度算法专题

在本文中,我们深入了解一下策略梯度算法、工作原理以及一些近年来新提出的改进算法,包含:朴素(vanilla)策略梯度、actor-critic、off-policy 策略梯度、A3C、A2C、DPG、DDPG、D4PG、MADDPG、TRPO、PPO、ACER、ACTKR、SAC、TD3以及SVPG。

在本文中,我们深入了解一下策略梯度算法、工作原理以及一些近年来新提出的改进算法,包含:朴素(vanilla)策略梯度、actor-critic、off-policy 策略梯度、A3C、A2C、DPG、DDPG、D4PG、MADDPG、TRPO、PPO、ACER、ACTKR、SAC、TD3以及SVPG。

SquirRL: Automating Attack Analysis on Blockchain Incentive Mechanisms with Deep Reinforcement Learning

本文发表于2021年的NDSS,由CMU和北大的两位学生共同一作。这篇文章对于区块链的运行环境进行了建模,并在此基础上使用强化学习分析了区块链激励机制中的攻击问题。

本文发表于2021年的NDSS,由CMU和北大的两位学生共同一作。这篇文章对于区块链的运行环境进行了建模,并在此基础上使用强化学习分析了区块链激励机制中的攻击问题。

Proximal Policy Optimization Algorithms

此文提出了著名的PPO算法,由谷歌 Open AI 于17年发布,对于深度强化学习领域产生了巨大的影响。在此之前,Natural Policy Gradient 算法解决了策略梯度算法的收敛性问题,但是此算法需要计算二阶导矩阵,在实际使用中性能受限,扩展性差。现有许多研究研究工作都是围绕如何通过近似二阶优化算法来降低算法复杂度。PPO算法采用了一个不太一样的方法,它没有引入一个强约束,而是将约束项作为目标函数中的一个惩罚项。这样就可以使用一阶优化算法来进行模型优化,大大降低了算法复杂度。

此文提出了著名的PPO算法,由谷歌 Open AI 于17年发布,对于深度强化学习领域产生了巨大的影响。在此之前,Natural Policy Gradient 算法解决了策略梯度算法的收敛性问题,但是此算法需要计算二阶导矩阵,在实际使用中性能受限,扩展性差。现有许多研究研究工作都是围绕如何通过近似二阶优化算法来降低算法复杂度。PPO算法采用了一个不太一样的方法,它没有引入一个强约束,而是将约束项作为目标函数中的一个惩罚项。这样就可以使用一阶优化算法来进行模型优化,大大降低了算法复杂度。

High-Dimensional Continuous Control Using Generalized Advantage Estimation

强化学习中常用的策略梯度算法有两个主要的挑战: 1. 算法需要大量样本支撑:以降低训练过程中的样本方差大的问题; 2. 稳定训练困难:在实际训练过程中,我们经常可以看到模型得到的奖励值波动非常大。 对于第一个挑战,本文通过设计的值函数,可以以少量偏差的损失为代价来换取方差的降低。对于第二个问题,本文提出对于策略函数和值函数应用可信域优化的方法来稳定训练过程。

强化学习中常用的策略梯度算法有两个主要的挑战: 1. 算法需要大量样本支撑:以降低训练过程中的样本方差大的问题; 2. 稳定训练困难:在实际训练过程中,我们经常可以看到模型得到的奖励值波动非常大。 对于第一个挑战,本文通过设计的值函数,可以以少量偏差的损失为代价来换取方差的降低。对于第二个问题,本文提出对于策略函数和值函数应用可信域优化的方法来稳定训练过程。

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

SAC算法是Tuomas Haarnoja于DeepMind在2018年提出的强化学习算法。无模型深度强化学习在决策和控制任务中应用时会遇到两个挑战:1. 需要大量的样本;2. 收敛性。此算法希望为​解决这两个挑战提供一个好的解决方案。

SAC算法是Tuomas Haarnoja于DeepMind在2018年提出的强化学习算法。无模型深度强化学习在决策和控制任务中应用时会遇到两个挑战:1. 需要大量的样本;2. 收敛性。此算法希望为​解决这两个挑战提供一个好的解决方案。

A Distributional Perspective on Reinforcement Learning

这篇文章发表于2017年的ICML,一作是Marc G. Bellemare,现就职于Google Brain。这篇文章主要分析研究如何使用一个分布而不是单个值去进行强化学习(Reinforcement Learning, RL)。

这篇文章发表于2017年的ICML,一作是Marc G. Bellemare,现就职于Google Brain。这篇文章主要分析研究如何使用一个分布而不是单个值去进行强化学习(Reinforcement Learning, RL)。

强化学习经典算法实验之DQN

DQN论文是 DeepMind 的研究人员在2013年发表的。一作作者Volodymyr Mnih博士毕业于多伦多大学,对人工智能领域特别是强化学习有杰出贡献。DQN的论文首次使用卷机神经网络直接处理游戏画面来进行Atari游戏的控制。

DQN论文是 DeepMind 的研究人员在2013年发表的。一作作者Volodymyr Mnih博士毕业于多伦多大学,对人工智能领域特别是强化学习有杰出贡献。DQN的论文首次使用卷机神经网络直接处理游戏画面来进行Atari游戏的控制。

Parameter-exploring policy gradients

本文介绍了一种解决部分可观测马尔可夫问题的一种无模型(model-free)强化学习方法(PGPE)。和一般策略梯度方法不同的是,此方法通过在参数空间中直接进行采样来得到梯度值的估计。PEPG可以降低梯度值估计的方差,让学习过程更加稳定、快速,并且在策略不可导的情况下也可以使用。

本文介绍了一种解决部分可观测马尔可夫问题的一种无模型(model-free)强化学习方法(PGPE)。和一般策略梯度方法不同的是,此方法通过在参数空间中直接进行采样来得到梯度值的估计。PEPG可以降低梯度值估计的方差,让学习过程更加稳定、快速,并且在策略不可导的情况下也可以使用。

强化学习经典算法实验之REINFORCE

本文介绍经典的强化学习算法,并实现了此算法用于平衡杆实验。

本文介绍经典的强化学习算法,并实现了此算法用于平衡杆实验。

Learning Invariant Representations for Reinforcement Learning without Reconstruction

这篇论文发表在2021年的ICLR,一作Amy Zhang目前在加州伯克利做博士后,她同时还在脸书AI研究部门担任科学家。论文研究了在强化学习环境下在不使用数据重构(类似autoencoder)方法时,如何得到一个好的环境编码的问题。

这篇论文发表在2021年的ICLR,一作Amy Zhang目前在加州伯克利做博士后,她同时还在脸书AI研究部门担任科学家。论文研究了在强化学习环境下在不使用数据重构(类似autoencoder)方法时,如何得到一个好的环境编码的问题。

Conservative Q-Learning for Offline Reinforcement Learning

这篇论文发布于2020年的NIPS,一作为伯克利人工智能实验室的研究人员 Aviral Kumar。论文旨在解决离线(offline)强化学习中由分布漂移(distributional shift)导致的价值函数超估(overestimation)问题。

这篇论文发布于2020年的NIPS,一作为伯克利人工智能实验室的研究人员 Aviral Kumar。论文旨在解决离线(offline)强化学习中由分布漂移(distributional shift)导致的价值函数超估(overestimation)问题。

Evolution Strategies as a Scalable Alternative to Reinforcement Learning

这篇论文由Openai研究人员在2017年发布于arXiv上。论文改进了进化算法在强化学习中的应用,论文提出的方法极大地降低了不同进程间的通信量,让进化算法可以大规模并行。

这篇论文由Openai研究人员在2017年发布于arXiv上。论文改进了进化算法在强化学习中的应用,论文提出的方法极大地降低了不同进程间的通信量,让进化算法可以大规模并行。

深度强化学习中的探索策略

在强化学习中,探索与利用是一个非常重要的主题。我们希望智能体可以尽可能快地找到最佳解决方案。而同时,在没有经过足够探索的情况所获取到的策略可能很糟糕。它很有可能是一个局部最优方案或者是一个失败的方案。以最大回报率为优化目标的现代强化学习算法可以非常高效地实施“利用”这一过程,但是,如何进行探索一直是一个开放讨论的话题。

在强化学习中,探索与利用是一个非常重要的主题。我们希望智能体可以尽可能快地找到最佳解决方案。而同时,在没有经过足够探索的情况所获取到的策略可能很糟糕。它很有可能是一个局部最优方案或者是一个失败的方案。以最大回报率为优化目标的现代强化学习算法可以非常高效地实施“利用”这一过程,但是,如何进行探索一直是一个开放讨论的话题。