简介: 在神经网络的训练过程中,每一层的参数都在变化着,这就引起了该层的输出在不断变化,也就是其后续层的输入的分布在不断变化。这种变化的特性,导致人们必须仔细的选择神经网络初始化的数据并且使用较小的学习率,这就降低了神经网络的训练速度,由此可见训练神经网络并不是一项简单的工作。本文称神经网络层的这种输出不断变化的现象为内部协变量转移 (Internal Covariate Shift, ICS)。对此问题,本文提出了使用批标准化 (Batch Normalization, BN)来解决此问题。BN的使用可以让我们使用更高的学习率,在一些情况下还可以免去使用Dropout,而泛化性依旧可以保持。
简介: 强化学习中常用的策略梯度算法有两个主要的挑战:
1. 算法需要大量样本支撑:以降低训练过程中的样本方差大的问题;
2. 稳定训练困难:在实际训练过程中,我们经常可以看到模型得到的奖励值波动非常大。
对于第一个挑战,本文通过设计的值函数,可以以少量偏差的损失为代价来换取方差的降低。对于第二个问题,本文提出对于策略函数和值函数应用可信域优化的方法来稳定训练过程。
简介: 在神经网络的训练过程中,每一层的参数都在变化着,这就引起了该层的输出在不断变化,也就是其后续层的输入的分布在不断变化。这种变化的特性,导致人们必须仔细的选择神经网络初始化的数据并且使用较小的学习率,这就降低了神经网络的训练速度,由此可见训练神经网络并不是一项简单的工作。本文称神经网络层的这种输出不断变化的现象为内部协变量转移 (Internal Covariate Shift, ICS)。对此问题,本文提出了使用批标准化 (Batch Normalization, BN)来解决此问题。BN的使用可以让我们使用更高的学习率,在一些情况下还可以免去使用Dropout,而泛化性依旧可以保持。
简介: 强化学习中常用的策略梯度算法有两个主要的挑战:
1. 算法需要大量样本支撑:以降低训练过程中的样本方差大的问题;
2. 稳定训练困难:在实际训练过程中,我们经常可以看到模型得到的奖励值波动非常大。
对于第一个挑战,本文通过设计的值函数,可以以少量偏差的损失为代价来换取方差的降低。对于第二个问题,本文提出对于策略函数和值函数应用可信域优化的方法来稳定训练过程。