标签:

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift

在神经网络的训练过程中,每一层的参数都在变化着,这就引起了该层的输出在不断变化,也就是其后续层的输入的分布在不断变化。这种变化的特性,导致人们必须仔细的选择神经网络初始化的数据并且使用较小的学习率,这就降低了神经网络的训练速度,由此可见训练神经网络并不是一项简单的工作。本文称神经网络层的这种输出不断变化的现象为内部协变量转移 (Internal Covariate Shift, ICS)。对此问题,本文提出了使用批标准化 (Batch Normalization, BN)来解决此问题。BN的使用可以让我们使用更高的学习率,在一些情况下还可以免去使用Dropout,而泛化性依旧可以保持。

在神经网络的训练过程中,每一层的参数都在变化着,这就引起了该层的输出在不断变化,也就是其后续层的输入的分布在不断变化。这种变化的特性,导致人们必须仔细的选择神经网络初始化的数据并且使用较小的学习率,这就降低了神经网络的训练速度,由此可见训练神经网络并不是一项简单的工作。本文称神经网络层的这种输出不断变化的现象为内部协变量转移 (Internal Covariate Shift, ICS)。对此问题,本文提出了使用批标准化 (Batch Normalization, BN)来解决此问题。BN的使用可以让我们使用更高的学习率,在一些情况下还可以免去使用Dropout,而泛化性依旧可以保持。