标签:

On the Convergence of Adam and Beyond

现在训练深度学习网络的主要方法就是使用SGD优化器及其变体。一些SGD的变体比如:Adam, AdaDelta, Nadam等优化器利用历史梯度更新指数滑动平均的平方根信息。根据经验来看,在许多应用中,这些优化器无法让模型收敛到最优解。本文的分析指出,导致该问题的一个原因就是这些优化器中使用了历史梯度的指数滑动平均信息。文中通过一个简单的例子展示了Adam优化器是如何收敛到了一个非常差的结果的。为了解决此问题,文章提出了一个新的改进的优化器算法*AMSGrad*。该优化器不仅可以解决前面提到的收敛性问题,而且根据实验来看,还可以在一定程度上改善Adam的性能。

现在训练深度学习网络的主要方法就是使用SGD优化器及其变体。一些SGD的变体比如:Adam, AdaDelta, Nadam等优化器利用历史梯度更新指数滑动平均的平方根信息。根据经验来看,在许多应用中,这些优化器无法让模型收敛到最优解。本文的分析指出,导致该问题的一个原因就是这些优化器中使用了历史梯度的指数滑动平均信息。文中通过一个简单的例子展示了Adam优化器是如何收敛到了一个非常差的结果的。为了解决此问题,文章提出了一个新的改进的优化器算法*AMSGrad*。该优化器不仅可以解决前面提到的收敛性问题,而且根据实验来看,还可以在一定程度上改善Adam的性能。