梯度消失问题

梯度消失问题（Vanishing gradient problem）是一种机器学习中的难题，出现在以梯度下降法和反向传播训练人工神经网络的时候。在每次训练的迭代中，神经网路权重的更新值与误差函数的偏导数成比例，然而在某些情况下，梯度值会几乎消失，使得权重无法得到有效更新，甚至神经网络可能完全无法继续训练。举个例子来说明问题起因，一个传统的激励函数如双曲正切函数，其梯度值在 $(-1, 1)$ 范围内，反向传播以链式法则来计算梯度。

这样做的效果，相当于在 $n$ 层网络中，将 $n$ 个这些小数字相乘来计算“前端”层的梯度，这就使梯度（误差信号）随着 $n$ 呈指数递减，导致前端层的训练非常缓慢。

反向传播使研究人员从头开始训练监督式深度人工神经网络，最初收效甚微。 1991年赛普·霍克赖特（Hochreiter）的毕业论文^[1]^[2]正式确认了“梯度消失问题”失败的原因。梯度消失问题不仅影响多层前馈网络，^[3]还影响循环网络。^[4]循环网络是通过将前馈网络深度展开来训练，在网络处理的输入序列的每个时间步骤中，都会产生一个新的层。

当所使用的激励函数之导数可以取较大值时，则可能会遇到相关的梯度爆炸问题（exploding gradient problem）。

[1]

[2]

[3]

[4]

梯度消失问题

解决方案

多级层次结构

长短期记忆

更快的硬件

残差网络（Residual Networks，ResNets）

其他的激活函数

其他

参考文献

Wikiwand - on