梯度下降法

梯度下降法（英语：Gradient descent）是一种求解无约束最优化问题的一阶迭代最优化算法，它被用来求得可微函数的局部极小值，通常也称为最陡下降法，但是不该与近似积分的最陡下降法（英语：Method of steepest descent）混淆。要使用梯度下降法找到一个函数的局部极小值，必须向函数上当前点对应梯度（或者是近似梯度）的反方向的规定步长距离点进行迭代搜索，因为这是最陡下降的方向。如果相反地向梯度正方向迭代进行搜索，则会接近函数的局部极大值点，这个过程则被称为梯度上升法。梯度下降法在机器学习中对于成本的最小化或损失函数的最小化都特别有用。^[1]梯度下降法不应与局部搜索算法（英语：local search algorithms）相混淆，尽管两者都是迭代最优化算法。

梯度下降法通常被认为是奥古斯丁-路易·柯西（法语：Augustin-Louis Cauchy）在1847年首次提出的。^[2]雅克·所罗门·阿达马（法语：Jacques Solomon Hadamard）在1907年独立提出了一个类似的方法。^[3]^[4]哈斯凯尔·柯里（英语：Haskell Brooks Curry）在1944年首先研究了该方法对非线性优化问题的收敛性^[5]；在随后的几十年里，该方法得到了越来越多的研究和使用。^[6] ^[7]

随机梯度下降法（英语：stochastic gradient descent）作为梯度下降法的一个简单延展，是目前用于训练大多数深度学习结构（英语：deep networks）的最基本的算法。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

梯度下降法

描述

例子

缺点

参阅

参考文献

外部链接

Wikiwand - on