梯度下降法

梯度下降法（英語：Gradient descent）是一種求解無約束最佳化問題的一階疊代最佳化算法，它被用來求得可微函數的局部極小值，通常也稱為最陡下降法，但是不該與近似積分的最陡下降法（英語：Method of steepest descent）混淆。要使用梯度下降法找到一個函數的局部極小值，必須向函數上當前點對應梯度（或者是近似梯度）的反方向的規定步長距離點進行疊代搜索，因為這是最陡下降的方向。如果相反地向梯度正方向疊代進行搜索，則會接近函數的局部極大值點，這個過程則被稱為梯度上升法。梯度下降法在機器學習中對於成本的最小化或損失函數的最小化都特別有用。^[1]梯度下降法不應與局部搜索算法（英語：local search algorithms）相混淆，儘管兩者都是疊代最佳化算法。

梯度下降法通常被認為是奧古斯丁-路易·柯西（法語：Augustin-Louis Cauchy）在1847年首次提出的。^[2]雅克·所羅門·阿達馬（法語：Jacques Solomon Hadamard）在1907年獨立提出了一個類似的方法。^[3]^[4]哈斯凱爾·柯里（英語：Haskell Brooks Curry）在1944年首先研究了該方法對非線性最佳化問題的收斂性^[5]；在隨後的幾十年裡，該方法得到了越來越多的研究和使用。^[6] ^[7]

隨機梯度下降法（英語：stochastic gradient descent）作為梯度下降法的一個簡單延展，是目前用於訓練大多數深度學習結構（英語：deep networks）的最基本的算法。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

梯度下降法

描述

例子

缺點

參閱

參考文獻

外部連結

Wikiwand - on