线性整流函数

定義

通常意義下，線性整流函式指代數學中的斜坡函式，即

f(x)=\max(0,x)

而在神經網路中，線性整流作為神經元的啟用功能，定義了該神經元線上性變換 $\mathbf {w} ^{T}\mathbf {x} +b$ 之後的非線性輸出結果。換言之，對於進入神經元的來自上一層神經網路的輸入向量 $x$ ，使用線性整流啟用功能的神經元會輸出

\max(0,\mathbf {w} ^{T}\mathbf {x} +b)

至下一層神經元或作為整個神經網路的輸出（取決現神經元在網路結構中所處位置）。

Remove ads

變種

線性整流函式在基於斜坡函式的基礎上有其他同樣被廣泛應用於深度學習的變種，譬如帶洩露線性整流（Leaky ReLU）^[2]，帶洩露隨機線性整流（Randomized Leaky ReLU）^[3]，以及噪聲線性整流（Noisy ReLU）^[4].

帶洩露線性整流

在輸入值 $x$ 為負的時候，帶洩露線性整流函式（Leaky ReLU）的梯度為一個常數 $\lambda \in (0,1)$ ，而不是0。在輸入值為正的時候，帶洩露線性整流函式和普通斜坡函式保持一致。換言之，

f(x)={\begin{cases}x&{\mbox{if }}x>0\\\lambda x&{\mbox{if }}x\leq 0\end{cases}}

在深度學習中，如果設定 $\lambda$ 為一個可通過反向傳播演算法（Backpropagation）學習的變數，那麼帶洩露線性整流又被稱為參數線性整流（Parametric ReLU）^[5]。

帶洩露隨機線性整流

帶洩露隨機線性整流（Randomized Leaky ReLU, RReLU）最早是在Kaggle全美資料科學大賽（NDSB）中被首先提出並使用的。相比於普通帶洩露線性整流函式，帶洩露隨機線性整流在負輸入值段的函式梯度 $\lambda$ 是一個取自連續性均勻分布 $U(l,u)$ 概率模型的隨機變數，即

f(x)={\begin{cases}x&{\mbox{if }}x>0\\\lambda x&{\mbox{if }}x\leq 0\end{cases}}

其中 $\lambda \sim U(l,u),l<u$ 且 $l,u\in [0,1)$ 。

Remove ads

噪聲線性整流

噪聲線性整流（Noisy ReLU）是修正線性單元在考慮高斯噪聲的基礎上進行改進的變種啟用功能。對於神經元的輸入值 $x$ ，噪聲線性整流加上了一定程度的常態分布的不確定性，即

f(x)=\max(0,x+Y)

其中隨機變數 $Y\sim {\mathcal {N}}(0,\sigma (x))$ 。目前，噪聲線性整流函式在受限玻爾茲曼機（Restricted Boltzmann Machine）在電腦圖學的應用中取得了比較好的成果^[4]。

Remove ads

優勢

相比於傳統的神經網路啟用功能，諸如邏輯斯諦函式（Logistic sigmoid）和tanh等雙曲函式，線性整流函式有著以下幾方面的優勢：

仿生物學原理：相關大腦方面的研究表明生物神經元的訊息編碼通常是比較分散及稀疏的^[6]。通常情況下，大腦中在同一時間大概只有1%-4%的神經元處於活躍狀態。使用線性修正以及正規化（regularization）可以對機器神經網路中神經元的活躍度（即輸出為正值）進行除錯；相比之下，邏輯函式在輸入為0時達到 ${\frac {1}{2}}$ ，即已經是半飽和的穩定狀態，不夠符合實際生物學對類比神經網路的期望^[1]。不過需要指出的是，一般情況下，在一個使用修正線性單元（即線性整流）的神經網路中大概有50%的神經元處於啟用態^[1]，然而這樣的對比不具科學意義，原因在於大腦是多功能多模態模型，神經元集輸出輸入思考記憶為一體，因此處理單向任務自然使用的相關神經元很少，而神經網路通常整個網路的神經元都為了單一任務訓練，因此活化時有很高比例的神經元都會用到。
更加有效率的梯度下降以及反向傳播：避免了梯度爆炸和梯度消失問題
簡化計算過程：沒有了其他複雜啟用功能中諸如指數函式的影響；同時活躍度的分散性使得神經網路整體計算成本下降

Remove ads

線性整流函式

定義

變種

帶洩露線性整流

帶洩露隨機線性整流

噪聲線性整流

優勢

參考資料

外部連結

Wikiwand - on