您現(xiàn)在的位置是：首頁 > 課外活動 >激活函數(shù)初學(xué)者指南pdf(激活函數(shù)的使用)

激活函數(shù)初學(xué)者指南pdf(激活函數(shù)的使用)

發(fā)布時間：2024-08-12 00:21:57 課外活動 560次作者：合肥育英學(xué)校

激活函數(shù)將非線性引入網(wǎng)絡(luò)，因此激活函數(shù)本身也稱為非線性。神經(jīng)網(wǎng)絡(luò)是通用函數(shù)逼近器，而深度神經(jīng)網(wǎng)絡(luò)是基于反向傳播進(jìn)行訓(xùn)練的，因此需要可微的激活函數(shù)。反向傳播在此函數(shù)上應(yīng)用梯度下降來更新網(wǎng)絡(luò)的權(quán)重。了解激活函數(shù)非常重要，因?yàn)樗谏疃壬窠?jīng)網(wǎng)絡(luò)的質(zhì)量中起著關(guān)鍵作用。本文將列出并描述不同的激活函數(shù)。

線性激活函數(shù)

恒等函數(shù)（Identity）或線性激活（Linearactivation）函數(shù)是最簡單的激活函數(shù)。輸出與輸入成正比。線性激活函數(shù)的問題在于它的導(dǎo)數(shù)是一個常數(shù)，而梯度也是一個常數(shù)，所以梯度下降不起作用。

取值范圍：(-,+)

示例：f(2)=2或f(-4)=-4

階躍函數(shù)

階躍函數(shù)（Heaviside階躍函數(shù)）通常僅對單層感知器有用，單層感知器是神經(jīng)網(wǎng)絡(luò)的早期形式，可用于對線性可分離數(shù)據(jù)進(jìn)行分類。這些函數(shù)可用于二元分類任務(wù)。其輸出為A1（如果輸入之和高于某個閾值）或A0（如果輸入之和低于某個閾值）。感知器使用的值為A1=1，A0=0。

取值范圍：0或1

示例：f(2)=1、f(-4)=0、f(0)=0、f(1)=1

圖片來源：維基百科

sigmoid函數(shù)

sigmoid函數(shù)，也稱為邏輯激活函數(shù)（Logistic激活函數(shù)），最常用于二元分類問題。它存在梯度消失問題。經(jīng)過一定數(shù)量的epoch后，網(wǎng)絡(luò)拒絕學(xué)習(xí)，或者學(xué)習(xí)速度非常慢，因?yàn)檩斎?X)導(dǎo)致輸出(Y)的變化非常小。如今，sigmoid函數(shù)主要用于分類問題。該函數(shù)在后續(xù)層中更容易遇到飽和問題，導(dǎo)致訓(xùn)練困難。計(jì)算sigmoid函數(shù)的導(dǎo)數(shù)非常簡單。

就神經(jīng)網(wǎng)絡(luò)的反向傳播過程而言，每一層都會壓縮（至少）四分之一的誤差。因此，網(wǎng)絡(luò)越深，關(guān)于數(shù)據(jù)的知識就會“丟失”得越多。某些輸出層中的“大”誤差可能不會影響相對較淺的層中神經(jīng)元的突觸權(quán)重（“較淺”意味著更接近輸入層）。

sigmoid函數(shù)定義

sigmoid函數(shù)的導(dǎo)數(shù)

取值范圍：(0,1)

示例：f(4)=0.982、f(-3)=0.0474、f(-5)=0.0067

圖片來源：維基百科

圖片來源：深度學(xué)習(xí)納米基金會

tanh函數(shù)

tanh函數(shù)是一個拉伸sigmoid函數(shù)，以零為中心，因此導(dǎo)數(shù)更陡。tanh比sigmoid激活函數(shù)收斂得更快。

取值范圍：(-1,1)

示例：tanh(2)=0.9640，tanh(-0.567)=-0.5131，tanh(0)=0

圖片來源：維基百科

ReLU函數(shù)

ReLU（修正線性單元）訓(xùn)練速度比tanh快6倍。當(dāng)輸入值小于零時，輸出值為零。當(dāng)輸入值大于或等于0時，輸出值等于輸入值。當(dāng)輸入值為正時，導(dǎo)數(shù)為1，因此sigmoid函數(shù)反向傳播時不會有擠壓效應(yīng)。

取值范圍：[0,x)

示例：f(-5)=0、f(0)=0、f(5)=5

圖片來源：維基百科

不幸的是，ReLU可能很脆弱，可能在訓(xùn)練時“死亡”。例如，通過ReLU神經(jīng)元的大梯度可能會導(dǎo)致權(quán)重更新過多，從而導(dǎo)致神經(jīng)元永遠(yuǎn)不會觸發(fā)任何數(shù)據(jù)點(diǎn)。如果發(fā)生這種情況，從現(xiàn)在開始，通過該單元的梯度將始終為零。也就是說，ReLU單元可能在訓(xùn)練期間不可逆地死亡，因?yàn)樗鼈儽惶叱隽藬?shù)據(jù)流形。例如，您可能會發(fā)現(xiàn)，如果學(xué)習(xí)率設(shè)置得太高，40%的網(wǎng)絡(luò)可能會“死亡”（即神經(jīng)元永遠(yuǎn)不會在整個訓(xùn)練數(shù)據(jù)集上激發(fā)）。設(shè)置合適的學(xué)習(xí)率可以緩解這個問題?！驳铝摇たㄅ廖鰿S231n課程

LeakyReLU函數(shù)

LeakyReLU允許單元在未激活時具有小的非零梯度。這里，小的非零梯度是0.01。

取值范圍：(-,+)

PReLU函數(shù)

PReLU（參數(shù)化整流線性單元）函數(shù)與LeakyReLU類似，只不過使用系數(shù)（一個小的非零梯度）作為激活函數(shù)的參數(shù)。該參數(shù)與網(wǎng)絡(luò)的其他參數(shù)一樣，是在訓(xùn)練過程中學(xué)習(xí)的。

取值范圍：(-,+)

RReLU函數(shù)

RReLU也和LeakyReLU類似，只不過系數(shù)（小非零梯度）在訓(xùn)練時取一定范圍內(nèi)的隨機(jī)值，在測試時固定。

取值范圍：(-,+)

ELU函數(shù)

ELU（指數(shù)線性單元）嘗試加速學(xué)習(xí)?；贓LU，可以獲得比ReLU更高的分類精度。這里是一個超參數(shù)（限制：0）。

取值范圍：(-,+)

SELU函數(shù)

SELU（縮放指數(shù)線性單元）是ELU的延伸版本。

照片來源：EliorCohen

SReLU函數(shù)

SReLU（S-shapeRectifiedLinearActivationUnit，S形校正線性激活單元）由三個分段線性函數(shù)組成。這些系數(shù)作為網(wǎng)絡(luò)訓(xùn)練期間學(xué)習(xí)的參數(shù)。

取值范圍：(-,+)

不同參數(shù)的SReLU圖像；圖片來源：arXiv:1512.

APL函數(shù)

APL（AdaptivePiecewiseLinear，自適應(yīng)分段線性）函數(shù)

圖片來源：arXiv:1512.

取值范圍：(-,+)

SoftPlus函數(shù)

SoftPlus函數(shù)的導(dǎo)數(shù)是邏輯函數(shù)?？偟膩碚f，ReLU與SoftPlus非常相似，不同之處在于SoftPlus是平滑的并且可微分接近于零。此外，計(jì)算ReLU及其導(dǎo)數(shù)比SoftPlus容易得多。

取值范圍：(0,)

圖片來源：維基百科

bentidentity函數(shù)

彎曲恒等函數(shù)，顧名思義，彎曲恒等函數(shù)。

取值范圍：(-,+)

圖片來源：維基百科

softmax函數(shù)

softmax函數(shù)將原始值轉(zhuǎn)換為后驗(yàn)分布，可以用來衡量確定性。與sigmoid一樣，softmax將每個單元的輸出值壓縮在0和1之間。但是，softmax還確保輸出之和等于1。

圖片來源：dataaspirant.com

softmax函數(shù)的輸出相當(dāng)于類概率分布，它告訴您任何分類為真的概率。

結(jié)語

選擇激活函數(shù)時，優(yōu)先考慮ReLU及其變體，而不是sigmoid或tanh。同時，ReLU及其變體的訓(xùn)練速度更快。如果ReLU導(dǎo)致神經(jīng)元死亡，請使用LeakyReLU或ReLU的其他變體。Sigmoid和tanh存在梯度消失問題，不應(yīng)該在隱藏層中使用。最好使用ReLU及其變體作為隱藏層。使用易于區(qū)分和訓(xùn)練的激活函數(shù)。

激活函數(shù)初學(xué)者指南pdf(激活函數(shù)的使用)

相關(guān)資訊