激活函數(shù)初學(xué)者指南pdf(激活函數(shù)的使用)
激活函數(shù)將非線性引入網(wǎng)絡(luò),因此激活函數(shù)本身也稱為非線性。神經(jīng)網(wǎng)絡(luò)是通用函數(shù)逼近器,而深度神經(jīng)網(wǎng)絡(luò)是基于反向傳播進(jìn)行訓(xùn)練的,因此需要可微的激活函數(shù)。反向傳播在此函數(shù)上應(yīng)用梯度下降來更新網(wǎng)絡(luò)的權(quán)重。了解激活函數(shù)非常重要,因?yàn)樗谏疃壬窠?jīng)網(wǎng)絡(luò)的質(zhì)量中起著關(guān)鍵作用。本文將列出并描述不同的激活函數(shù)。
線性激活函數(shù)
恒等函數(shù)(Identity)或線性激活(Linearactivation)函數(shù)是最簡單的激活函數(shù)。輸出與輸入成正比。線性激活函數(shù)的問題在于它的導(dǎo)數(shù)是一個常數(shù),而梯度也是一個常數(shù),所以梯度下降不起作用。
取值范圍:(-,+)
示例:f(2)=2或f(-4)=-4
階躍函數(shù)
階躍函數(shù)(Heaviside階躍函數(shù))通常僅對單層感知器有用,單層感知器是神經(jīng)網(wǎng)絡(luò)的早期形式,可用于對線性可分離數(shù)據(jù)進(jìn)行分類。這些函數(shù)可用于二元分類任務(wù)。其輸出為A1(如果輸入之和高于某個閾值)或A0(如果輸入之和低于某個閾值)。感知器使用的值為A1=1,A0=0。
取值范圍:0或1
示例:f(2)=1、f(-4)=0、f(0)=0、f(1)=1
圖片來源:維基百科
sigmoid函數(shù)
sigmoid函數(shù),也稱為邏輯激活函數(shù)(Logistic激活函數(shù)),最常用于二元分類問題。它存在梯度消失問題。經(jīng)過一定數(shù)量的epoch后,網(wǎng)絡(luò)拒絕學(xué)習(xí),或者學(xué)習(xí)速度非常慢,因?yàn)檩斎?X)導(dǎo)致輸出(Y)的變化非常小。如今,sigmoid函數(shù)主要用于分類問題。該函數(shù)在后續(xù)層中更容易遇到飽和問題,導(dǎo)致訓(xùn)練困難。計(jì)算sigmoid函數(shù)的導(dǎo)數(shù)非常簡單。
就神經(jīng)網(wǎng)絡(luò)的反向傳播過程而言,每一層都會壓縮(至少)四分之一的誤差。因此,網(wǎng)絡(luò)越深,關(guān)于數(shù)據(jù)的知識就會“丟失”得越多。某些輸出層中的“大”誤差可能不會影響相對較淺的層中神經(jīng)元的突觸權(quán)重(“較淺”意味著更接近輸入層)。
sigmoid函數(shù)定義
sigmoid函數(shù)的導(dǎo)數(shù)
取值范圍:(0,1)
示例:f(4)=0.982、f(-3)=0.0474、f(-5)=0.0067
圖片來源:維基百科
圖片來源:深度學(xué)習(xí)納米基金會
tanh函數(shù)
tanh函數(shù)是一個拉伸sigmoid函數(shù),以零為中心,因此導(dǎo)數(shù)更陡。tanh比sigmoid激活函數(shù)收斂得更快。
取值范圍:(-1,1)
示例:tanh(2)=0.9640,tanh(-0.567)=-0.5131,tanh(0)=0
圖片來源:維基百科
ReLU函數(shù)
ReLU(修正線性單元)訓(xùn)練速度比tanh快6倍。當(dāng)輸入值小于零時,輸出值為零。當(dāng)輸入值大于或等于0時,輸出值等于輸入值。當(dāng)輸入值為正時,導(dǎo)數(shù)為1,因此sigmoid函數(shù)反向傳播時不會有擠壓效應(yīng)。
取值范圍:[0,x)
示例:f(-5)=0、f(0)=0、f(5)=5
圖片來源:維基百科
不幸的是,ReLU可能很脆弱,可能在訓(xùn)練時“死亡”。例如,通過ReLU神經(jīng)元的大梯度可能會導(dǎo)致權(quán)重更新過多,從而導(dǎo)致神經(jīng)元永遠(yuǎn)不會觸發(fā)任何數(shù)據(jù)點(diǎn)。如果發(fā)生這種情況,從現(xiàn)在開始,通過該單元的梯度將始終為零。也就是說,ReLU單元可能在訓(xùn)練期間不可逆地死亡,因?yàn)樗鼈儽惶叱隽藬?shù)據(jù)流形。例如,您可能會發(fā)現(xiàn),如果學(xué)習(xí)率設(shè)置得太高,40%的網(wǎng)絡(luò)可能會“死亡”(即神經(jīng)元永遠(yuǎn)不會在整個訓(xùn)練數(shù)據(jù)集上激發(fā))。設(shè)置合適的學(xué)習(xí)率可以緩解這個問題?!驳铝摇たㄅ廖鰿S231n課程
LeakyReLU函數(shù)
LeakyReLU允許單元在未激活時具有小的非零梯度。這里,小的非零梯度是0.01。
取值范圍:(-,+)
PReLU函數(shù)
PReLU(參數(shù)化整流線性單元)函數(shù)與LeakyReLU類似,只不過使用系數(shù)(一個小的非零梯度)作為激活函數(shù)的參數(shù)。該參數(shù)與網(wǎng)絡(luò)的其他參數(shù)一樣,是在訓(xùn)練過程中學(xué)習(xí)的。
取值范圍:(-,+)
RReLU函數(shù)
RReLU也和LeakyReLU類似,只不過系數(shù)(小非零梯度)在訓(xùn)練時取一定范圍內(nèi)的隨機(jī)值,在測試時固定。
取值范圍:(-,+)
ELU函數(shù)
ELU(指數(shù)線性單元)嘗試加速學(xué)習(xí)?;贓LU,可以獲得比ReLU更高的分類精度。這里是一個超參數(shù)(限制:0)。
取值范圍:(-,+)
SELU函數(shù)
SELU(縮放指數(shù)線性單元)是ELU的延伸版本。
照片來源:EliorCohen
SReLU函數(shù)
SReLU(S-shapeRectifiedLinearActivationUnit,S形校正線性激活單元)由三個分段線性函數(shù)組成。這些系數(shù)作為網(wǎng)絡(luò)訓(xùn)練期間學(xué)習(xí)的參數(shù)。
取值范圍:(-,+)
不同參數(shù)的SReLU圖像;圖片來源:arXiv:1512.
APL函數(shù)
APL(AdaptivePiecewiseLinear,自適應(yīng)分段線性)函數(shù)
圖片來源:arXiv:1512.
取值范圍:(-,+)
SoftPlus函數(shù)
SoftPlus函數(shù)的導(dǎo)數(shù)是邏輯函數(shù)??偟膩碚f,ReLU與SoftPlus非常相似,不同之處在于SoftPlus是平滑的并且可微分接近于零。此外,計(jì)算ReLU及其導(dǎo)數(shù)比SoftPlus容易得多。
取值范圍:(0,)
圖片來源:維基百科
bentidentity函數(shù)
彎曲恒等函數(shù),顧名思義,彎曲恒等函數(shù)。
取值范圍:(-,+)
圖片來源:維基百科
softmax函數(shù)
softmax函數(shù)將原始值轉(zhuǎn)換為后驗(yàn)分布,可以用來衡量確定性。與sigmoid一樣,softmax將每個單元的輸出值壓縮在0和1之間。但是,softmax還確保輸出之和等于1。
圖片來源:dataaspirant.com
softmax函數(shù)的輸出相當(dāng)于類概率分布,它告訴您任何分類為真的概率。
結(jié)語
選擇激活函數(shù)時,優(yōu)先考慮ReLU及其變體,而不是sigmoid或tanh。同時,ReLU及其變體的訓(xùn)練速度更快。如果ReLU導(dǎo)致神經(jīng)元死亡,請使用LeakyReLU或ReLU的其他變體。Sigmoid和tanh存在梯度消失問題,不應(yīng)該在隱藏層中使用。最好使用ReLU及其變體作為隱藏層。使用易于區(qū)分和訓(xùn)練的激活函數(shù)。
相關(guān)資訊
- 學(xué)會用函數(shù)圖象去解決路程問題的方法(學(xué)會用函數(shù)圖象去解決路程問題視頻)
- 中考數(shù)學(xué)三角函數(shù)混合計(jì)算題(中考數(shù)學(xué)三角函數(shù)真題)
- 江蘇專轉(zhuǎn)本高等數(shù)學(xué)考試大綱(江蘇省專轉(zhuǎn)本高等數(shù)學(xué))
- 成績出來后再看2022年新高考1卷數(shù)學(xué)怎么辦(新高考數(shù)學(xué)1卷2021)
- 在天津買房可以直接落戶嗎(在天津落戶口需要什么條件)
- 最新高一數(shù)學(xué)知識點(diǎn)整理歸納5篇(最新高一數(shù)學(xué)知識點(diǎn)整理歸納5篇圖片)
- 數(shù)三不定積分范圍(數(shù)學(xué)三不定積分真題)
- 濱州21年中考時間(2021濱州中考時間確定)