国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > Python > 正文

基于梯度爆炸的解決方法:clip gradient

2020-02-15 21:25:06
字體:
供稿:網(wǎng)友

1. 梯度爆炸的影響

在一個只有一個隱藏節(jié)點的網(wǎng)絡(luò)中,損失函數(shù)和權(quán)值w偏置b構(gòu)成error surface,其中有一堵墻,如下所示

損失函數(shù)每次迭代都是每次一小步,但是當(dāng)遇到這堵墻時,在墻上的某點計算梯度,梯度會瞬間增大,指向某處不理想的位置。如果我們使用縮放,可以把誤導(dǎo)控制在可接受范圍內(nèi),如虛線箭頭所示

2. 解決梯度爆炸問題的方法

通常會使用一種叫”clip gradients “的方法. 它能有效地權(quán)重控制在一定范圍之內(nèi).

算法步驟如下。

首先設(shè)置一個梯度閾值:clip_gradient

在后向傳播中求出各參數(shù)的梯度,這里我們不直接使用梯度進(jìn)去參數(shù)更新,我們求這些梯度的l2范數(shù)

然后比較梯度的l2范數(shù)||g||與clip_gradient的大小

如果前者大,求縮放因子clip_gradient/||g||, 由縮放因子可以看出梯度越大,則縮放因子越小,這樣便很好地控制了梯度的范圍

最后將梯度乘上縮放因子便得到最后所需的梯度

3. 有無clip_gradient在GRU模型中的結(jié)果比較

無clip_gradient

可以很清楚地發(fā)現(xiàn)在2000次迭代出發(fā)生了梯度爆炸,最終影響了訓(xùn)練的效果。  

有clip_gradient

可以發(fā)現(xiàn)clip_gradient在前期有效了控制了梯度爆炸的影響,使得最終的loss能下降到滿意的結(jié)果

以上這篇基于梯度爆炸的解決方法:clip gradient就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持武林站長站。

發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 栾川县| 芦溪县| 鲜城| 乌兰县| 新竹县| 福泉市| 富锦市| 德阳市| 墨脱县| 竹山县| 平陆县| 九龙城区| 南投市| 光山县| 伊宁县| 渭南市| 凭祥市| 阳谷县| 怀远县| 武穴市| 黎平县| 德格县| 呼和浩特市| 时尚| 延庆县| 华阴市| 城口县| 威信县| 伊宁市| 黔东| 永和县| 江津市| 濮阳市| 常山县| 永寿县| 双柏县| 张北县| 衡南县| 莱州市| 南乐县| 科技|