国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁(yè) > 學(xué)院 > 開發(fā)設(shè)計(jì) > 正文

TensorFlow 深度學(xué)習(xí)筆記 從線性分類器到深度神經(jīng)網(wǎng)絡(luò)

2019-11-11 00:49:05
字體:
供稿:網(wǎng)友

http://www.cnblogs.com/hellocwh/p/5515421.html

TensorFlow 深度學(xué)習(xí)筆記 從線性分類器到深度神經(jīng)網(wǎng)絡(luò)

轉(zhuǎn)載請(qǐng)注明作者:夢(mèng)里風(fēng)林Github工程地址:https://github.com/ahangchen/GDLnotes歡迎star,有問題可以到Issue區(qū)討論官方教程地址視頻/字幕下載

Limit of Linear Model

實(shí)際要調(diào)整的參數(shù)很多

如果有N個(gè)Class,K個(gè)Label,需要調(diào)整的參數(shù)就有(N+1)K個(gè)

Linear Model不能應(yīng)對(duì)非線性的問題

Linear Model的好處GPU就是設(shè)計(jì)用于大矩陣相乘的,因此它們用來計(jì)算Linear Model非常efficient

Stable:input的微小改變不會(huì)很大地影響output

求導(dǎo)方便:線性求導(dǎo)是常數(shù)

我們希望參數(shù)函數(shù)是線性的,但整個(gè)model是非線性的所以需要對(duì)各個(gè)線性模型做非線性組合最簡(jiǎn)單的非線性組合:分段線性函數(shù)(RELU)

Neural network

用一個(gè)RELU作為中介,一個(gè)Linear Model的輸出作為其輸入,其輸出作為另一個(gè)Linear Model的輸入,使其能夠解決非線性問題

神經(jīng)網(wǎng)絡(luò)并不一定要完全像神經(jīng)元那樣工作Chain Rule:復(fù)合函數(shù)求導(dǎo)規(guī)律

Lots of data reuse and easy to implement(a simple data pipeline)Back PRopagation

計(jì)算train_loss時(shí),數(shù)據(jù)正向流入,計(jì)算梯度時(shí),逆向計(jì)算計(jì)算梯度需要的內(nèi)存和計(jì)算時(shí)間是計(jì)算train_loss的兩倍

Deep Neural Network

Current two layer neural network:

優(yōu)化:

優(yōu)化RELU(隱藏層), wider

增加linear層,layer deeper

Performance: few parameters by deeper

隨層級(jí)變高,獲得的信息越綜合,越符合目標(biāo)

About t-model

t-model只有在有大量數(shù)據(jù)時(shí)有效今天我們才有高效的大數(shù)據(jù)訓(xùn)練方法:Better Regularization難以決定適應(yīng)問題的神經(jīng)網(wǎng)絡(luò)的規(guī)模,因此通常選擇更大的規(guī)模,并防止過擬合

Avoid Overfit

Early Termination

當(dāng)訓(xùn)練結(jié)果與驗(yàn)證集符合度下降時(shí),就停止訓(xùn)練

Regulation

給神經(jīng)網(wǎng)絡(luò)里加一些常量,做一些限制,減少自由的參數(shù)L2 regularization

在計(jì)算train loss時(shí),增加一個(gè)l2 norm作為新的損失,這里需要乘一個(gè)β(Hyper parameter),調(diào)整這個(gè)新的項(xiàng)的值

Hyper parameter:拍腦袋參數(shù)→_→

l2模的導(dǎo)數(shù)容易計(jì)算,即W本身

DropOut

最近才出現(xiàn),效果極其好從一個(gè)layer到另一個(gè)layer的value被稱為activation將一個(gè)layer到另一個(gè)layer的value的中,隨機(jī)地取一半的數(shù)據(jù)變?yōu)?,這其實(shí)是將一半的數(shù)據(jù)直接丟掉由于數(shù)據(jù)缺失,所以就強(qiáng)迫了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)redundant的知識(shí),以作為損失部分的補(bǔ)充由于神經(jīng)網(wǎng)絡(luò)中總有其他部分作為損失部分的補(bǔ)充,所以最后的結(jié)果還是OK的More robust and prevent overfit

如果這種方法不能生效,那可能就要使用更大的神經(jīng)網(wǎng)絡(luò)了

評(píng)估神經(jīng)網(wǎng)絡(luò)時(shí),就不需要DropOut,因?yàn)樾枰_切的結(jié)果可以將所有Activation做平均,作為評(píng)估的依據(jù)

因?yàn)槲覀冊(cè)谟?xùn)練時(shí)去掉了一半的隨機(jī)數(shù)據(jù),如果要讓得到Activation正確量級(jí)的平均值,就需要將沒去掉的數(shù)據(jù)翻倍


發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 凤凰县| 抚顺市| 华蓥市| 资源县| 宝鸡市| 临沭县| 隆林| 内江市| 包头市| 酉阳| 洛扎县| 响水县| 巴彦淖尔市| 崇文区| 青海省| 达州市| 九江县| 苍山县| 辽阳市| 洪江市| 朝阳县| 天门市| 崇明县| 隆昌县| 汉沽区| 新竹县| 巴彦淖尔市| 双城市| 宝鸡市| 盈江县| 儋州市| 年辖:市辖区| 盘锦市| 贵德县| 深圳市| 扎鲁特旗| 绥中县| 京山县| 涿州市| 潜山县| 遵义市|