TensorFlow 深度學(xué)習(xí)筆記從線性分類器到深度神經(jīng)網(wǎng)絡(luò)

2019-11-11 00:49:05

字體：大中小

供稿：網(wǎng)友

http://www.cnblogs.com/hellocwh/p/5515421.html

TensorFlow 深度學(xué)習(xí)筆記從線性分類器到深度神經(jīng)網(wǎng)絡(luò)

轉(zhuǎn)載請(qǐng)注明作者：夢(mèng)里風(fēng)林Github工程地址：https://github.com/ahangchen/GDLnotes歡迎star，有問題可以到Issue區(qū)討論官方教程地址視頻/字幕下載
Limit of Linear Model
實(shí)際要調(diào)整的參數(shù)很多
如果有N個(gè)Class，K個(gè)Label，需要調(diào)整的參數(shù)就有(N+1)K個(gè)
Linear Model不能應(yīng)對(duì)非線性的問題
Linear Model的好處GPU就是設(shè)計(jì)用于大矩陣相乘的，因此它們用來計(jì)算Linear Model非常efficient
Stable：input的微小改變不會(huì)很大地影響output
求導(dǎo)方便：線性求導(dǎo)是常數(shù)
我們希望參數(shù)函數(shù)是線性的，但整個(gè)model是非線性的所以需要對(duì)各個(gè)線性模型做非線性組合最簡(jiǎn)單的非線性組合：分段線性函數(shù)（RELU）
Neural network
用一個(gè)RELU作為中介，一個(gè)Linear Model的輸出作為其輸入，其輸出作為另一個(gè)Linear Model的輸入，使其能夠解決非線性問題
神經(jīng)網(wǎng)絡(luò)并不一定要完全像神經(jīng)元那樣工作Chain Rule：復(fù)合函數(shù)求導(dǎo)規(guī)律
Lots of data reuse and easy to implement（a simple data pipeline）Back PRopagation
計(jì)算train_loss時(shí)，數(shù)據(jù)正向流入，計(jì)算梯度時(shí)，逆向計(jì)算計(jì)算梯度需要的內(nèi)存和計(jì)算時(shí)間是計(jì)算train_loss的兩倍
Deep Neural Network
Current two layer neural network:
優(yōu)化：
優(yōu)化RELU(隱藏層), wider
增加linear層，layer deeper
Performance: few parameters by deeper
隨層級(jí)變高，獲得的信息越綜合，越符合目標(biāo)
About t-model
t-model只有在有大量數(shù)據(jù)時(shí)有效今天我們才有高效的大數(shù)據(jù)訓(xùn)練方法：Better Regularization難以決定適應(yīng)問題的神經(jīng)網(wǎng)絡(luò)的規(guī)模，因此通常選擇更大的規(guī)模，并防止過擬合
Avoid Overfit
Early Termination
當(dāng)訓(xùn)練結(jié)果與驗(yàn)證集符合度下降時(shí)，就停止訓(xùn)練
Regulation
給神經(jīng)網(wǎng)絡(luò)里加一些常量，做一些限制，減少自由的參數(shù)L2 regularization
在計(jì)算train loss時(shí)，增加一個(gè)l2 norm作為新的損失，這里需要乘一個(gè)β（Hyper parameter），調(diào)整這個(gè)新的項(xiàng)的值
Hyper parameter：拍腦袋參數(shù)→_→
l2模的導(dǎo)數(shù)容易計(jì)算，即W本身
DropOut
最近才出現(xiàn)，效果極其好從一個(gè)layer到另一個(gè)layer的value被稱為activation將一個(gè)layer到另一個(gè)layer的value的中，隨機(jī)地取一半的數(shù)據(jù)變?yōu)?，這其實(shí)是將一半的數(shù)據(jù)直接丟掉由于數(shù)據(jù)缺失，所以就強(qiáng)迫了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)redundant的知識(shí)，以作為損失部分的補(bǔ)充由于神經(jīng)網(wǎng)絡(luò)中總有其他部分作為損失部分的補(bǔ)充，所以最后的結(jié)果還是OK的More robust and prevent overfit
如果這種方法不能生效，那可能就要使用更大的神經(jīng)網(wǎng)絡(luò)了
評(píng)估神經(jīng)網(wǎng)絡(luò)時(shí)，就不需要DropOut，因?yàn)樾枰_切的結(jié)果可以將所有Activation做平均，作為評(píng)估的依據(jù)
因?yàn)槲覀冊(cè)谟?xùn)練時(shí)去掉了一半的隨機(jī)數(shù)據(jù)，如果要讓得到Activation正確量級(jí)的平均值，就需要將沒去掉的數(shù)據(jù)翻倍