轉(zhuǎn)載請(qǐng)注明作者:夢(mèng)里風(fēng)林Github工程地址:https://github.com/ahangchen/GDLnotes歡迎star,有問題可以到Issue區(qū)討論官方教程地址視頻/字幕下載
Limit of Linear Model
實(shí)際要調(diào)整的參數(shù)很多如果有N個(gè)Class,K個(gè)Label,需要調(diào)整的參數(shù)就有(N+1)K個(gè)
Linear Model不能應(yīng)對(duì)非線性的問題
Linear Model的好處GPU就是設(shè)計(jì)用于大矩陣相乘的,因此它們用來計(jì)算Linear Model非常efficientStable:input的微小改變不會(huì)很大地影響output
求導(dǎo)方便:線性求導(dǎo)是常數(shù)
我們希望參數(shù)函數(shù)是線性的,但整個(gè)model是非線性的所以需要對(duì)各個(gè)線性模型做非線性組合最簡(jiǎn)單的非線性組合:分段線性函數(shù)(RELU)
Neural network
用一個(gè)RELU作為中介,一個(gè)Linear Model的輸出作為其輸入,其輸出作為另一個(gè)Linear Model的輸入,使其能夠解決非線性問題神經(jīng)網(wǎng)絡(luò)并不一定要完全像神經(jīng)元那樣工作Chain Rule:復(fù)合函數(shù)求導(dǎo)規(guī)律
Lots of data reuse and easy to implement(a simple data pipeline)Back PRopagation
計(jì)算train_loss時(shí),數(shù)據(jù)正向流入,計(jì)算梯度時(shí),逆向計(jì)算計(jì)算梯度需要的內(nèi)存和計(jì)算時(shí)間是計(jì)算train_loss的兩倍
Deep Neural Network
Current two layer neural network:
優(yōu)化:
優(yōu)化RELU(隱藏層), wider增加linear層,layer deeper
Performance: few parameters by deeper隨層級(jí)變高,獲得的信息越綜合,越符合目標(biāo)
About t-model
t-model只有在有大量數(shù)據(jù)時(shí)有效今天我們才有高效的大數(shù)據(jù)訓(xùn)練方法:Better Regularization難以決定適應(yīng)問題的神經(jīng)網(wǎng)絡(luò)的規(guī)模,因此通常選擇更大的規(guī)模,并防止過擬合Avoid Overfit
Early Termination
當(dāng)訓(xùn)練結(jié)果與驗(yàn)證集符合度下降時(shí),就停止訓(xùn)練Regulation
給神經(jīng)網(wǎng)絡(luò)里加一些常量,做一些限制,減少自由的參數(shù)L2 regularization
在計(jì)算train loss時(shí),增加一個(gè)l2 norm作為新的損失,這里需要乘一個(gè)β(Hyper parameter),調(diào)整這個(gè)新的項(xiàng)的值
Hyper parameter:拍腦袋參數(shù)→_→
l2模的導(dǎo)數(shù)容易計(jì)算,即W本身
DropOut
最近才出現(xiàn),效果極其好從一個(gè)layer到另一個(gè)layer的value被稱為activation將一個(gè)layer到另一個(gè)layer的value的中,隨機(jī)地取一半的數(shù)據(jù)變?yōu)?,這其實(shí)是將一半的數(shù)據(jù)直接丟掉由于數(shù)據(jù)缺失,所以就強(qiáng)迫了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)redundant的知識(shí),以作為損失部分的補(bǔ)充由于神經(jīng)網(wǎng)絡(luò)中總有其他部分作為損失部分的補(bǔ)充,所以最后的結(jié)果還是OK的More robust and prevent overfit如果這種方法不能生效,那可能就要使用更大的神經(jīng)網(wǎng)絡(luò)了
評(píng)估神經(jīng)網(wǎng)絡(luò)時(shí),就不需要DropOut,因?yàn)樾枰_切的結(jié)果可以將所有Activation做平均,作為評(píng)估的依據(jù)因?yàn)槲覀冊(cè)谟?xùn)練時(shí)去掉了一半的隨機(jī)數(shù)據(jù),如果要讓得到Activation正確量級(jí)的平均值,就需要將沒去掉的數(shù)據(jù)翻倍
新聞熱點(diǎn)
疑難解答
圖片精選
網(wǎng)友關(guān)注