国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學(xué)院 > 開發(fā)設(shè)計 > 正文

CNN卷積神經(jīng)網(wǎng)絡(luò)新想法

2019-11-10 23:23:28
字體:
供稿:網(wǎng)友

http://www.mamicode.com/info-detail-971389.html

CNN卷積神經(jīng)網(wǎng)絡(luò)新想法

時間:2015-08-08 00:04:21      閱讀:9741      評論:6      收藏:2      [點我收藏+]

標簽:深度學(xué)習(xí)   cnn   卷積神經(jīng)網(wǎng)絡(luò)   

     最近一直在看卷積神經(jīng)網(wǎng)絡(luò),想改進改進弄出點新東西來,看了好多論文,寫了一篇綜述,對深度學(xué)習(xí)中卷積神經(jīng)網(wǎng)絡(luò)有了一些新認識,和大家分享下。

  其實卷積神經(jīng)網(wǎng)絡(luò)并不是一項新興的算法,早在上世紀八十年代就已經(jīng)被提出來,但當時硬件運算能力有限,所以當時只用來識別支票上的手寫體數(shù)字,并且應(yīng)用于實際。2006年深度學(xué)習(xí)的泰斗在《科學(xué)》上發(fā)表一篇文章,論證了深度結(jié)構(gòu)在特征提取問題上的潛在實力,從而掀起了深度結(jié)構(gòu)研究的浪潮,卷積神經(jīng)網(wǎng)絡(luò)作為一種已經(jīng)存在的、有一定應(yīng)用經(jīng)驗的深度結(jié)構(gòu),重新回到人們視線,此時硬件的運算能力也比之前有了質(zhì)的飛躍,要芯片有芯片要GPU有GPU,還有開源的Caffe框架,于是CNN就起來了。

  縱觀目前已經(jīng)發(fā)表的有關(guān)CNN方面的文獻,多是側(cè)重應(yīng)用領(lǐng)域。國內(nèi)期刊上有關(guān)CNN的期刊發(fā)表得并不多,一般都是從2012年之后開始出現(xiàn),而且四大學(xué)報對CNN方面的文章發(fā)表力度還并沒有想想中的大,不知道是大家不愿意投呢,還是期刊那對這個領(lǐng)域的東西持猶豫態(tài)度,不過CNN方面的學(xué)術(shù)論文可是非常多,可見很多學(xué)校,很多老師,很多學(xué)生都在搞這個。國外方面對于CNN的論文就相對多一些了,圖像識別,語音識別等方面都有涉獵,與國內(nèi)不同的是國外發(fā)表的文獻在理論方面下的功夫要多一些,國內(nèi)一般都是直接把CNN直接拿來用,老方法新問題,而且效果還不錯,可見CNN作為深度學(xué)習(xí)的重要成員,確實很強。

  之前一直想著怎樣對傳統(tǒng)CNN進行改進,看了看大家的工作,改進的方向無非是要么在結(jié)構(gòu)上改,要么在訓(xùn)練算法上改,目前CNN的改進基本上都在遵循著這個框架。

  一、在結(jié)構(gòu)上的改進

  傳統(tǒng)的CNN本質(zhì)上是一個映射的堆疊,圖下圖所示

技術(shù)分享

之所以說它是傳統(tǒng),主要是它對輸入形式、卷積核、級聯(lián)形式、初始化方法都沒有嚴格要求,就使用最原始的卷積核,隨機初始化。當然也正是因為他的傳統(tǒng)、原始,才使得其有改進的空間。下面說說已有的比較成功的改進方法。

  1、在網(wǎng)絡(luò)輸入上下功夫。傳統(tǒng)的CNN呢,直接把圖片作為數(shù)據(jù)輸入進去了,從道理上講剛好符合稀疏表示理論中“像素本身是圖像語音最冗余的表示”的觀點,但是大家還是希望對圖像進行一些預(yù)處理,畢竟機器視覺比不上人眼,人的肉眼看東西時可能一下完成了好多種模式分類的工作,而我們在做研究時,一次一般也就研究一種或者幾種特定的模式分類問題。既然問題是特定的,理論上必然會有對付這種問題的特效藥,就好比我們要識別白紙上的毛筆字,沒必要把整張紙都送進去操作,那樣確實信息夠全,但是速度太慢,反過來想想,要是條件理想,說不定直接閾值化一把就OK了,雖然信息損失了不少,但重要的信息還在,速度也快,正確率也可以接受,因此需要對圖像預(yù)處理。可見,并不是所有的問題都是直接把圖像直接以輸入就OK了,做些預(yù)處理還是很有必要,比如顏色分層處理、構(gòu)建尺度金字塔、提取點什么特征(Gabor、SIFT、PCA等等),都是可以的,因問題而已。有人在用CNN做顯著性檢測時就是把圖像先進行了一把超像素分割,然后把分割后的超像素作為新的網(wǎng)絡(luò)輸入,而且是三個通道同時輸入,如下圖:

技術(shù)分享        2、特征融合上下功夫。傳統(tǒng)CNN就是把圖像一層層映射,映射到最后就是特征提取的結(jié)果,通俗的講就好比用篩子篩谷子,一邊一邊的篩,篩到最后就是精華,但那些中間篩出去的東西呢,肯定不是垃圾,也是包含一定信息,對圖像由一定表現(xiàn)能力的,因此何不把這部分的映射結(jié)果也加以融合利用,這樣得到的特征豈不是更有表現(xiàn)力?有人在做人臉識別的時候就想到了這一點,并努力實現(xiàn)了,如下圖技術(shù)分享

他是把各個層的映射結(jié)果PCA降維后融合到一起的,效果不錯。

  3、在卷積核上加限制。前面說過,傳統(tǒng)CNN就是單純的卷積核,于是我們想,能不能把那些卷積核改成Gabor核呢?小波核行不行?稀疏映射矩陣是不是也可以,不過那時候的神經(jīng)網(wǎng)絡(luò)就不能再叫卷積神經(jīng)網(wǎng)絡(luò)了,估計就應(yīng)該叫深度Gabor卷積網(wǎng)絡(luò)了吧,重要的是這點還沒有人做,說不定以后可以下下功夫,不過已經(jīng)有人把卷積核改進到加權(quán)PCA 矩陣,做出深度特征臉卷積神經(jīng)網(wǎng)絡(luò)了,結(jié)構(gòu)如下圖:

技術(shù)分享

這個看上去有點復(fù)雜,其實就是先對圖像進行分塊,然后將每個小塊都送入深度網(wǎng)絡(luò)中進行映射,映射核即為加權(quán)PCA矩陣,然后將每層映射結(jié)果經(jīng)過碼本聚合,得到最終的特征表示形式。其實這種針對特定問題構(gòu)建特定映射核的方法在理論上是有道理的,比如說之前的場景分類,用Gist特征有奇效,那就不妨將卷積核改為Gist核,其實也就類似于Gabor核,弄個深度Gist卷積神經(jīng)網(wǎng)絡(luò)來解決場景分類問題,說不定就會有更好的效果,科研重在實驗嘛。其實這種卷積核的改進和以前的傳統(tǒng)CNN已經(jīng)有了很大區(qū)別,主要是抽象的借鑒了深度結(jié)構(gòu)的概念,不過我認為這也正是深度學(xué)習(xí)的精髓所在。

  4、與其他分類器結(jié)合。卷積神經(jīng)網(wǎng)絡(luò)可以看做是特征提取與分類器的結(jié)合體,單從它的各個層的映射來看,類似于一個特征提取的過程,提取了不同層次的特征。但如果映射來映射去,最后就映射到幾個標簽上,則它又有了分類的功能。但我更傾向于把CNN看成是一個特征提取的手段。那既然是特征提取,就必然要搭配一些好的分類器了,SVM、稀疏表示分了器,都不錯,相信兩者結(jié)合肯定能取得好的效果,不過這部分工作目前沒有多少人做,不知道為什么。

  二、在訓(xùn)練算法上的改進

  一提到算法的改進,涉及到更多的是理論的部分,難度比較大,目前已有的改進主要體現(xiàn)在兩個方面:一是對非線性映射函數(shù)的改動,二是網(wǎng)絡(luò)訓(xùn)練的無監(jiān)督化

  1、非線性映射函數(shù)改進

  在CNN每個映射層之后其結(jié)果都會經(jīng)過一個非線性函數(shù)處理,主要是調(diào)整映射結(jié)果的范圍。傳統(tǒng)CNN一般采用sigmoid函數(shù)或雙曲正切函數(shù)(tanh)。后來稀疏表示興起了,人們發(fā)現(xiàn)稀疏的東西效果都比較好,因此我們希望卷積層的映射結(jié)果也能盡量稀疏一點,更接近人的視覺反應(yīng)。對非線性函數(shù)的一個最成功的改進就是糾正線性單元(Rectified Linear Units,ReLU),其作用是如果卷積計算的值小于0,則讓其等于0,否則即保持原來的值不變。這種做法所謂是簡單粗暴,但結(jié)果卻能得到很好的稀疏性,實驗說明一切。

  2、訓(xùn)練算法的無監(jiān)督化

  其實訓(xùn)練算法的無監(jiān)督化改進是CNN非常重要的一項改進,原因非常簡單,深度學(xué)習(xí)需要海量數(shù)據(jù),對海量數(shù)據(jù)進行標注可不是一項簡單的工作,更不用說想表情、美麗度等等這種抽象標注了。CNN的無監(jiān)督改進目前比較成功的只有少數(shù)幾個方案,其中最具代表性的應(yīng)該算是2011年J Ngiam等人提出稀疏濾波(Sparse filtering)算法,通過構(gòu)建特征分布矩陣(feature distributions),對矩陣按照特征方向求解一次稀疏優(yōu)化問題,同時對每個樣本的特征進行L2范數(shù)歸一化,最終得到一個具有樣本分布稀疏性((Population Sparsity)、激活時間稀疏性(Lifetime Sparsity)以及高離散性(High Dispersal)等特點的樣本分布矩陣,并指出可以通過將這些樣本分布矩陣進行多層級聯(lián)擴展,形成無監(jiān)督深度學(xué)習(xí)模型。其實這有點像稀疏表示的一點延伸,說白了就是把卷積核改成稀疏字典了,舍棄了原來的BP算法,既然不依賴BP了,自然也就可以實現(xiàn)無監(jiān)督。稀疏濾波算法在這里一兩句話也說不清楚,在這里推薦兩篇文獻,一個是作者的原始文獻,另一個是它的應(yīng)用,這兩篇文獻在谷歌都可以下載得到,要是登陸谷歌出現(xiàn)困難的話再這里給大家提供一種穩(wěn)定的登陸方法,一個月10元也不貴。

(1)Ngiam, Jiquan,Koh Pang Wei,Chen Zheng hao,Bhaskar Sonia,Ng Andrew Y. Sparse filtering,[C]. Advances in Neural Information PRocessing Systems 24: 25th Annual Conference on Neural Information Processing Systems,2011:1125-1133.

(2) Zhen Dong,Ming tao Pei,Yang He,Ting Liu,Yan mei Dong,Yun de Jia. Vehicle Type Classification Using Unsupervised Convolutional Neural Network,[C]. Pattern Recognition (ICPR), 2014 22nd International Conference on,2014:172-177.

FQ地址:http://honx.in/_VV72a4kWGgZlShi3

 CNN作為深度學(xué)習(xí)中應(yīng)用最為廣泛的網(wǎng)絡(luò)模型,最有影響力之一的應(yīng)用應(yīng)該算是香港理工大學(xué)王曉剛教授團隊提出的DeepID人臉識別算法,其三代算法已經(jīng)達到了99%,確實厲害。以上就是我這一個月來對CNN的理解了,欠妥地方歡迎大家指正,一起討論,另外由于博客,對很多算法提出并未給出原始參考文獻,需要查閱相關(guān)參考文獻的可以留言給我。

版權(quán)聲明:本文為博主原創(chuàng)文章,未經(jīng)博主允許不得轉(zhuǎn)載。

CNN卷積神經(jīng)網(wǎng)絡(luò)新想法

標簽:深度學(xué)習(xí)   cnn   卷積神經(jīng)網(wǎng)絡(luò) 


發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 嘉祥县| 三原县| 襄汾县| 岳阳市| 华安县| 定兴县| 大同市| 麦盖提县| 开江县| 宁波市| 南靖县| 河源市| 武强县| 射洪县| 北流市| 武冈市| 临安市| 贵州省| 仪征市| 蓬安县| 西平县| 杨浦区| 电白县| 揭阳市| 大冶市| 普定县| 宣汉县| 彝良县| 鄂托克旗| 宜昌市| 金秀| 永福县| 芜湖县| 辽阳市| 中江县| 迭部县| 吉木萨尔县| 岢岚县| 沂水县| 白城市| 平果县|