BP神經(jīng)網(wǎng)絡(luò)
2015-07-24 16:19 108人閱讀 評論(0) 收藏 舉報神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu):
人工神經(jīng)網(wǎng)絡(luò)由神經(jīng)元模型構(gòu)成,這種由許多神經(jīng)元組成的信息處理網(wǎng)絡(luò)具有并行分布結(jié)構(gòu)。每個神經(jīng)元具有單一輸出,并且能夠與其它神經(jīng)元連接;存在許多(多重)輸出連接方法,每種連接方法對應(yīng)一個連接權(quán)系數(shù)。可把 ANN 看成是以處理單元 PE(PRocessing element) 為節(jié)點,用加權(quán)有向弧(鏈)相互連接而成的有向圖。令來自其它處理單元(神經(jīng)元)i的信息為Xi,它們與本處理單元的互相作用強度為 Wi,i=0,1,…,n-1,處理單元的內(nèi)部閾值為 θ。那么本神經(jīng)元的輸入為:

而處理單元的輸出為:

式中,xi為第 i 個元素的輸入,wi 為第 i 個元素與本處理單元的互聯(lián)權(quán)重。f 稱為激發(fā)函數(shù)(activation function)或作用函數(shù)。它決定節(jié)點(神經(jīng)元)的輸出。該輸出為 1 或 0 取決于其輸入之和大于或小于內(nèi)部閾值 θ。
下圖所示神經(jīng)元單元由多個輸入Xi,i=1,2,...,n和一個輸出y組成。中間狀態(tài)由輸入信號的權(quán)和表示,而輸出為:

訓(xùn)練網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)被設(shè)計完成,有了輸入、輸出參數(shù)后,我們就要對網(wǎng)絡(luò)進行訓(xùn)練。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練有包括感知器訓(xùn)練、delta 規(guī)則訓(xùn)練和反向傳播算法等訓(xùn)練,其中感知器訓(xùn)練是基礎(chǔ)。
感知器和 delta 訓(xùn)練規(guī)則
理解神經(jīng)網(wǎng)絡(luò)的第一步是從對抽象生物神經(jīng)開始,本文用到的人工神經(jīng)網(wǎng)絡(luò)系統(tǒng)是以被稱為感知器的單元為基礎(chǔ),如圖所示。感知器以一個實數(shù)值向量作為輸入,計算這些輸入的線性組合,如果結(jié)果大于某個閾值,就輸出 1,否則輸出 -1,如果 x 從 1 到 n,則感知器計算公式如下:

其中每個 wi 是一個實數(shù)常量,或叫做權(quán)值,用來決定輸入 xi 對感知器輸出的貢獻率。特別地,-w0是閾值。
盡管當訓(xùn)練樣例線性可分時,感知器法則可以成功地找到一個權(quán)向量,但如果樣例不是線性可分時它將不能收斂,因此人們設(shè)計了另一個訓(xùn)練法則來克服這個不足,這個訓(xùn)練規(guī)則叫做 delta 規(guī)則。感知器訓(xùn)練規(guī)則是基于這樣一種思路--權(quán)系數(shù)的調(diào)整是由目標和輸出的差分方程表達式?jīng)Q定。而 delta 規(guī)則是基于梯度降落這樣一種思路。這個復(fù)雜的數(shù)學概念可以舉個簡單的例子來表示。從給定的幾點來看,向南的那條路徑比向東那條更陡些。向東就像從懸崖上掉下來,但是向南就是沿著一個略微傾斜的斜坡下來,向西象登一座陡峭的山,而北邊則到了平地,只要慢慢的閑逛就可以了。所以您要尋找的是到達平地的所有路徑中將陡峭的總和減少到最小的路徑。在權(quán)系數(shù)的調(diào)整中,神經(jīng)網(wǎng)絡(luò)將會找到一種將誤差減少到最小的權(quán)系數(shù)的分配方式。這部分我們不做詳細介紹,如有需要大家可參考相關(guān)的人工智能書籍。
反向傳播算法
人工神經(jīng)網(wǎng)絡(luò)學習為學習實數(shù)值和向量值函數(shù)提供了一種實際的方法,對于連續(xù)的和離散的屬性都可以使用。并且對訓(xùn)練數(shù)據(jù)中的噪聲具有很好的健壯性。反向傳播算法是最常見的網(wǎng)絡(luò)學習算法。這是我們所知用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)很普遍的方法,反向傳播算法是一種具有很強學習能力的系統(tǒng),結(jié)構(gòu)比較簡單,且易于編程。
魯梅爾哈特(Rumelhart)和麥克萊蘭(Meclelland)于 1985 年發(fā)展了 BP 網(wǎng)絡(luò)學習算法,實現(xiàn)了明斯基的多層網(wǎng)絡(luò)設(shè)想。BP網(wǎng)絡(luò)不僅含有輸入節(jié)點和輸出節(jié)點,而且含有一層或多層隱(層)節(jié)點。輸入信號先向前傳遞到隱藏節(jié)點,經(jīng)過作用后,再把隱藏節(jié)點的輸出信息傳遞到輸出節(jié)點,最后給出輸出結(jié)果。節(jié)點的激發(fā)函數(shù)一般選用 S 型函數(shù)。
反向傳播(back-propagation,BP)算法是一種計算單個權(quán)值變化引起網(wǎng)絡(luò)性能變化值的較為簡單的方法。由于BP算法過程包含從輸出節(jié)點開始,反向地向第一隱含層(即最接近輸入層的隱含層)傳播由總誤差引起的權(quán)值修正,所以稱為"反向傳播"。反向傳播特性與所求解問題的性質(zhì)和所作細節(jié)選擇有極為密切的關(guān)系。
對于由一系列確定的單元互連形成的多層網(wǎng)絡(luò),反向傳播算法可用來學習這個多層網(wǎng)絡(luò)的權(quán)值。它采用梯度下降方法試圖最小化網(wǎng)絡(luò)輸出值和目標值之間的誤差平方,因為我們要考慮多個輸出單元的網(wǎng)絡(luò),而不是像以前只考慮單個單元,所以我們要重新計算誤差E,以便對所有網(wǎng)絡(luò)輸出的誤差求和:

Outpus 是網(wǎng)絡(luò)輸出單元的集合,tkd 和 okd 是與訓(xùn)練樣例 d 和第 k 個輸出單元的相關(guān)輸出值.
反向傳播算法的一個迷人特性是:它能夠在網(wǎng)絡(luò)內(nèi)部的隱藏層發(fā)現(xiàn)有用的中間表示:
1.訓(xùn)練樣例僅包含網(wǎng)絡(luò)輸入和輸出,權(quán)值調(diào)節(jié)的過程可以自由地設(shè)置權(quán)值,來定義任何隱藏單元表示,這些隱藏單元表示在使誤差E達到最小時最有效。
2.引導(dǎo)反向傳播算法定義新的隱藏層特征,這些特征在輸入中沒有明確表示出來,但能捕捉輸入實例中與學習目標函數(shù)最相關(guān)的特征
反向傳播訓(xùn)練神經(jīng)元的算法如下:

[cpp] view plain copy//將三位二進制數(shù)轉(zhuǎn)為一位十進制數(shù) #include <iostream> #include <cmath> using namespace std; #define innode 3 //輸入結(jié)點數(shù) #define hidenode 10//隱含結(jié)點數(shù) #define outnode 1 //輸出結(jié)點數(shù) #define trainsample 8//BP訓(xùn)練樣本數(shù) class BpNet { public: void train(double p[trainsample][innode ],double t[trainsample][outnode]);//Bp訓(xùn)練 double p[trainsample][innode]; //輸入的樣本 double t[trainsample][outnode]; //樣本要輸出的 double *recognize(double *p);//Bp識別 void writetrain(); //寫訓(xùn)練完的權(quán)值 void readtrain(); //讀訓(xùn)練好的權(quán)值,這使的不用每次去訓(xùn)練了,只要把訓(xùn)練最好的權(quán)值存下來就OK BpNet(); virtual ~BpNet(); public: void init(); double w[innode][hidenode];//隱含結(jié)點權(quán)值 double w1[hidenode][outnode];//輸出結(jié)點權(quán)值 double b1[hidenode];//隱含結(jié)點閥值 double b2[outnode];//輸出結(jié)點閥值 double rate_w; //權(quán)值學習率(輸入層-隱含層) double rate_w1;//權(quán)值學習率 (隱含層-輸出層) double rate_b1;//隱含層閥值學習率 double rate_b2;//輸出層閥值學習率 double e;//誤差計算 double error;//允許的最大誤差 double result[outnode];// Bp輸出 }; BpNet::BpNet() { error=1.0; e=0.0; rate_w=0.9; //權(quán)值學習率(輸入層--隱含層) rate_w1=0.9; //權(quán)值學習率 (隱含層--輸出層) rate_b1=0.9; //隱含層閥值學習率 rate_b2=0.9; //輸出層閥值學習率 } BpNet::~BpNet() { } void winit(double w[],int n) //權(quán)值初始化 { for(int i=0;i<n;i++) w[i]=(2.0*(double)rand()/RAND_MAX)-1; } void BpNet::init() { winit((double*)w,innode*hidenode); winit((double*)w1,hidenode*outnode); winit(b1,hidenode); winit(b2,outnode); } void BpNet::train(double p[trainsample][innode],double t[trainsample][outnode]) { double pp[hidenode];//隱含結(jié)點的校正誤差 double QQ[outnode];//希望輸出值與實際輸出值的偏差 double yd[outnode];//希望輸出值 double x[innode]; //輸入向量 double x1[hidenode];//隱含結(jié)點狀態(tài)值 double x2[outnode];//輸出結(jié)點狀態(tài)值 double o1[hidenode];//隱含層激活值 double o2[hidenode];//輸出層激活值 for(int isamp=0;isamp<trainsample;isamp++)//循環(huán)訓(xùn)練一次樣品 { for(int i=0;i<innode;i++) x[i]=p[isamp][i]; //輸入的樣本 for(int i=0;i<outnode;i++) yd[i]=t[isamp][i]; //期望輸出的樣本 //構(gòu)造每個樣品的輸入和輸出標準 for(int j=0;j<hidenode;j++) { o1[j]=0.0; for(int i=0;i<innode;i++) o1[j]=o1[j]+w[i][j]*x[i];//隱含層各單元輸入激活值 x1[j]=1.0/(1+exp(-o1[j]-b1[j]));//隱含層各單元的輸出 // if(o1[j]+b1[j]>0) x1[j]=1; //else x1[j]=0; } for(int k=0;k<outnode;k++) { o2[k]=0.0; for(int j=0;j<hidenode;j++) o2[k]=o2[k]+w1[j][k]*x1[j]; //輸出層各單元輸入激活值 x2[k]=1.0/(1.0+exp(-o2[k]-b2[k])); //輸出層各單元輸出 // if(o2[k]+b2[k]>0) x2[k]=1; // else x2[k]=0; } for(int k=0;k<outnode;k++) { qq[k]=(yd[k]-x2[k])*x2[k]*(1-x2[k]); //希望輸出與實際輸出的偏差 for(int j=0;j<hidenode;j++) w1[j][k]+=rate_w1*qq[k]*x1[j]; //下一次的隱含層和輸出層之間的新連接權(quán) } for(int j=0;j<hidenode;j++) { pp[j]=0.0; for(int k=0;k<outnode;k++) pp[j]=pp[j]+qq[k]*w1[j][k]; pp[j]=pp[j]*x1[j]*(1-x1[j]); //隱含層的校正誤差 for(int i=0;i<innode;i++) w[i][j]+=rate_w*pp[j]*x[i]; //下一次的輸入層和隱含層之間的新連接權(quán) } for(int k=0;k<outnode;k++) { e+=fabs(yd[k]-x2[k])*fabs(yd[k]-x2[k]); //計算均方差 } error=e/2.0; for(int k=0;k<outnode;k++) b2[k]=b2[k]+rate_b2*qq[k]; //下一次的隱含層和輸出層之間的新閾值 for(int j=0;j<hidenode;j++) b1[j]=b1[j]+rate_b1*pp[j]; //下一次的輸入層和隱含層之間的新閾值 } } double *BpNet::recognize(double *p) { double x[innode]; //輸入向量 double x1[hidenode]; //隱含結(jié)點狀態(tài)值 double x2[outnode]; //輸出結(jié)點狀態(tài)值 double o1[hidenode]; //隱含層激活值 double o2[hidenode]; //輸出層激活值 for(int i=0;i<innode;i++) x[i]=p[i]; for(int j=0;j<hidenode;j++) { o1[j]=0.0; for(int i=0;i<innode;i++) o1[j]=o1[j]+w[i][j]*x[i]; //隱含層各單元激活值 x1[j]=1.0/(1.0+exp(-o1[j]-b1[j])); //隱含層各單元輸出 //if(o1[j]+b1[j]>0) x1[j]=1; // else x1[j]=0; } for(int k=0;k<outnode;k++) { o2[k]=0.0; for(int j=0;j<hidenode;j++) o2[k]=o2[k]+w1[j][k]*x1[j];//輸出層各單元激活值 x2[k]=1.0/(1.0+exp(-o2[k]-b2[k]));//輸出層各單元輸出 //if(o2[k]+b2[k]>0) x2[k]=1; //else x2[k]=0; } for(int k=0;k<outnode;k++) { result[k]=x2[k]; } return result; } void BpNet::writetrain() { FILE *stream0; FILE *stream1; FILE *stream2; FILE *stream3; int i,j; //隱含結(jié)點權(quán)值寫入 if(( stream0 = fopen("w.txt", "w+" ))==NULL) { cout<<"創(chuàng)建文件失敗!"; exit(1); } for(i=0;i<innode;i++) { for(j=0;j<hidenode;j++) { fprintf(stream0, "%f/n", w[i][j]); } } fclose(stream0); //輸出結(jié)點權(quán)值寫入 if(( stream1 = fopen("w1.txt", "w+" ))==NULL) { cout<<"創(chuàng)建文件失敗!"; exit(1); } for(i=0;i<hidenode;i++) { for(j=0;j<outnode;j++) { fprintf(stream1, "%f/n",w1[i][j]); } } fclose(stream1); //隱含結(jié)點閥值寫入 if(( stream2 = fopen("b1.txt", "w+" ))==NULL) { cout<<"創(chuàng)建文件失敗!"; exit(1); } for(i=0;i<hidenode;i++) fprintf(stream2, "%f/n",b1[i]); fclose(stream2); //輸出結(jié)點閥值寫入 if(( stream3 = fopen("b2.txt", "w+" ))==NULL) { cout<<"創(chuàng)建文件失敗!"; exit(1); } for(i=0;i<outnode;i++) fprintf(stream3, "%f/n",b2[i]); fclose(stream3); } void BpNet::readtrain() { FILE *stream0; FILE *stream1; FILE *stream2; FILE *stream3; int i,j; //隱含結(jié)點權(quán)值讀出 if(( stream0 = fopen("w.txt", "r" ))==NULL) { cout<<"打開文件失敗!"; exit(1); } float wx[innode][hidenode]; for(i=0;i<innode;i++) { for(j=0;j<hidenode;j++) { fscanf(stream0, "%f", &wx[i][j]); w[i][j]=wx[i][j]; } } fclose(stream0); //輸出結(jié)點權(quán)值讀出 if(( stream1 = fopen("w1.txt", "r" ))==NULL) { cout<<"打開文件失敗!"; exit(1); } float wx1[hidenode][outnode]; for(i=0;i<hidenode;i++) { for(j=0;j<outnode;j++) { fscanf(stream1, "%f", &wx1[i][j]); w1[i][j]=wx1[i][j]; } } fclose(stream1); //隱含結(jié)點閥值讀出 if(( stream2 = fopen("b1.txt", "r" ))==NULL) { cout<<"打開文件失敗!"; exit(1); } float xb1[hidenode]; for(i=0;i<hidenode;i++) { fscanf(stream2, "%f",&xb1[i]); b1[i]=xb1[i]; } fclose(stream2); //輸出結(jié)點閥值讀出 if(( stream3 = fopen("b2.txt", "r" ))==NULL) { cout<<"打開文件失敗!"; exit(1); } float xb2[outnode]; for(i=0;i<outnode;i++) { fscanf(stream3, "%f",&xb2[i]); b2[i]=xb2[i]; } fclose(stream3); } //輸入樣本 double X[trainsample][innode]= { {0,0,0},{0,0,1},{0,1,0},{0,1,1},{1,0,0},{1,0,1},{1,1,0},{1,1,1} }; //期望輸出樣本 double Y[trainsample][outnode]={ {0},{0.1429},{0.2857},{0.4286},{0.5714},{0.7143},{0.8571},{1.0000} }; int main() { BpNet bp; bp.init(); int times=0; while(bp.error>0.0001) { bp.e=0.0; times++; bp.train(X,Y); cout<<"Times="<<times<<" error="<<bp.error<<endl; } cout<<"trainning complete..."<<endl; double m[innode]={1,1,1}; double *r=bp.recognize(m); for(int i=0;i<outnode;++i) cout<<bp.result[i]<<" "; double cha[trainsample][outnode]; double mi=100; double index; for(int i=0;i<trainsample;i++) { for(int j=0;j<outnode;j++) { //找差值最小的那個樣本 cha[i][j]=(double)(fabs(Y[i][j]-bp.result[j])); if(cha[i][j]<mi) { mi=cha[i][j]; index=i; } } } for(int i=0;i<innode;++i) cout<<m[i]; cout<<" is "<<index<<endl; cout<<endl; return 0; }