用C#編寫一個抓網頁的應用程序
2024-07-21 02:25:24
供稿:網友
本文利用c#和.net提供的類來輕松創建一個抓取網頁內容源代碼的程序。http是www進行數據訪問最基本的協議之一,在.net的基本類型庫類中提供了兩個對象類:httpwebrequest和httpwebresponse,分別用來向某資源發送請求和獲得響應。為了得到一個資源的內容,我們先指定一個想要抓取的url地址,用httpwebrequest對象進行請求,用httpwebresponse對象接收響應的結果,最后用textstream對象來提取我們想要的信息,并在控制臺打印出來。
下面就是看看如何實現這樣的功能:
第一步:打開vs.net,點“文件”-“新建”-“項目”,項目類型選擇“visual c#項目”,模板選“windows應用程序”,如下圖所示:
第二步:在form1里加入label1,button1,textbox1,textbox2四個控件,textbox2的multiline屬性改為true,如下圖所示:
第三步:在form1窗體上點擊右鍵,選“查看代碼”,然后在最頂端輸入:
using system.io;
using system.net;
using system.text;
在
private void button1_click(object sender, system.eventargs e)
{
}
的括號之間輸入下面的代碼:
byte[] buf = new byte[38192];
httpwebrequest request = (httpwebrequest)webrequest.create(textbox1.text);
httpwebresponse response = (httpwebresponse)request.getresponse();
stream resstream = response.getresponsestream();
int count = resstream.read(buf, 0, buf.length);
textbox2.text = encoding.default.getstring(buf, 0, count);
resstream.close();
第四步:點“save all”按鈕,按“f5”運行應用程序,在“請輸入url地址:”后面的單行文本框里輸入http://lucky.myrice.com/down.htm,點擊“得到 html 代碼”按鈕,就可以看到該地址的代碼了!結果如下所示:
下面,我們就對上面的程序做一個分析:
上面的這個程序的功能是抓取網頁http://lucky.myrice.com/down.htm的內容,并在多行文本框里顯示出html代碼,由于返回的數據是字節類型的,因此,我們創建一個名為buf的字節類型的數組變量來存儲請求返回來的結果,其中數組的大小與我們要請求返回的數據大小有關系。首先,我們實例化httpwebrequest對象,使用webrequest類的靜態方法create(),該方法的字符串參數就是我們要請求頁面的url地址,由于create()方法返回的是webrequest類型的,我們必須對它進行造型(即類型轉換)成httpwebrequest類型,再賦給request變量。一旦我們建立了httpwebrequest對象,就可以使用它的getresponse()方法來返回一個webresponse對象,然后再造型成httpwebresponse對象賦給response變量。現在,就可以使用response對象的getresponsestream()方法來得到響應的文本流了,最后用stream對象的read()方法把返回的響應信息放到我們最初創建的字節數組buf中,read()有3個參數,分別是:要放入的字節數組,字節數組的開始位置,字節數組的長度。最后把字節轉換成字符串,注意:這里采用的采用的是default編碼,它使用默認的編碼方式,我們就不用再進行字符編碼之間的轉換了。
也可以利用webrequest和webresponse實現以上的功能,代碼如下:
webrequest request = webrequest.create(textbox1.text);
webresponse response = request.getresponse();
輸入其它的url看看是不是很方便!