国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 編程 > ASP > 正文

用xmlhttp編寫web采集程序

2024-05-04 11:02:18
字體:
供稿:網(wǎng)友
晰帶語法著色的版本:http://gwx.showus.net/blog/article.asp?id=229

原創(chuàng)很辛苦,轉(zhuǎn)載請注明原文鏈接:http://gwx.showus.net/blog/article.asp?id=229

web采集程序?網(wǎng)頁抓取程序?小倫程序?不管怎么叫,這種程序應(yīng)用倒是蠻廣的。本文不討論這種使用這種程序引起的版權(quán)或道德問題,只談這種程序在ASP+VBScript環(huán)境下的實現(xiàn) :-)

預(yù)備知識:除了一般的ASP+VBScript的知識外,你還需要了解xmlhttp對象和正則表達式對象。xmlhttp對象是時下風(fēng)頭正勁的Ajax的主角;而學(xué)好了正則表達式,你再也不用為處理復(fù)雜的字符串犯愁。

在編寫和調(diào)試正則表達式時,RegEx 這個小工具非常有用。

目錄
抓取一個遠程網(wǎng)頁并保存到本地 
改進:處理亂碼 
同時下載遠程網(wǎng)頁的圖片(和其它文件) 
改進:探測真實URL 
改進:避免重復(fù)下載 
實戰(zhàn)舉例(以****為例) 
分析列表頁 
內(nèi)容頁的技巧 
分析內(nèi)容頁中的上一頁,下一頁 
高級主題:UTF-8和GB2312的轉(zhuǎn)換 
更多高級主題:登陸后抓取,客戶端偽造 
己有的采集程序 
原文鏈接:http://gwx.showus.net/blog/article.asp?id=229

1.抓取一個遠程網(wǎng)頁并保存到本地
'用于調(diào)試的過程,后面會多次調(diào)用檢查中間結(jié)果
Dim inDebug:inDebug=True 
Sub D(Str)
    If inDebug = False Then Exit Sub
    Response.Write("<div style='color:#003399; border: solid 1px #003399; background: #EEF7FF; margin: 1px; font-size: 12px; padding: 4px;'>")
    Response.Write(Str &"</div>")
    Response.Flush()
End Sub

'過程: Save2File
'功能: 把文本或字節(jié)流保存為文件
'參數(shù): sContent    要保存的內(nèi)容
'       sFile       保存到文件,形如"files/abc.htm"
'       bText       是否是文本
'       bOverWrite  是否覆蓋己存在文件
Sub Save2File(sContent,sFile,bText,bOverWrite)
    Call D("Save2File:"+sFile+" *是否文本:"&bText)
    Dim SaveOption,TypeOption
    If (bOverWrite = True) Then SaveOption=2 Else SaveOption=1
    If (bText = True) Then TypeOption=2 Else TypeOption=1
    Set Ads = Server.CreateObject("Adodb.Stream")
    With Ads
        .Type = TypeOption 
發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 旺苍县| 浦东新区| 天水市| 南陵县| 云梦县| 汕头市| 安国市| 中西区| 广德县| 旺苍县| 延安市| 子长县| 门源| 宜川县| 长沙县| 社旗县| 邯郸市| 岗巴县| 辰溪县| 林西县| 水富县| 济宁市| 吉木乃县| 翁源县| 凤冈县| 汶上县| 阳新县| 河南省| 九龙县| 凌云县| 洞口县| 嘉禾县| 日喀则市| 衡山县| 迁安市| 耿马| 沙河市| 云霄县| 桐梓县| 宣恩县| 辰溪县|