国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 網(wǎng)站 > 建站經(jīng)驗 > 正文

3.1-采集教程(1例)

2024-08-30 19:06:10
字體:
供稿:網(wǎng)友

采集是很多用戶感覺頭疼的事情,實際上也不是那么難的,現(xiàn)在我舉例給大家具體說明一下吧,可能不如錄像那么直觀,我盡量說明白一點。

要采集,則必須滿足服務(wù)器支持組件:Microsoft.XMLHTTP

點擊菜單欄的“常規(guī)治理”,選擇輔助工具里面的新聞采集。首先設(shè)置站點,根據(jù)采集對象頁面設(shè)置過濾條件,設(shè)置好之后進行采集,然后審核數(shù)據(jù),將數(shù)據(jù)進行入庫,入庫之后的數(shù)據(jù)可以在歷史數(shù)據(jù)里面看到,歷史數(shù)據(jù)不刪除,則在采集的時候采集過的文章不會再次采集。假如刪掉了歷史數(shù)據(jù)則采集的時候不能過濾采集過的文章的。

下面以中華新聞網(wǎng)的娛樂新聞為例具體說明一下采集的設(shè)置,其地址是:

http://www.chinanews.com.cn/entertainment.shtml

一. 站點設(shè)置:

1. 建立站點:

選擇站點設(shè)置,進入采集站點的設(shè)置。

首先選擇“新建站點”:

我們把站點名稱取名為“娛樂新聞”,入庫目標欄目可以根據(jù)需要選擇,我設(shè)置為Test_1,采集對象頁面地址就填寫采集站點的地址:http://www.chinanews.com.cn/entertainment.shtml,模板當然是自己選擇了,這里因為采集的對象頁面可能有圖,我設(shè)置了保存遠程圖片,假如不需要采集對象頁面的圖片也可以不選擇。然后保存,則在后臺的站點設(shè)置里面可以看到我們剛剛建立的站點了。

接下來我們需要修改向?qū)Я恕?/P>

2. 修改向?qū)В?/P>

點擊修改向?qū)е蟪霈F(xiàn)下面的界面:

這里就是我們剛剛建立站點設(shè)置的參數(shù),直接點擊“下一步”,進入設(shè)置獲取新聞列表的條件:

這時我們打開站點,查看采集對象頁面的源文件,最好是把源文件拷貝到DW(Dreamweaver)里面,這樣比較好找到適合的條件。

在DW里面查看新聞列表的源碼:

下圖陰影部分則為列表代碼:

從圖中我們可以看到列表開始的代碼是:<table width="100%" border="0" cellpadding="7">,最好是在源文件里面查一下是否這句代碼是否是唯一的。假如是唯一的,則可以在設(shè)置條件的框里面填上。假如不是唯一的,則可以擴大代碼的范圍,一定要保證代碼的唯一性。

然后我們看一下列表代碼結(jié)束的地方

該頁面的列表代碼結(jié)束則是:</table>

這樣我們找到了列表的開始代碼和結(jié)束代碼,在這兩句代碼直接則是我們需要獲取的新聞列表了,所以我們設(shè)置的條件則是如下:

這里不設(shè)置分頁,所以直接點擊下一步進入新聞鏈接的條件設(shè)置:

這個時候你可以看到頁面分為了三部分:列表URL條件設(shè)置部分,代碼部分,結(jié)果部分,假如上一步設(shè)置正確,則這里的代碼部分和結(jié)果部分就會顯示獲取到的新聞列表的代碼和新聞列表了。

這里我們開始設(shè)置獲取鏈接的代碼:

陰影部分是一條新聞的代碼,則我們可以看到,新聞的鏈接路徑代碼是:

共2頁上一頁12下一頁
發(fā)表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發(fā)表
主站蜘蛛池模板: 河北区| 康定县| 义乌市| 梨树县| 徐汇区| 拜城县| 庆元县| 布尔津县| 呼图壁县| 江华| 台安县| 汝阳县| 惠州市| 兴义市| 阳高县| 霍州市| 九江市| 林口县| 左权县| 株洲县| 泗洪县| 大新县| 菏泽市| 永丰县| 常德市| 东丰县| 六安市| 隆尧县| 九龙坡区| 涟源市| 长阳| 罗甸县| 芷江| 九龙县| 郯城县| 绍兴市| 太康县| 富川| 四平市| 丰城市| 微山县|