以采集示例詳解部分功能
今天要給大家做示例的網站是163的 娛樂頻道 這個應該是個比較通用和實用的規則,下面開始。
如果您是火車采集器的老手,那么您可以參考下,因為我要講解的會有違傳統的思維;如我您是新手那么您最好能仔細看下,因為這將加快您的入門,同時在以后給您節省很多時間。以下是一些采集的基本步驟,您可以靈活運用:
一、建立站點
1、請先打開火車采集器,新建站點,看下圖:
等標志來表示內容的開始。他們這么作的原因有兩個,一個是由于內容多,為了各個部門之間的配合而作了對應的標記以便于工程的交接,另一個原因就是內容控制的需要,隨著xhtml的流行,用層控制越來越多,這就使得我們尋找采集標示越來越簡單(這點你們以后會慢慢理解的)。上面給各位講這些是因為接下來要我們要講解的是整站內容規則。
2、標題標簽講解。對應的頁面在這:
首先從“站點基本信息”切換到“整站內容規則”,然后把要采集的內容頁面的網址拷貝到“典型頁面”接著點擊“測試”讀取源碼。先從標題標簽開始,我們發現按默認標簽采集回來的標題多了“_網易娛樂”,請雙擊標題標簽或者選種標題標簽在點擊修改,把“_網易娛樂”添加到排除內容框里,標題標簽完成。如圖:
作為內容開始的標志。
一般來說我們從開始標志到結束標志所采集回來的內容中都會包含有必須排除的內容或廣告,或鏈接。這邊我們需要排除的內容是“相關專題>>> 第六屆金鷹電視藝術節”。排除的方法是,找到相對應的代碼把代碼完整的拷貝進內容排除窗口,變動的部分用“(*)”替代。由于這個是整站規則,所以必須多找幾個類別,比如現在的這個163娛樂還包括了“明星 | 圖片 | 電影 | 電視 | 音樂 | 論壇 | 專題 | 名人訪 ”等,在這邊我只抽取“明星、圖片、電影”作為列子跟大家講解。找其他的類別只是希望把規則做的通用完美,如果你只要其中的一個分類,比如“圖片”那么你直接做這個的規則即可。
這個頁面剛好有分頁,所以就順便講下上下頁的設置。他這邊的“上一頁”和“下一頁”是用圖片做鏈接的,所以只要不圖片的名字(右鍵點擊對應的圖片查看屬性,拷貝圖片名即可)拷貝進對應的代碼框即可,詳細的看圖片:
作規則需要善于去發現規律性的東西,作到這點采集就沒什么問題了。我們要采集示例的地址在這
這板只采集其中的1-3頁作為范例。我們發現每個葉面的網址開始前面都包含“過往娛樂熱點”結束都是“第1 2……頁”,所以請到html源代碼里面拷貝對應的代碼,到特定區域采集范圍中,另外,網址中必須包含“/06/” 這樣網址采集就搞定了(簡單吧,自己試試看),如下圖:
下面是剛才我采集到本地論壇采集測試的兩個截屏:
新聞熱點
疑難解答