国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 網站 > 建站經驗 > 正文

3.1-采集容易出錯的幾個地方的設置說明

2024-08-30 19:06:10
字體:
來源:轉載
供稿:網友

3.1的采集增加了模糊匹配查詢的功能,

從發布以來大家使用后反映問題來看,

我特總結幾點做非凡說明(以后發現更多情況再繼續補充):

一、采集條數設置后導致下標越界的問題

出現這個問題是因為設置的采集條數過大,已經大于了目標頁面的實際新聞條數,假如要采集的新聞是整個目標頁面的新聞,請不要填寫條數,直接點擊確定就是了,默認是全部采集對象頁的全部符合條件的新聞。

二、無法讀取新聞列表的問題

新聞列表在3.1里面設置是非必須的,即可以不設置,默認是全頁面(在<body和</body>之間)匹配符合條件的新聞地址。但是我們建議您設置一下采集“新聞列表”,那樣可以加快采集速度,并且給你設置“列表URL”帶來方便。設置的時候請注重開始標記的唯一性,結束標記也建議設置成唯一的,假如設置中有不方便的情況,可以使用“[變量]”代替一下不確定的字符,可以設置多個“[變量]”。

三、采集目標地址在頁面中是相對路徑的問題

其實這個不算是個問題,因為我們系統會判定是相對路徑和絕對路徑的,相對路徑在采集的時候也會補充完整的!對采集沒有影響!

四、采集分頁的問題

采集新聞對象頁分頁這里不說了,請看教程和錄像;采集新聞內容分頁,請設置具有“下一頁”標記的地方,取得“下一頁”指向的地址,假如只有第一頁,第二頁,第三頁等,無法確定下一頁標記的頁面,內容分頁暫時是不能采集的,除非如當前頁是第二頁,“第二頁”標記是沒有加超連接的,那樣可以尋找這樣沒有加超連接的下一個標記就是下一頁。總之,必須要準確取出“下一頁”的URL地址才能使用內容分頁采集。

五、對續采的說明

續采新聞需要在前面采集有記錄的情況下進行,并且要和采集順序相同,假如采集是順序采集,在續采的時候改成了倒序采集,續采是進行不下去的。假如采集對象也更新很快,前一次采集比較久了,采集記錄比采集對象頁老的情況下續采將無法確定前一次采集的結束點,建議使用正常的采集。續采沒有采集條數的設置。

六、目標頁采集回來出現亂碼的問題

那是目標頁編碼方式和采集默認編碼方式不一樣導致的,我們默認是采集GB2312,在采集UTF-8等編碼方式會出現亂碼,需要修改collect/inc/function.asp里面第二個函數對編碼方式的設置,采集完成后請修改回GB2312,因為現在的中文網頁絕大部分是使用GB2312的。

七、遠程存圖和存FLASH的問題

假如在站點選項里面設置了保存遠程圖片,在采集時會將新聞頁面的圖片和FLASH采集到本地你設置的保存文件的目錄里面,并將頁面對應的圖片和FLASH地址替換成你現有的本地路徑,假如不保存遠程圖片,也會將圖片和FLASH連接地址替換成絕對的,所以不用擔心采集回來有相對路徑的顯示問題。

八、其他一些不能采集的情況

請注重紅色顯示的報錯信息,比如標題失敗,內容失敗等,請檢查相應部分的設置,在不熟悉的情況下多修改幾次,你一定能采集成功的!

還有一些地方需要自己體會,有問題歡迎上論壇我們大家討論!

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 尼木县| 沂水县| 甘泉县| 宜春市| 安徽省| 噶尔县| 时尚| 阜康市| 淮南市| 桃源县| 永福县| 洛阳市| 肥东县| 巩义市| 浏阳市| 吉木乃县| 南昌市| 富平县| 修水县| 斗六市| 贵南县| 盖州市| 廊坊市| 四平市| 托克托县| 长海县| 新蔡县| 宜春市| 潼关县| 家居| 望都县| 黑龙江省| 许昌市| 屯昌县| 远安县| 岚皋县| 闽清县| 内江市| 庆阳市| 佛教| 天峻县|