今天打開火車頭采集器需要更新下織夢網站,可是點了開始后發現錯誤了重新修改了列表采集規則。沒仔細看等抓完300多個連接導入數據庫時發生錯了,仔細一看該目標站的文章列表頁將文章url地址做了處理。
表現:
常規的文章列表文章URL應該是 <a href="https://www.CUOxin.com/URL.html">才對,而該站處理成了<a href="//www.CUOxin.com/URL.html">,就是把協議頭https或者http給取消了,這個 在一定程度上是可以防范很多采集程序,軟件,爬蟲的。采集后的地址列表會多一層網址,就成了https://www.CUOxin.com/www.CUOxin.com/URL.html,這樣的話就無法正確采集內容了。
在網址獲取選項里點選“手動填寫鏈接地址規則”,
右側腳本規則填寫【a class="item" href="[參數]" title="(*)" target="_blank">】這里的參數就是原始目前的不帶協議頭的網址。
實際連接:填寫【http:[參數1]】如果該網站是https的這里就填寫【https:[參數1]】
結果:
以上操作后點獲取網址測試正確,從采集,入庫等都OK了。
PS:
這個網址問題以前看到過,用DEDECMS織夢采集就是網址錯誤,今天在火車頭上總算是解決了。
新聞熱點
疑難解答