国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 服務器 > Linux服務器 > 正文

linux下5條提取百度蜘蛛Apache日志的命令

2024-09-05 23:01:05
字體:
來源:轉載
供稿:網友

考慮到平時要做優化,看百度爬蟲到底爬取了哪些目錄,哪些鏈接或目錄被爬取的次數比較少,以便對頁面的鏈接做nofollow,robots.txt等屏蔽處理,引導爬蟲抓取哪些需要被爬取的頁面,提升整體的收錄率。

總結了用的較多幾條命令:

提取Apache日志百度蜘蛛的相關爬行記錄

1. 百度蜘蛛爬行的次數 cat access_log | grep Baiduspider+ | wc 最左面的數值顯示的就是爬行次數。

2. 百度蜘蛛的詳細記錄(Ctrl+C可以終止) cat access_log | grep Baiduspider+ 也可以用下面的命令: cat access_log | grep Baiduspider+ | tail -n 10 cat access_log | grep Baiduspider+ | head -n 10 只看最后10條或最前10條,這用就能知道這個日志文件的開始記錄的時間和日期。

3. 百度蜘蛛抓取首頁的詳細記錄 cat access_log | grep Baiduspider+ | grep “GET / HTTP”

4. 百度蜘蛛派性記錄時間點分布 cat access_log | grep “Baiduspider+” | awk ‘{print $4}’

5. 百度蜘蛛爬行頁面按次數降序列表 cat access_log | grep “Baiduspider+” | awk ‘{print $7}’ | sort | uniq -c | sort

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 通海县| 瓦房店市| 盐池县| 鄯善县| 建宁县| 巩留县| 武汉市| 井研县| 凯里市| 普兰县| 三河市| 北票市| 南昌市| 资溪县| 肇东市| 英德市| 沙河市| 睢宁县| 辉县市| 林芝县| 会宁县| 台南县| 郁南县| 夏津县| 基隆市| 天柱县| 五莲县| 兴安盟| 长沙市| 南靖县| 同江市| 大同县| 丁青县| 南召县| 舟山市| 江达县| 平远县| 泗洪县| 江华| 长海县| 随州市|