robots協議是什么?robots協議的意義何在?robots協議是什么樣的?想要了解robots協議請看以下文章!
首先robots文件指的是帶有.txt的文件,robots.txt的寫法是做seo網站優化人員必須知道的(什么是robots.txt),但該如何寫,禁止哪些、允許哪些,這就要我們自己設定了。
1、什么是robots協議? robots協議(也稱為爬蟲協議、機器人協議等)的全稱是“網絡爬蟲排除標準”(Robots Exclusion Protocol),網站通過robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。robots協議的本質是網站和搜索引擎爬蟲的溝通方式,用來指導搜索引擎更好地抓取網站內容,更好的保護用戶的隱私和版權信息。 大家記住,如果站內沒有robots.txt文件,則表明蜘蛛可以任意抓取網站的文件。對于我們seo網站優化來說并不是所有文件都需要讓蜘蛛抓取的。例如一些不重要的文件,或者網站的死鏈接,我們就需要使用robots.txt來屏蔽掉,不讓他抓取。
2、robots.txt文件存放在網站的什么地方robots.txt文件存放在我們網站的根目錄下,我們如何檢測站點里面有沒有robots.txt文件,我們只需要在網站的根域名后面輸入robots.txt
3、robots.txt文件書寫規則:• User-agent: 蜘蛛名稱• Disallow: 內容名稱 (禁止抓取的內容)• Allow:內容名稱(允許抓取的內容)。
注意事項:第一點是正常情況下我們書寫這個robots文件的時候一般很少用到ALLOW,但是robots這個文件必須且至少要寫一條disallow記錄。第二點是robots.txt 這個文件名要小寫的。
各大搜索引擎蜘蛛名稱,我們需要把這些帶用的蜘蛛名稱記下來: • 谷歌:googlebot • 百度:baiduspider • MSN:MSNbot • 雅虎:Slurp • 有道:YoudaoBot • 搜搜:Sosospider • 搜狗:sogou spider • 360:360Spider (haosouSpider) • alexa:ia_archiver
通配符說明: – *表示所有搜索引擎,用于指定蜘蛛使用。 – $表示以某字符串結尾 – /表示當前目錄下的所有內容
指定蜘蛛 • User-agent: * 這里的*代表的所有的搜索引擎種類,*是一個通配符 禁止寫法 • Disallow: /admin 這里定義是禁止爬尋admin目錄 • Disallow: /a/*.htm 禁止訪問/cgi-bin/目錄下所有以“.htm”為后綴URL(包含子目錄) • Disallow: /*?* 禁止訪問網站中所有包含問號(?)的網址 • Disallow: /.jpg$ 禁止抓取網頁所有的.jpg格式的圖片 • Disallow:/ab/adc.html 禁止爬取ab文件夾下面的adc.html文件。
新聞熱點
疑難解答