做SEOer應該曉得,robots.txt文件是一個網站必不可少的文件,但seo優化網看到在很多中小公司的網站上仍是沒有這個文件,今天咱們便來研究一下robots.txt文件的重要性。
1、什么是Robots?
robots文件的使用相信很多站長都會比較熟悉,但是在細節上會有所疏忽,不是特別的精通。因為robots優化的相關信息搜索引擎并沒有給出比較詳盡的聲明及運用方法,以及每個站長對于robots的需求不同等特點,導致robot的優化方式更加靈活善變,那么robots到底是什么呢?我們可以簡單的理解為通過這個robots位于網站根目錄的文件協議來告訴蜘蛛哪些是可以訪問收錄哪些是不可以訪問收錄的!當蜘蛛訪問您的網站的時候他首先會先檢測您的網站是否設置的有robots文件協議,如果存在,搜索機器人就會按照該文件中的內容來確定訪問的范圍;如果該文件不存在,那么搜索機器人就會沿著鏈接抓取。
2、Robots優化寫作方法:
首先,我們來看一個robots.txt范例:
# robots .txt file from http://www.seozf.com
#All robots will spider the domain
User-agent:.
Disallow:
以上文本表達的意思是允許所有的搜索機器人訪問www.seozf.com站點
下的所有文件。具體語法分析如下。
#后而文字為說明信息;
User-agent后面為搜索機器人的名稱,如果是“。”,則泛指所有的搜索機器人;
Disallow后面是不允許訪問的文件目錄,如目錄為空則不起任何禁止作用。
下而,列舉一些robots.txt的具體用法。
允許所有的robot訪問,格式如下:
User-agent:.
Disallow:
或者也可以建一個空robots.txt文件。
禁止所有搜索引擎訪問網站的任何部分,格式如下:
User-agent:.
Disallow:/
禁止所有搜索引擎訪問網站的某幾個部分,比如下例中禁止訪問01, 02, 03
目錄:
User-agent
Disallow:/aa/
Disallow:/bb/
Disallow:/cc/
禁止某個搜索引擎的訪問,比如下例中的BadBot:
User-agent:BadBot
Disallow:/
只允許某個搜索引擎的訪問,比如下例中的Crawler:
User-agent:Crawler
3、Robots很的很重要嗎
一:從搜索引擎角度
當咱們網站上有一些文件不想被搜索引擎蜘蛛抓取時,咱們需求寫個robots.txt文件,以此來告訴蜘蛛,這些文件不能被抓取,可是有的公司以為自個網站上沒有不想蜘蛛抓取的內容,所以就忽略了robots.txt文件,那么,這樣是不對的。
跟著搜索引擎越來越智能化,它拜訪一個新網站時,會首要拜訪這個網站的robots.txt文件,這也變成搜索引擎蜘蛛拜訪網站時的一個習氣,這個時分,假如你的網站上沒有robots.txt這個文件,反而可能會形成搜索引擎蜘蛛對你的網站頁面不能正常的抓取。所以小馬主張,即便你的網站內容全都答應搜索引擎蜘蛛抓取,你也應該樹立一個robots.txt文件,這代表的是對搜索引擎蜘蛛的友愛。
二:時常查看robots.txt文件
每逢咱們在做網站的保護時,咱們老是圍著網站內容和網站外鏈散步,每逢咱們的網站呈現疑問,咱們首要即是對這些當地進行逐個排查,而對于robots.txt文件,估計除了最初樹立網站時寫過外,現已好久都沒理睬過了,這樣是不對的。
當一個黑客攻入咱們的網站,它不需求在咱們的網站上掛上黑鏈,鏈上黃賭毒網站,也不需求在咱們的內容頁加上指向它網站的隱藏連接,它只需求修正一下咱們小小的robots.txt文件,就可以搞定咱們了,常常看到有些人在搜索引擎上查詢自個網站的錄入時,發現呈現了反常,所以開端排查,可是外鏈和內鏈都沒有疑問,這個時分,急的真是焦頭爛額。這即是無視了最簡略而且最重要的要素----robots.txt文件。
三:寫robots.txt文件要全面
robots.txt文件寫作時也是需求標準的,否則就好像虛設,比方咱們的網站上有的頁面時動態化地址,咱們曉得這些動態化地址搜索引擎蜘蛛不能極好的抓取,所以咱們在robots.txt文件里注明,有些SEOer在注明時會在第二行這樣寫:Disallow:/*?*,這即是不全面的。
咱們都曉得動態化網址的結尾都是有很多參數的,如?,%等,所以當咱們不期望搜索引擎蜘蛛抓取動態網址的頁面時,咱們就要在robots.txt文件里注明自個網站動態化網址呈現的一切參數。否則,搜索引擎蜘蛛仍是能夠抓取咱們網站的動態化網址,咱們的robots.txt文件就好像虛設。
|
新聞熱點
疑難解答