普遍認為,robots應該忽略大小寫和版本號。要記住這是大多數商業搜索引擎的robots作者們的意見,因為你不想用 那些沒用的頁面來使用戶感到苦惱。但是,雖然在命令行中你可以不必考慮大小寫,但是必須保證在鍵入URL時是準確無誤 的。雖然Windows NT 對文件名和路徑名的大小寫無所謂,但并不是所有的平臺都如此。
# Don't come to this site User-agent: * Disallow: / # Disallows anything
例2
# robots.txt for XYZcorp # webmaster: John Doe contact JohnD@xyzcorp.com User-agent: * # Applies to all robots except next record Disallow: /store/order/ # No robot should visit any URL starting with /store/order/ Disallow: /admin/ # Disallow any pages in the admin folder Disallow: /world_domination.asp # Disallow world_domination.asp
好,這就是有關robot.txt文件的全部內容。下面介紹如何使用 < META >標記 。
使用一個< META > robot 標記
同樣,你還是不能保證一個robot 會完全遵守< META >標記中的指示,但是對商業搜索引擎來說還是十分有效的。< META >標記必須包含在一個文件的< HEAD > 部分。他們工作的原理是告訴robot 是否可以對其中有這個標記的頁面進行索 引,是否可以跟隨頁面上或其下的文件夾中的任何鏈接。
同樣,語法非常簡單。第一個例子是:
< META NAME="robots" CONTENT="noindex" >
這行代碼告訴 robot不要索引這一頁。
下一個例子:
< META NAME="robots" CONTENT="nofollow" >
允許robot索引這一頁,但是規定它不能夠跟隨這一頁上的任何鏈接。如果你想將二者都禁止,可以使用:
< META NAME="robots" CONTENT="noindex, nofollow" >
這表示不要索引這一頁,也不要跟隨這頁上的任何鏈接。但是,還有一個更簡單的方法:
< META NAME="robots" CONTENT="none" >
還是表示不要索引這一頁,或跟隨這頁上的任何鏈接。
不幸的是,如果你有一個名為admin.asp的文件與 update.asp相鏈接,在admin.asp中使用< META > 標記來防止robot 對admin.asp 或 update.asp 進行索引,卻忘記在另一個與update.asp 相鏈接的 頁面中也做同樣的處理,那么robot 還是可以通過這個漏掉< META > 標記的第二頁而到達update.asp。
另外,你還可以使用值索引。但由于它們被忽略時是默認值,因此這是沒有必要的,而且這樣做沒有意義。
如果你使用的是IIS,那么應該總是使用定制的 HTTP 頭文件來執行< META > 標記方法。從理論上講,一個robot 對 以這種方式創建的< META > 標記的反應應該是完全一樣的,看起來是這樣: