国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 網站 > 優化推廣 > 正文

谷歌官方《搜索引擎優化指南》網絡蜘蛛篇

2024-04-26 13:44:58
字體:
來源:轉載
供稿:網友

有效使用robots.txt

一個robots.txt文件可以告訴搜索引擎你網站的哪些部分允許它去抓取。而這個文件不旦必須命名成”robots.txt”,還得放在你網站的根目錄上。

一個網站robots.txt文件的路徑。

所有的遵循這一規則的搜索引擎爬蟲(按照通配符*指示的那樣)不應該進入并抓取/images/或者任何以/search開頭的url里的內容。

你也許并不希望你網站的一些頁面被抓取到,因為如果它們出現在搜索結果里對用戶可能是沒多大意義的。如果你想阻止搜索引擎爬取你的網頁,Google網站管理員工具有一個很好用的robots.txt生成器來幫助你創建這個文件。另外如果你希望子域名里的一些內容不被爬取,你需要在子域名的目錄下再新建一個robots.txt文件。你也可以在我們的網站管理員幫助中心獲得更多關于robots.txt的信息。

這里也有其它更便捷的方式來阻止你的內容出現在搜索結果里,比如說在robots meta標簽里添加”NOINDEX”,使用htaccess來為一些目錄加密或者使用Google網站管理員工具來移除某些已經被索引的內容。Google工程師 Matt Cutts一個幫助視頻里粗略地介紹了各種URL排除原理的注意事項。

robots.txt實踐經驗

為那些敏感的內容使用更加安全的方案——通過robots.txt來阻止一些敏感或者機密的內容。之所以這樣做的是因為如果那些你在robots.txt里阻止的鏈接出現互聯網上(比如說來源記錄),搜索引擎就很可能引用這些URLs(不過僅難是URL,不會含有標題或者內容片段)。還有一些不遵守機器人排除標準的流氓搜索引擎則會違背robots.txt上的指令。最后一些好奇的用戶就會去查看你robots.txt是聲明阻止的目錄或者子目錄,并猜測那些你不想被看到的內容。所以對內容加密或者通過 .htaccess實現密碼保護會是更安全的選擇。當然你需要避免:

1.允許看起來像搜索結果一樣的頁面被爬取。

2.允許大量的自動生成的頁面被抓取,而里面大多都是相同或者差異甚微的內容。“像這些100000張幾乎像復制的頁面被搜索引擎索引了有多大意義呢?”

3.允許代理服務器創建的URLs被爬取。

知識補充:Robots.txt

robots.txt(統一小寫)是一種存放于網站根目錄下的ASCII編碼的文本文件,它通常告訴網絡搜索引擎的漫游器(又稱網絡蜘蛛),此網站中的哪些內容是不能被搜索引擎的漫游器獲取的,哪些是可以被(漫游器)獲取的。 因為一些系統中的URL是大小寫敏感的,所以robots.txt的文件名應統一為小寫。robots.txt應放置于網站的根目錄下。如果想單獨定義搜索引擎的漫游器訪問子目錄時的行為,那么可以將自定的設置合并到根目錄下的robots.txt,或者使用robots元數據。

Robots.txt協議并不是一個規范,而只是約定俗成的,所以并不能保證網站的隱私。注意Robots.txt是用字符串比較來確定是否獲取URL,所以目錄末尾有和沒有斜杠“/”這兩種表示是不同的URL,也不能用"Disallow: *.gif"這樣的通配符。

這個協議也不是一個規范,而只是約定俗成的,通常搜索引擎會識別這個元數據,不索引這個頁面,以及這個頁面的鏈出頁面。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
主站蜘蛛池模板: 分宜县| 建阳市| 天台县| 林西县| 东明县| 南投市| 珲春市| 镇坪县| 芷江| 怀宁县| 芜湖县| 休宁县| 松原市| 新乐市| 洛浦县| 来凤县| 泸州市| 观塘区| 广平县| 图片| 鞍山市| 南平市| 新田县| 永寿县| 沁源县| 无为县| 德州市| 新蔡县| 柏乡县| 潞西市| 新邵县| 铜山县| 肥乡县| 洛宁县| 黎城县| 通榆县| 宕昌县| 论坛| 静乐县| 平利县| 兴安县|