搜索引擎蜘蛛其實就是搜索引擎的抓取程序,叫法也不統一,有叫機器人的,也有叫爬行器的,還有叫爬蟲的等等。
因為搜索引擎的抓取方式是通過鏈接來實現的,一個個的鏈接連在一起,整合起來就好像是一張巨大的蜘蛛網,所以被稱大家通俗的稱之為蜘蛛。
蜘蛛的工作方式是從已知的網頁出發,通過網頁中的鏈接地址尋找到其它的網頁,然后又通過這個網頁上面的鏈接找到其它的網頁,這樣子一直循環下去。
蜘蛛雖然工作的很勤勞,但是互聯網上的網頁太多了,對于搜索引擎來說要將所有的網頁抓取到幾乎是不可能的,從目前公布的數據來開,搜索引擎能夠抓取到全部網頁的百分之四十左右,這已經很了不起了。
在網頁抓取的時候,蜘蛛一般會采用兩種策略,分別是:深度優先和廣度優先。深度優先是指蜘蛛會從起始頁開始往下跟蹤,處理完一條線路之后返回到起始頁,再繼續跟蹤。廣度優先是指蜘蛛會先抓取到網站中的所有鏈接,然后再選擇其中的一個鏈接網頁,再繼續抓取這個頁面上的全部鏈接。
我們一起來看看目前主流搜索引擎蜘蛛的名字吧。
百度蜘蛛:baiduspider
google蜘蛛: googlebot
yahoo蜘蛛:slurp
soso蜘蛛:Sosospider
搜狗蜘蛛:Sogou web spider
lexa蜘蛛:ia_archiver
必應蜘蛛:msnbot
有道蜘蛛:YodaoBot和OutfoxBot
新聞熱點
疑難解答