今天是Google新聞發(fā)布日2006,大家可以看新聞發(fā)布會的實況,長達(dá)3個多小時。在發(fā)布會上Google總裁Eric Schmidt談到Google的核心還是搜索,相關(guān)人員介紹了四個新產(chǎn)品,其中Google Trend對關(guān)鍵詞研究很有用。
最感興趣的是Google技術(shù)部門副總裁Alan Eustace談Google排名的情況。所以我只跳到這個部分看了一下,大概半小時。下面揀記得的重點介紹給大家。
Alan首先談到的是蜘蛛爬行,基本上就是跟蹤所發(fā)現(xiàn)的鏈接。
速度非常重要。上一次Google在主頁上發(fā)布的信息是,在數(shù)據(jù)庫中有80億網(wǎng)頁。如果每秒爬行一個網(wǎng)頁的話,這80億的網(wǎng)頁需要250多年才能爬行完。所以高速爬行網(wǎng)頁非常重要。
爬行時的另外一個問題是,大概有50%的網(wǎng)頁都是重復(fù)內(nèi)容。所以Google所收錄的80億其實是已經(jīng)丟掉了一半后的數(shù)字,真正爬行的有可能是200億文件。
爬行時還有一個危險就是無限循環(huán)。比如說跟蹤某個網(wǎng)頁上日歷的鏈接,可能在這個日歷上總是有“下一個月”這個按鈕,產(chǎn)生無限循環(huán)。因為網(wǎng)頁程序可以無限制的生成下一個月的月歷,Google蜘蛛就出不來了。
10%到20%的網(wǎng)站每個月都會更新內(nèi)容,更新度也很重要。
然后是索引,索引就和一本書的索引差不多。比如說用戶搜索heart attack(心臟病暴發(fā)),heart出現(xiàn)在文件5,9,25,attack出現(xiàn)在文件7,9,22,那么很明顯第九個網(wǎng)頁是符合條件的網(wǎng)頁,這樣搜索范圍就已經(jīng)限制在包含搜索詞的網(wǎng)頁內(nèi)。
當(dāng)然這個數(shù)量還是巨大的,再怎么從這里面挑出最好的結(jié)果呢?也就是進(jìn)一步計算排名。
Google用兩百多個信號來計算排名,這是新信息。
Alan提到了錨文字和PageRank。
舉斯坦弗大學(xué)網(wǎng)頁作為例子,很多其他網(wǎng)站會連向斯坦弗大學(xué)的網(wǎng)頁,那么可以合理假定斯坦弗大學(xué)的網(wǎng)站權(quán)威性比較高,這也就是PR的意義。
然后是錨文字,也就是鏈接文字。比如在斯坦弗大學(xué)的網(wǎng)頁上,一個以“Knight fellows”為鏈接文字的鏈接到其他網(wǎng)站,那么這個鏈接文字本身就在一定程度上說明了那個網(wǎng)頁的主題,就算在那個網(wǎng)頁上面Knight fellows這個詞根本沒有出現(xiàn)。
這個排名過程必須是自動的,不可能人工去調(diào)節(jié)這些排名。
Alan談到大約20%到25%的搜索關(guān)鍵詞都是獨特的,也就是說以前從來沒有別人所搜索過的。用戶都非常有創(chuàng)意,會以各種各樣形式組合的詞來做搜索。
一個關(guān)鍵詞搜索是由上千架機(jī)器所處理的。
Alan接著談到垃圾技術(shù),比如說在留言本里留下垃圾鏈接,這種技術(shù)對Google來說早就不起作用了。再比如有的作弊的人建立大量的網(wǎng)站,在這些網(wǎng)站之間互相鏈接,這對Google也不起作用。
他加了一句:對別的搜索引擎起不起作用,那就不知道了。
Google在做算法調(diào)整的時候,依據(jù)是多少人受益。比如說做某個調(diào)整,40%的人會覺得搜索質(zhì)量提高,40%的人覺得沒什么變化,20%的人覺得搜索質(zhì)量降低,Google的決定就會是進(jìn)行這個調(diào)整。
不可能在100%的搜索詞下滿足100%的人。
Alan還提到很多其他語言的搜索也非常困難,比如中文分詞技術(shù)。
這段談話倒沒有很出人意料的地方,但Google負(fù)責(zé)技術(shù)的副總裁自己談Google排名算法就已經(jīng)很難得了。
等有時間再完整看一遍,看有什么新東西。
來源:seo優(yōu)化網(wǎng) 轉(zhuǎn)載注明出處!
新聞熱點
疑難解答
圖片精選