Google技術(shù)副總裁談Google排名算法

2024-04-26 13:54:09

字體：大中小

供稿：網(wǎng)友

今天是Google新聞發(fā)布日2006，大家可以看新聞發(fā)布會的實況，長達(dá)3個多小時。在發(fā)布會上Google總裁Eric Schmidt談到Google的核心還是搜索，相關(guān)人員介紹了四個新產(chǎn)品，其中Google Trend對關(guān)鍵詞研究很有用。

最感興趣的是Google技術(shù)部門副總裁Alan Eustace談Google排名的情況。所以我只跳到這個部分看了一下，大概半小時。下面揀記得的重點介紹給大家。

Alan首先談到的是蜘蛛爬行，基本上就是跟蹤所發(fā)現(xiàn)的鏈接。

速度非常重要。上一次Google在主頁上發(fā)布的信息是，在數(shù)據(jù)庫中有80億網(wǎng)頁。如果每秒爬行一個網(wǎng)頁的話，這80億的網(wǎng)頁需要250多年才能爬行完。所以高速爬行網(wǎng)頁非常重要。

爬行時的另外一個問題是，大概有50％的網(wǎng)頁都是重復(fù)內(nèi)容。所以Google所收錄的80億其實是已經(jīng)丟掉了一半后的數(shù)字，真正爬行的有可能是200億文件。

爬行時還有一個危險就是無限循環(huán)。比如說跟蹤某個網(wǎng)頁上日歷的鏈接，可能在這個日歷上總是有“下一個月”這個按鈕，產(chǎn)生無限循環(huán)。因為網(wǎng)頁程序可以無限制的生成下一個月的月歷，Google蜘蛛就出不來了。

10％到20％的網(wǎng)站每個月都會更新內(nèi)容，更新度也很重要。

然后是索引，索引就和一本書的索引差不多。比如說用戶搜索heart attack（心臟病暴發(fā)），heart出現(xiàn)在文件5，9，25，attack出現(xiàn)在文件7，9，22，那么很明顯第九個網(wǎng)頁是符合條件的網(wǎng)頁，這樣搜索范圍就已經(jīng)限制在包含搜索詞的網(wǎng)頁內(nèi)。

當(dāng)然這個數(shù)量還是巨大的，再怎么從這里面挑出最好的結(jié)果呢？也就是進(jìn)一步計算排名。

Google用兩百多個信號來計算排名，這是新信息。

Alan提到了錨文字和PageRank。

舉斯坦弗大學(xué)網(wǎng)頁作為例子，很多其他網(wǎng)站會連向斯坦弗大學(xué)的網(wǎng)頁，那么可以合理假定斯坦弗大學(xué)的網(wǎng)站權(quán)威性比較高，這也就是PR的意義。

然后是錨文字，也就是鏈接文字。比如在斯坦弗大學(xué)的網(wǎng)頁上，一個以“Knight fellows”為鏈接文字的鏈接到其他網(wǎng)站，那么這個鏈接文字本身就在一定程度上說明了那個網(wǎng)頁的主題，就算在那個網(wǎng)頁上面Knight fellows這個詞根本沒有出現(xiàn)。

這個排名過程必須是自動的，不可能人工去調(diào)節(jié)這些排名。

Alan談到大約20％到25％的搜索關(guān)鍵詞都是獨特的，也就是說以前從來沒有別人所搜索過的。用戶都非常有創(chuàng)意，會以各種各樣形式組合的詞來做搜索。

一個關(guān)鍵詞搜索是由上千架機(jī)器所處理的。

Alan接著談到垃圾技術(shù)，比如說在留言本里留下垃圾鏈接，這種技術(shù)對Google來說早就不起作用了。再比如有的作弊的人建立大量的網(wǎng)站，在這些網(wǎng)站之間互相鏈接，這對Google也不起作用。

他加了一句：對別的搜索引擎起不起作用，那就不知道了。

Google在做算法調(diào)整的時候，依據(jù)是多少人受益。比如說做某個調(diào)整，40％的人會覺得搜索質(zhì)量提高，40％的人覺得沒什么變化，20％的人覺得搜索質(zhì)量降低，Google的決定就會是進(jìn)行這個調(diào)整。

不可能在100％的搜索詞下滿足100％的人。

Alan還提到很多其他語言的搜索也非常困難，比如中文分詞技術(shù)。

這段談話倒沒有很出人意料的地方，但Google負(fù)責(zé)技術(shù)的副總裁自己談Google排名算法就已經(jīng)很難得了。

等有時間再完整看一遍，看有什么新東西。