PageRank
基本思想:如果網頁T存在一個指向網頁A的連接,則表明T的所有者認為A比較重要,從而把T的一部分重要性得分賦予A。這個重要性得分值為:PR(T)/C(T)
其中PR(T)為T的PageRank值,C(T)為T的出鏈數,則A的PageRank值為一系列類似于T的頁面重要性得分值的累加。
PR(A)=(1-d)+d(PR(t1)/C(t1)+…+PR(tn)/C(tn))
A代表頁面A
PR(A)則代表頁面A的PR值
d為阻尼指數。通常認為d=0.85
t1…tn 代表鏈接向頁面A的頁面t1到tn
C代表頁面上的外鏈接數目。C(t1)即為頁面t1上的外鏈接數目
從計算公式可以看到,計算PR值必須使用迭代計算才能得到。
優點:是一個與查詢無關的靜態算法,所有網頁的PageRank值通過離線計算獲得;有效減少在線查詢時的計算量,極大降低了查詢響應時間。
不足:人們的查詢具有主題特征,PageRank忽略了主題相關性,導致結果的相關性和主題性降低;另外,PageRank有很嚴重的對新網頁的歧視。
Topic-Sensitive
(主題敏感的PageRank)
基本思想:針對PageRank對主題的忽略而提出。核心思想:通過離線計算出一個PageRank向量集合,該集合中的每一個向量與某一主題相關,即計算某個頁面關于不同主題的得分。主要分為兩個階段:主題相關的PageRank向量集合的計算和在線查詢時主題的確定。
優點:根據用戶的查詢請求和相關上下文判斷用戶查詢相關的主題(用戶的興趣)返回查詢結果準確性高。
不足:沒有利用主題的相關性來提高鏈接得分的準確性。
Hilltop
基本思想:與PageRank的不同之處:僅考慮專家頁面的鏈接。主要包括兩個步驟:專家頁面搜索和目標頁面排序。 優點:相關性強,結果準確。 不足:專家頁面的搜索和確定對算法起關鍵作用,專家頁面的質量決定了算法的準確性,而專家頁面的質量和公平性難以保證;忽略了大量非專家頁面的影響,不能反映整個Internet的民意;當沒有足夠的專家頁面存在時,返回空,所以Hilltop適合對于查詢排序進行求精。
來源:seo優化網 轉載注明出處!
新聞熱點
疑難解答