PageRank,又稱網頁排名、Google左側排名、PR,是Google公司所使用的對其搜尋引擎搜尋結果中的網頁進行排名的一種演算法。
佩吉排名本質上是一種以網頁之間的超連結個數和品質作為主要因素粗略地分析網頁的重要性的演算法。其基本假設是:更重要的頁面往往更多地被其他頁面參照(或稱其他頁面中會更多地加入通向該頁面的超連結)。 其將從A頁面到B頁面的連結解釋為「A頁面給B頁面投票」,並根據投票來源(甚至來源的來源,即連結到A頁面的頁面)和投票物件的等級來決定被投票頁面的等級。簡單的說,一個高等級的頁面可以提升其他低等級的頁面。
該演算法以Google公司創始人之一的賴利·佩吉(Larry Page)的名字來命名。谷歌搜尋引擎用它來分析網頁的相關性和重要性,在搜尋引擎最佳化中經常被用來作為評估網頁最佳化的成效因素之一。
目前,佩吉排名演算法不再是Google公司用來給網頁進行排名的唯一演算法,但它是最早的,也是最著名的演算法。
PageRank演算法通過輸出概率分布來體現某人隨機地點擊某個連結的概率。PageRank值(PR)可以在任何規模的檔案(document)集合中計算得出,而每個連結都指向該集合中的某個特定檔案。相關研究論文指出,在初次計算前,總概率將被均分到每個檔案上,使得集合中的每個檔案被存取的概率都是相同的。接下來在重複多次的計算(又稱為「迭代」)中,演算法將根據集合的實際情況不斷調整PR值,使得其越來越接近最真實的理論值。
最終的概率將通過一個在0與1之間的數值體現。概率為0.5通常意味著該事件有50%的可能性發生。因此,「PR=0.5」代表「有50%的可能性,某人點擊了一個隨機的連結並存取了該連結指向的檔案」。
假設一個由4個網頁組成的集合:A,B,C和D。同一頁面中多個指向相同的連結視為同一個連結,並且每個頁面初始的PageRank值相同,最初的演算法將每個網頁的初始值設定為1。但是在後來的版本以及下面的範例中,為了滿足概率值位於0到1之間的需要,我們假設這個值是0.25。
在每次迭代中,給定頁面的PR值(PageRank值)將均分到該頁面所連結的頁面上。
如果所有頁面都只連結至A,那麼A的PR值將是B,C及D的PR值之和,即:
重新假設B連結到A和C,C連結到A,並且D連結到A,B,C。最初一個頁面總共只有一票。所以B給A ,C每個頁面半票。以此類推,D投出的票只有三分之一加到了A的PR值上:
換句話說,演算法將根據每個頁面連出總數 L(x)平分該頁面的PR值,並將其加到其所指向的頁面:
最後,所有這些PR值被換算成百分比形式再乘上一個修正係數 d。由於「沒有向外部連結接的網頁」傳遞出去的PR值會是0,而這會遞迴地導致指向它的頁面的PR值的計算結果同樣為零,所以賦給每個頁面一個最小值(1-d)/N:
需要注意的是,在Sergey Brin和Lawrence Page的1998年原版論文中給每一個頁面設定的最小值是1-d ,而不是這裡的(1-d)/N,這將導致集合中所有網頁的PR值之和為N(N為集合中網頁的數目)而非所期待的1。
因此,一個頁面的PR值直接取決於指向它的的頁面。如果在最初給每個網頁一個隨機且非零的PR值,經過重複計算,這些頁面的PR值會趨向於某個定值,也就是處於收斂的狀態,即最終結果。這就是搜尋引擎使用該演算法的原因。
這個方程式引入了隨機瀏覽者(random surfer)的概念,即假設某人在瀏覽器中隨機打開某些頁面並點擊了某些連結。為了便於理解,這裡假設上網者不斷點擊網頁上的連結直到進入一個沒有外部連結的網頁,此時他會隨機瀏覽其他的網頁(可以與之前的網頁無關)。
為了處理那些「沒有外部連結的頁面」(這些頁面就像「黑洞」一樣吞噬掉使用者繼續向下瀏覽的概率)所帶來的問題,我們假設:這類頁面連結到集合中所有的網頁(不管它們是否相關),使得這類網頁的PR值將被所有網頁均分。對於這種殘差概率(residual probability),我們引入阻尼係數 d(damping factor),並聲明 d=0.85,其意義是:任意時刻,使用者存取到某頁面後繼續存取下一個頁面的概率,相對應的 1-d=0.15 則是使用者停止點擊,隨機瀏覽新網頁的概率。d 的大小由一般上網者使用瀏覽器書籤功能的頻率的平均值估算得到。
所以,對於某個頁面i,其對應PR值大小的計算公式如下:
這裡p1,p2,p3......pN,是目標頁面pi,M(pi)是鏈入pi頁面的集合,L(pj)是頁面pj鏈出頁面的數量,而N是集合中所有頁面的數量。
集合中所有頁面的PR值可以由一個特殊的鄰接矩陣的特徵向量表示。這個特徵向量R為:
同時,R也是下面的方程組的解:
這裡的鄰接函式(adjacency function) l(pi,pj) 代表「從頁面j指向頁面i的連結數」與「頁面j中含有的外部連結總數」的比值
如果pj不鏈向pi,則前面提到的「從頁面j指向頁面i的連結數」為零。將情況一般化:對於特定的j,應有 :
由於上述修改後的鄰接矩陣的巨大的eigengap值,幾次迭代後即可在極高的精確度下估計PageRank特徵向量R的值。
PageRank演算法的主要缺點在於舊的頁面的排名往往會比新頁面高。因為即使是品質很高的新頁面也往往不會有很多外部連結,除非它是某個已經存在站點的子站點。這也是PageRank需要多項演算法結合以保證其結果的準確性的原因。例如,PageRank似乎偏好於維基百科頁面,在條目名稱的搜尋結果中,維基百科頁面經常在大多數頁面甚至所有頁面之前,此現象的原因則是維基百科內部網路頁中存在大量的內部連結,同時亦有很多站點鏈入維基百科。
Google經常處罰惡意提高網頁PageRank的行為。至於其如何區分正常的連結和不正常的連結,這仍然是商業機密。但是在Google的連結規範中已清楚地說明,哪些是屬於違反規範的行為。
2009年10月14日,Google員工蘇珊·莫斯科(Susan Moskwa)確認該公司已將PageRank從其網站管理員工具中移除。她表示:「我們長久以來一直在告誡人們不應該過分注重PageRank;很多網站站長似乎認為PageRank是他們需要時刻關注的最重要的指標,而這幾乎是錯誤的。」然而在蘇珊確認後兩天,PageRank又在Google工具欄(Google Toolbar)上重新顯示,但其指示器(indicator)在Google公司自家的Chrome瀏覽器上已不可用。
同時,公眾可見的PageRank的資料更新周期也越來越長,它的最後一次更新是2013年11月份。
2014年10月7日,Google員工John Mueller表示 :「我們可能不會繼續更新PageRank,至少工具列上的PageRank是這樣。」
2016年4月15日,Google公司停止向公眾開放PageRank資料。就在幾個月前,Google也聲明將會將PageRank評分自Google工具列中移除。但是,今後Google公司在對其搜尋引擎的搜尋結果進行排名時,仍然會使用PageRank中的資料。
^ Facts about Google and Competition. [12 July 2014]. (原始內容存檔於2011-11-04).
^ Google Press Center: Fun Facts. www.google.com. [2018-12-09]. (原始內容存檔於2001-07-15).
^ Sullivan, Danny. What Is Google PageRank? A Guide For Searchers & Webmasters. Search Engine Land. [2018-12-09]. (原始內容存檔於2016-07-03).
^ Cutts, Matt. Algorithms Rank Relevant Results Higher. www.google.com. [19 October 2015]. (原始內容存檔於2013-07-02).
^ Brin, S.; Page, L. The anatomy of a large-scale hypertextual Web search engine (PDF). Computer Networks and ISDN Systems. 1998, 30: 107–117 [2018-12-10]. ISSN 0169-7552. doi:10.1016/S0169-7552(98)00110-X. (原始內容存檔 (PDF)於2015-09-27).
^ Gyöngyi, Zoltán; Berkhin, Pavel; Garcia-Molina, Hector; Pedersen, Jan, Link spam detection based on mass estimation, Proceedings of the 32nd International Conference on Very Large Data Bases (VLDB '06, Seoul, Korea) (PDF): 439–450, 2006 [2018-12-10], (原始內容存檔 (PDF)於2014-12-03).
^ Web Structure Age and Page Quality. (PDF). [2002-05].
^ 链接方案 - Search Console帮助. support.google.com. [2016-12-16]. (原始內容存檔於2016-12-21).
^ Susan Moskwa. PageRank Distribution Removed From WMT. [October 16, 2009]. (原始內容存檔於2009-10-17).
^ Google Toolbar PageRank Finally & Officially Dead?. Search Engine Land. 2014-10-07 [2016-12-16]. (原始內容存檔於2016-12-20) (美國英語).
^ Schwartz, Barry. Google Toolbar PageRank officially goes dark. Search Engine Land. [2018-12-10]. (原始內容存檔於2016-04-21).
^ Southern, Matt. Google PageRank Officially Shuts its Doors to the Public. Search Engine Journal. [2018-12-10]. (原始內容存檔於2017-04-13).