HITS算法,網(wǎng)上有比較詳細(xì)介紹的文章并不多。從現(xiàn)在搜索引擎算法來看,HITS算法扮演著很重要的位置。是比較權(quán)威和使用廣泛的算法之一。HITS算法要比PageRank算法復(fù)雜些,但可以用簡單的形式描述其本質(zhì),同時也會給出其工作原理的示例。
HITS算法,海源川匯網(wǎng)絡(luò)認(rèn)為首先要做的是判別與主題相關(guān)的網(wǎng)頁集合,要分別為每個提交給搜索引擎的用戶查詢判定出一個主題相關(guān)網(wǎng)頁集。如果網(wǎng)站建設(shè)完以后網(wǎng)頁滿足下面的條件,便可判定它們是與主題相關(guān)的:
a)這些網(wǎng)頁屬于一個網(wǎng)頁集合,且網(wǎng)頁集合中含有與用戶查詢最相關(guān)的文本。
b)這些網(wǎng)頁鏈向滿足a條件的網(wǎng)頁,或是滿足a條件的網(wǎng)頁鏈向該網(wǎng)頁。
這里有一個重要的鏈接假設(shè)是部分基于“鏈接——內(nèi)容”假設(shè)的。也就是說,如果一個網(wǎng)頁與主題相關(guān)的網(wǎng)頁有鏈接關(guān)系,即使它并不含有與主題相匹配的文本信息(至少從用戶查詢文本來看是這樣的),該網(wǎng)頁也可能是與主題相關(guān)的。
即使是根據(jù)文本內(nèi)容判定出來的相關(guān)網(wǎng)頁,有些時候也并不相關(guān),因為在實踐中很難判定主題相關(guān)性,尤其是那些本身就有歧義的查詢。一個經(jīng)典的例子就是“美洲虎”。用戶可能是想要查詢動物,或以該詞命名的汽車的相關(guān)信息。結(jié)果,返回的與主題相關(guān)的網(wǎng)頁卻是不全的,且只是部分相關(guān)的。但Kleinberg的試驗表明,這并不是一個嚴(yán)重問題。
算法的第二部分是為主題相關(guān)集合中的每個頁面算出其中心度和權(quán)威度。算法使用了與PageRank算法中相似的投票方法,同時也采用了逆向投票機(jī)制,使得每個網(wǎng)頁都可以給鏈向它的網(wǎng)頁投票。HITS算法的結(jié)果是為每個網(wǎng)頁賦予一個中心度和一個權(quán)威度,而不是像前面所說的那樣,只是將它們區(qū)分為中心網(wǎng)頁和權(quán)威網(wǎng)頁。
簡化的HITS算法:
第一階段:找出與查詢相關(guān)或主題相關(guān)的網(wǎng)頁集合
1.根據(jù)搜索引擎中用戶輸入的文本查詢,找出N個與該查詢最為相關(guān)的文本網(wǎng)頁,其中N是預(yù)先設(shè)定的參數(shù);
2.向集合中添加所有與匹配網(wǎng)頁存在著鏈接關(guān)系(鏈向或者被鏈向)的網(wǎng)頁;
3.移除所有的站內(nèi)鏈接;
第二階段:初始化每個網(wǎng)頁的中心度和權(quán)威度
4.為每個網(wǎng)頁賦予一個權(quán)威權(quán)重X和中心權(quán)重y,如X=y=1;
第三階段:重復(fù)投票過程
5.統(tǒng)計每個網(wǎng)頁的入鏈網(wǎng)頁的中心度之和,計算出每個網(wǎng)頁的權(quán)威權(quán)重;
6.統(tǒng)計每個網(wǎng)頁的出鏈網(wǎng)頁的權(quán)威度之和,計算出每個網(wǎng)頁的中心權(quán)重;
7.將所有網(wǎng)頁的中心度都除以最高中心度以將其標(biāo)準(zhǔn)化,將所有網(wǎng)頁的權(quán)威度都除以最高權(quán)威度以將其標(biāo)準(zhǔn)化;
8.重復(fù)第5步到第7步N次,海源川匯網(wǎng)絡(luò)建議重復(fù)20次;
第四階段:報告結(jié)果
9.返回一張排好序的網(wǎng)頁列表,列表中的網(wǎng)頁有些具有較高的中心度,有些則具有較高的權(quán)威度,這樣用戶自己就可以選出他們認(rèn)為是最好的那種類型的網(wǎng)頁。
查看更多教程,點擊海源川匯優(yōu)化教程http://www.mallcai.com