Web結構挖掘中HITS算法的改進-AET-電子技術應用

Web結構挖掘中HITS算法的改進

日期： 2009-09-29

作者：郭鴻，周婭

關鍵詞： 特征向量權值檢索系統(tǒng) 面的信息服務

　　摘要： HITS 算法是Web結構挖掘中一種經(jīng)典的鏈接分析算法, 其主要問題是容易發(fā)生主題漂移。針對這一問題，提出了一種基于文本內容和鏈接分析相結合的改進算法。實驗證明改進后的算法提高了查詢結果的相關度, 降低了主題漂移的可能性。
　　關鍵詞： HITS算法；主題漂移；權威網(wǎng)頁；中心網(wǎng)頁

??? Internet是一個巨大、分布廣泛、全球性的信息服務中心，它提供了各種各樣的信息服務。但如何從Internet浩如煙海的信息中獲取所需信息或是從中提取有用知識，一直是相關專家探究的問題。將傳統(tǒng)的數(shù)據(jù)挖掘技術和Web結合起來，對Web進行數(shù)據(jù)挖掘成為解決這一問題的重要途徑。由于Web上的鏈接結構含有非常豐富和重要的信息，鏈接分析技術已經(jīng)被成功地用于分析Web超鏈接數(shù)據(jù)來確定權威信息源。而在各種對網(wǎng)頁進行鏈接分析并提取主題的算法中，HITS算法是最典型的。
1 HITS算法
1.1? HITS算法的基本思想
　　HITS 算法[1]是一種Web結構挖掘算法[1], 該算法基于用戶的查詢, 根據(jù)給定的查詢通過分析Web的前向鏈接和后向鏈接來發(fā)現(xiàn)一組相關網(wǎng)頁，從而找出Web集合中的authority網(wǎng)頁(與給定查詢主題的上下文最為相關并具有權威性的網(wǎng)頁)和hub網(wǎng)頁(提供指向權威網(wǎng)頁鏈接集合的Web網(wǎng)頁)。為每個網(wǎng)頁定義兩個度量值:權威權重(authority weight)和中心權重(Hub weight)，通過這兩個權重來判定該網(wǎng)頁對特定主題的重要性。
1.2? HITS算法的具體過程
　　整個HITS算法主要可以分為以下幾個步驟:
　　(1)在搜索引擎上輸入給定的關鍵詞, 以此搜索到的最前面的r個等級最高的查詢結果網(wǎng)頁作為根集(root set)R，R需滿足如下3個條件： ①R中網(wǎng)頁數(shù)量相對較小.②R中網(wǎng)頁大多數(shù)是與查詢關鍵詞q相關的網(wǎng)頁。③R中網(wǎng)頁包含較多的權威網(wǎng)頁。
　　(2)通過向R中加入被R引用的網(wǎng)頁和引用R的網(wǎng)頁將R擴展成一個更大的基礎集合(base set)B。擴展規(guī)則為：將根集中的全部網(wǎng)頁加入進來, 并加入最多d個鏈接到根集R中的Web網(wǎng)頁。
　　(3)以B中的Hub網(wǎng)頁為頂點集V_l，以authority網(wǎng)頁為頂點集V₂，V_l中的網(wǎng)頁到V₂中的網(wǎng)頁的超鏈接為邊集E，形成一個二分有向圖G＝(V₁，V₂，E)。對V1中的任一個頂點v，用h(v)表示網(wǎng)頁v的hub值，對V₂中的頂點u，用a(u)表示網(wǎng)頁的authority值。假設Web鏈接結構子圖G中包含n個節(jié)點(網(wǎng)頁)，對這n個節(jié)點加以編號：1，2，…，n，這樣就可以為Web鏈接結構子圖G定義一個n×n的鄰接矩陣A，如果頁面i指向頁面j，則矩陣中的項(i, j)為1，否則為0。同樣把所有節(jié)點的authority和hub值定義為向量形式，即：a=(a₁,a₂,...,a_n)和h=(h₁,h₂,...,h_n)。

　　根據(jù)線性代數(shù)的理論，向量a和h經(jīng)過展開計算后，會收斂至對稱矩陣A^TA和AA^T的主特征向量。A^TA的主特征向量代表權威網(wǎng)頁，而其主特征向量中數(shù)值越高代表網(wǎng)頁的權威權重也越高；同樣，AAT的主特征向量代表中心網(wǎng)頁，而其主特征向量中數(shù)值越高代表網(wǎng)頁的中心權重也越高。通過以上過程可以看出，經(jīng)過若干次迭代計算后, 即可得到每一頁面的authority 和hub。基集B中網(wǎng)頁的權威權重和中心權重從根本上說是由基集B中網(wǎng)頁的鏈接關系所決定的，更具體地說，是由對稱矩陣ATA和AAT所決定的。
2?HITS算法中存在的問題
　　HITS算法雖然在某些查詢主題下能夠較為準確地提取出權威網(wǎng)頁, 但在一些場合中仍會使得算法發(fā)生嚴重的“主題漂移”[2]的現(xiàn)象( authorities集中到一些鏈接稠密的非相關網(wǎng)頁的現(xiàn)象被稱為“主題漂移”) 。該現(xiàn)象的出現(xiàn)說明在傳統(tǒng)HITS算法中仍存在一些缺點, 這就要求對傳統(tǒng)HITS算法進行改進, 以使其具有更為廣泛的適用性, 提高權威頁面搜索的效率。
3?HITS算法的改進
　　HITS算法遇到的問題，多是因為HITS是純粹的基于鏈接分析的算法，沒有考慮文本內容。繼KLIINBERG J提出HITS算法以后，很多研究者對HITS進行了改進，提出了許多HITS的變種算法，主要有IBM Almaden研究中心Clever搜索引擎的ARC(Automatic Resource Compilation)算法[4]和由GEVREY J和RUGER S于2002年提出來的兩個基于超鏈接和內容的網(wǎng)頁排序算法[5]：Average算法和Sim算法等。
　　針對HITS算法發(fā)生的“主題漂移”的現(xiàn)象，本文在鏈接分析的基礎上引入了網(wǎng)頁內容信息[3]的判斷，提出了一種改進的HITS算法。
3.1? 改進思想
　　HITS 算法中, 構造一個基本集R集, 然后通過基本集擴展到B集, 形成整個Web 子圖。這樣做的原因是R集可能并不包含真正的用戶需要的頁面。例如搜索關鍵詞“搜索引擎”時, 文本搜索引擎返回的頁面通常不會包含Google、Yahoo等搜索引擎的頁面, 因為它們的頁面通常不會出現(xiàn)搜索引擎這樣的字眼。這使得原本很重要的頁面不能被包含在第一步得到的結果中。B集可以解決這個問題, 因為可以通過R集中網(wǎng)頁的鏈接來得到需要的網(wǎng)頁。但是也正是由于HITS 算法的這種特性使得它在構造B集時, 常常會引入過多與主題無關的頁面, 它們有些還由于擁有互相指向的鏈接而擁有較高的權威值。如果控制B集構造時的半徑, 可能得不到足夠的頁面,B集半徑足夠大可能會找到真正的合適頁面, 但是這時也已經(jīng)引入了過多的無關頁面。
　　針對此，本文在鏈接分析的基礎上引入網(wǎng)頁內容信息[2]的判斷，通過計算B集中每一網(wǎng)頁與主題的相似度，設定閾值去掉相似度較低的頁面，然后將網(wǎng)頁的相似度用于最終的迭代計算，有效地去除“主題漂移”現(xiàn)象。
　　改進算法采用的模型和技術與當前Web檢索系統(tǒng)大多采用的向量空間模型(VSM)和技術有最大的兼容性，以便算法的有效實現(xiàn)以及與當前檢索系統(tǒng)的有效集成。改進后的算法主要包括3個過程：(1)有效地選取基集；(2)擴展基集時通過余弦公式對網(wǎng)頁內容信息進行判斷，使擴展后的網(wǎng)頁與查詢主題有最大的相關性，從而避免“主題漂移”；(3)迭代計算與返回結果[4-8]。
3.2? 算法詳細步驟
　　(1)合理地獲取基集，構造鏈接結構子圖G，對于圖G中的每一個節(jié)點V(網(wǎng)頁)有兩個值, 分別是hub值與authority 值, 用H(v),A(V)表示, 把所有節(jié)點的authority和hub值定義為向量形式，即：a=(a₁,a₂,...,a_n)和h=(h₁,h₂,...,h_n)V=1,2,3..N;N為G中節(jié)點(網(wǎng)頁)數(shù)量。
　　(2)對H(v),A(v)進行初始化, 使得H(v) = 1，A(v) = 1。
　　(3)內容匹配：將B集中擴展得到的網(wǎng)頁看做一篇文檔，把文檔d和查詢式q表示成向量形式(d =(d 1,d2…dn)di代表第i篇文檔q=(q₁,q₂…q_n)q_i代表查詢主題中第i個關鍵詞)。文檔d(document)可看成是由相互獨立的若干詞條(term) ( t₁,t₂...t_n)組成,對于每一詞條t_i,根據(jù)詞條在文檔中隱含的語義及重要程度賦以一定的權值W_ti , 則文檔的特征向量為(W_t1,W_t2...W_tn), 通過Similarity(d_i,Q) 余弦公式來表示第i篇文檔與查詢條件Q的相關度。

　　并以此作為權重賦予相應的節(jié)點(網(wǎng)頁)，Web節(jié)點的內容與查詢主題相關度越大，對應的權值也越大。這樣，鏈接結構圖就成了節(jié)點帶權的有向圖，使用這樣的權重來合理控制鏈接分析時節(jié)點對authority/hub值的影響，最終有效控制主題偏移現(xiàn)象。

4? 實驗結果與分析
　　在測試文檔集的選擇上，選用BORODIN A等人提供的Web文檔集[9](包括“Abortion”、 “Genetic”、 “Movies”、“Harvard”等關鍵詞依次對應的2 849，2 613，5 613,1 583個網(wǎng)頁)對改進的HITS算法和原HITS算法進行了實驗比較，實驗數(shù)據(jù)如表1所示。

　　通過實驗數(shù)據(jù)，對搜索出來的前30位的網(wǎng)頁進行相關率比較如圖1所示。在前30位網(wǎng)頁中發(fā)現(xiàn)原HITS算法將許多與查詢主題無關的網(wǎng)頁排了進來，使得網(wǎng)頁相關率較低；而改進后的HITS算法排在前30內的網(wǎng)頁相關率明顯高于原HITS算法。

　　再對獲取網(wǎng)頁的前10位進行權威度比較(這里網(wǎng)頁權威度是根據(jù)大多數(shù)人的評價得來的)，發(fā)現(xiàn)原HITS算法由于獲取相關網(wǎng)頁的準確率不高，使得獲取權威網(wǎng)頁的總體效果也不佳，而改進后的HITS算法明顯優(yōu)于原HITS算法，如圖2所示。

　　以上結果說明，在原HITS算法中出現(xiàn)了TKC問題，排序較高的相關頁面中存在與查詢主題無關的網(wǎng)頁，而改進的算法則有效地控制了TKC問題，通過加入對文本內容的分析使排序權值較高的頁面與查詢主題緊密相關。
　　文章在深入研究了Web挖掘和Web鏈接結構分析的基礎上，重點分析了主題提取算法HITS的基本思想和算法步驟。針對HITS算法基于純鏈接，容易發(fā)生“主題偏移”現(xiàn)象，本文從網(wǎng)頁文本內容著手，提出一種將網(wǎng)頁文本內容和鏈接結構相結合的改進HITS算法，并通過實驗結果證明了改進后算法的有效性。
參考文獻
[1]?王曉宇,周傲英.萬維網(wǎng)的鏈接結構分析及其應用綜述[J].軟件學報, 2003, 14( 10) : 1768-1780.
[2]?倪現(xiàn)軍. 結構挖掘中web有向圖模型的改進算法[J].微計算機信息,2007,12-3:163-165.
[3]?黃麗雯, 錢微. 多文檔文本摘要的一種改進HITS算法[J].計算機應用,2006,26(11):2625-2627.
[4] ?CHAKRABARTI S,DOM B,RAGHAVAN P,et al.Automatic resource compilation by analyzing hyperlink structure and associated text[J].Computer Networks and ISDN Systems,1998,30(4):1-7.
[5] ?GEVREY J,RUGER S.Link-based approaches for text retrieval.Proceedings of TREC-10,NIST(Gaithersburg,MD,13-16Nov2001)[M].NIST Special Publication,2002.
[6] XINGW , GHORBANIA. Weighted pagerank algorithm[C].Proceedings of the Second Conference on Communication Networks and Services Research, 2004: 305- 314.
[7] ?KOSALA R, BLOCKEEL H. Web mining research: A Survey. ACMSIGKDD, 2000(07).
[8] ?MIZUUCHI Y. Finding Context Paths for web pages[J]. InProc. of ACM Hypertext, 1999,2(2)：13-22.
[9] ?BORODIN A, ROBERTS G O, Rosenthal J S, etal.Finding authorities and hubs form link structures on the World Wide Web[C].In Web,Hong Kong,China,May 2001.

版權聲明：本站內容除特別聲明的原創(chuàng)文章之外，轉載內容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

Web結構挖掘中HITS算法的改進

日期： 2009-09-29

作者：郭 鴻，周 婭

相關內容

作者：郭鴻，周婭