《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 業(yè)界動(dòng)態(tài) > 一種提高搜索引擎檢索質(zhì)量的網(wǎng)頁解析法

一種提高搜索引擎檢索質(zhì)量的網(wǎng)頁解析法

2009-05-25
作者:鐘楚玲 朱 丹 曹二堂

??? 摘 要:通過實(shí)驗(yàn)對網(wǎng)頁結(jié)構(gòu)和特點(diǎn)進(jìn)行綜合分析,,給出對網(wǎng)頁分塊的原則和方法,,在分塊的基礎(chǔ)上根據(jù)網(wǎng)頁中噪音的出現(xiàn)規(guī)則提出了一種消除網(wǎng)頁噪音的方法,使搜索引擎對網(wǎng)頁的預(yù)處理階段有效消除網(wǎng)頁中的無關(guān)項(xiàng)和間接項(xiàng)的超連接,,從而大大提高了搜索引擎的檢索質(zhì)量,。
??? 關(guān)鍵詞:檢索質(zhì)量;分塊模型,;搜索引擎

?

??? 隨著Internet的快速發(fā)展,,大量的信息呈現(xiàn)在用戶面前,據(jù)統(tǒng)計(jì),,國內(nèi)Web網(wǎng)頁數(shù)量達(dá)3億以上[1],,上網(wǎng)用戶總?cè)藬?shù)達(dá)8 700萬,將獲取信息作為上網(wǎng)最主要目的網(wǎng)民所占比例最多,,達(dá)到42.3%[2],。數(shù)據(jù)表明,Internet已成為人們獲取信息的重要資源,,而Google,、Yahoo、百度、新浪,、天網(wǎng)等中英文搜索引擎是人們徜徉信息海洋,、獲取信息的工具。然而,,人們面對如此豐富的Web資源,,使用搜索引擎發(fā)現(xiàn)自己真正需要的信息卻并非容易。一方面,,各搜索引擎不斷改進(jìn)檢索技術(shù)來提高返回結(jié)果的精度,,在一定程度上解決了人們獲取信息的問題;另一方面,,由于搜索引擎自身的問題,,返回的結(jié)果與用戶的要求仍有一定的距離,用戶對搜索引擎的滿意度不太高,。主要表現(xiàn)為查詢結(jié)果中普遍存在大量的無關(guān)項(xiàng)和不含具體內(nèi)容的間接項(xiàng),,造成搜索結(jié)果數(shù)量大、結(jié)果不精確,、有用的結(jié)果淹沒在無用的結(jié)果之中的局面,。用戶不得不花費(fèi)大量的時(shí)間在查詢結(jié)果中尋找相關(guān)項(xiàng),使得用搜索引擎來查找信息的目的難以達(dá)到,。這種結(jié)果的原因之一是目前的搜索引擎沒有對網(wǎng)頁進(jìn)行處理或只做了簡單的處理,。
??? 目前的搜索引擎采用以關(guān)鍵字檢索為基礎(chǔ)的檢索技術(shù)[3-4],即搜索引擎按關(guān)鍵字對整個(gè)網(wǎng)頁進(jìn)行索引和檢索,。在這種處理方法中,,所有出現(xiàn)在網(wǎng)頁中的字詞都被用作索引項(xiàng),但實(shí)際的網(wǎng)頁中常常包含大量的與網(wǎng)頁主題無關(guān)的文字,。例如,,圖1和圖2是以“河北人民出版社”為關(guān)鍵字的檢索結(jié)果。圖1所示網(wǎng)頁的主要內(nèi)容是關(guān)于2004十大印象圖書介紹,,其中包括上海人民出版社出版的《達(dá)芬奇密碼》,,在網(wǎng)頁中注明的出處是新華網(wǎng)河北頻道。在這個(gè)網(wǎng)頁中包含了“河北”和“人民出版社”,,搜索引擎誤把它當(dāng)做“河北人民出版社”的相關(guān)項(xiàng)。圖2所示網(wǎng)頁的主要內(nèi)容是一些圖書的介紹,,在左邊的導(dǎo)航欄中出現(xiàn)了河北人民出版社的連接,,真正提供具體信息的應(yīng)該是它指向的那個(gè)頁面,而那個(gè)頁面也應(yīng)該能被檢索到,,因此,,圖2所示網(wǎng)頁是多余的間接項(xiàng)。

?

?


??? 如果搜索引擎在對網(wǎng)頁標(biāo)引時(shí),把整個(gè)網(wǎng)頁上不同主題,、不同作用的文字混合在一起進(jìn)行處理,,那么,在檢索過程中根本無法排除如圖1所示的無關(guān)項(xiàng),。使用站點(diǎn)聚類技術(shù),,把出現(xiàn)在同一個(gè)站點(diǎn)上的結(jié)果項(xiàng)進(jìn)行合并,雖然可以排除大部分如圖2所示的間接項(xiàng),,但是耗費(fèi)了查詢時(shí)間,。本文提出一種在標(biāo)引前對網(wǎng)頁進(jìn)行預(yù)處理的方法,能夠排除上述的無關(guān)項(xiàng)和間接項(xiàng),。
??? 目前的搜索引擎對網(wǎng)頁的預(yù)處理較簡單,,幾乎保留了HTML網(wǎng)頁上所有的文字,這樣固然可以保證查全率,,但從目前的網(wǎng)絡(luò)資源巨大豐富的角度來看,,提高查準(zhǔn)率對用戶更具有實(shí)際意義。在研究領(lǐng)域里,,有人提出了基于HTML標(biāo)記結(jié)構(gòu)的規(guī)律對特定網(wǎng)站進(jìn)行信息抽取[5],,但不滿足搜索引擎對多種多樣的網(wǎng)站進(jìn)行處理的要求;有人提出“語義塊”的概念對網(wǎng)頁內(nèi)容分層,,但沒有具體的實(shí)現(xiàn)方案[6],;對于超連接的研究主要集中在對它所指向的頁面在檢索中的作用[7],但很少有人研究超連接對網(wǎng)頁的負(fù)面影響,。
1 HTML網(wǎng)頁的塊結(jié)構(gòu)模型和解析方法
1.1 HTML網(wǎng)頁的塊結(jié)構(gòu)模型
??? 通過對大量的網(wǎng)頁進(jìn)行分析,,發(fā)現(xiàn)人們在設(shè)計(jì)網(wǎng)頁時(shí)通常是把網(wǎng)頁設(shè)計(jì)成幾個(gè)區(qū)域,把不同主題,、不同作用的文字安排在不同的區(qū)域,。結(jié)合HTML標(biāo)記的特點(diǎn),認(rèn)為網(wǎng)頁是由塊組成的,,塊中可以再嵌套塊,。因此,HTML網(wǎng)頁的塊結(jié)構(gòu)模型是:{<塊起始標(biāo)記><塊內(nèi)容><塊結(jié)束標(biāo)記>[,,<塊起始標(biāo)記><塊內(nèi)容><塊結(jié)束標(biāo)記>,,…]}。其中,,塊內(nèi)容中可以再包含塊,。實(shí)際的網(wǎng)頁大多是由多層的塊嵌套構(gòu)成的。
1.2 分塊原則及算法
??? HTML塊標(biāo)記有


,、
,、 ,、 、
,、

等,。在實(shí)際應(yīng)用中,塊的劃分要合理,。塊劃分得過多,,會(huì)把相關(guān)的內(nèi)容劃分到不同的塊區(qū),這樣將導(dǎo)致網(wǎng)頁與查詢關(guān)鍵字的相關(guān)度降低,;塊劃分得過少,,會(huì)把不相關(guān)的內(nèi)容劃分到同一個(gè)塊區(qū),這樣將導(dǎo)致查準(zhǔn)率的降低,。例如,,一篇文章由標(biāo)題、作者,、出處和多個(gè)段落組成,,顯然這些文字應(yīng)劃分在同一個(gè)塊區(qū)。經(jīng)過對大量網(wǎng)頁的統(tǒng)計(jì)分析,,不外乎兩種情況,。一種是網(wǎng)頁中不包含

標(biāo)記,只有一篇文章,,顯然,,這類網(wǎng)頁只有一個(gè)塊區(qū);另一種是網(wǎng)頁中包含多個(gè)
標(biāo)記,,而一篇文章的標(biāo)題,、作者、出處和多個(gè)段落一般安排在某一個(gè)表格的一個(gè)或多個(gè)單元格中,。因此,,將網(wǎng)頁中的表格(
標(biāo)記)做為塊區(qū)比較合理。
??? 分塊原則如下:
??? (1)如果網(wǎng)頁中包含水平線標(biāo)記
,,首先按水平線分塊,;
??? (2)在上述分塊的基礎(chǔ)上,如果包含
,、
標(biāo)記,,按
分塊,;
??? (3)如果在
,、
中包含水平線標(biāo)記
,再按水平線分塊,。
??? 分塊算法如下:
??? 查找水平線標(biāo)記,,插入塊標(biāo)記;
??? While(文件沒有結(jié)束)
??? {查找塊起始標(biāo)記和結(jié)束標(biāo)記,,位置存入tableLoc() ,;
??? 同時(shí),在tableSym中簡記為b和e,; }
??? 將tableLoc中的位置數(shù)據(jù)排序,,同時(shí)調(diào)整tableSym中的b、e標(biāo)記,;
??? While(tableSym中的標(biāo)記數(shù)不等于0)
??? { 查找“be”,;
??? 提取塊;
??? tableSym中的標(biāo)記數(shù)減2,;}
1.3 消除噪聲的規(guī)則
??? 人們在制作網(wǎng)頁時(shí),,總是準(zhǔn)備了一定的素材,這些素材是網(wǎng)頁設(shè)計(jì)者希望通過網(wǎng)頁傳達(dá)給訪問者的信息,。但同時(shí)也會(huì)在網(wǎng)頁中增加一些連接到其他網(wǎng)頁的超連接,,而這些超連接文字的作用僅僅起著向?qū)ё饔茫c頁面主題無關(guān),,它們的加入會(huì)影響到頁面的原貌,,把這樣的超連接文字定義為網(wǎng)頁的“噪聲”,把網(wǎng)頁中原本要表達(dá)的內(nèi)容定義為網(wǎng)頁的“主題內(nèi)容”,。
??? 通過對大量網(wǎng)頁的統(tǒng)計(jì)分析,,噪聲主要來源于超連接文字,但并非所有的超連接文字都是噪聲,,因此要準(zhǔn)確地消除網(wǎng)頁中的噪聲也并非容易,。
??? 網(wǎng)頁中的超連接文字可分為3類:
??? (1)超連接文字在網(wǎng)頁中僅僅起著向?qū)ё饔茫淠康氖翘峁┮粋€(gè)訪問目錄,。超連接文字在它所指向的網(wǎng)頁中還會(huì)出現(xiàn),,這些頁面能夠被搜索引擎搜索到。因此,,這類超連接文字是本網(wǎng)頁的噪聲,。一般說來,這類超連接文字的前后還是超連接文字,,所以噪聲通常聚集成塊,。
??? 需要說明的是索引網(wǎng)頁中的超連接文字雖然是網(wǎng)頁的主題,但是超連接文字在它所指向的網(wǎng)頁中還會(huì)出現(xiàn),,這些頁面通常能夠被搜索引擎搜索到,,所以,本網(wǎng)頁不必出現(xiàn)在搜索結(jié)果中,。
??? (2)超連接文字在網(wǎng)頁中具有向?qū)Ш完愂龅碾p重功能,,超連接文字引向另一個(gè)網(wǎng)頁或本網(wǎng)頁的其他位置的同時(shí),,本身也是網(wǎng)頁主題內(nèi)容的一部分,這樣的超連接文字也是網(wǎng)頁的主題內(nèi)容,,而不是噪聲,。一般說來,這類超連接文字的前后的文字不是超連接,。
??? (3)超連接文字所指向的目標(biāo)文件中不會(huì)出現(xiàn)此超連接文字,,目標(biāo)文件是搜索引擎不能直接搜索到的文件。例如,,超連接文字指向的目標(biāo)是MP3格式文件,、exe格式文件或圖片格式文件等,這些超連接文字不能視為網(wǎng)頁的噪聲,。
??? 從網(wǎng)頁的結(jié)構(gòu)上看,,(1)類超連接文字聚集成塊,超連接文字與塊區(qū)內(nèi)所有文字的比值R接近于1,;(2)類超連接文字處在主題內(nèi)容塊區(qū),,超連接文字與塊區(qū)內(nèi)所有文字的比值R遠(yuǎn)小于1。通過實(shí)驗(yàn)確定兩個(gè)閾值R1和R2,。若R>R1,,則確定為噪聲;若R??? 根據(jù)上面的分析,在對網(wǎng)頁分塊的基礎(chǔ)上確定消除網(wǎng)頁噪聲的規(guī)則:
??? (1)在塊區(qū)中掃描超連接,,如果超連接指向的目標(biāo)是網(wǎng)頁,,則將此超連接文字標(biāo)記為準(zhǔn)噪聲;如果超連接指向的目標(biāo)不是網(wǎng)頁,,則在網(wǎng)頁中保留此超連接文字,。
??? (2)統(tǒng)計(jì)塊區(qū)內(nèi)超連接文字?jǐn)?shù)量及文字的總數(shù)量并計(jì)算其比值R,若R>R1,,保留準(zhǔn)噪聲標(biāo)記,;若R??? (3)檢查超連接前后相鄰的文字是否是超連接,,如果相鄰的超連接數(shù)S大于某一閾值,,將此超連接文字的準(zhǔn)噪聲標(biāo)記刪除。
2 實(shí)驗(yàn)及結(jié)果分析
??? 本文開發(fā)了一個(gè)HTML網(wǎng)頁解析器實(shí)現(xiàn)了上述算法。實(shí)驗(yàn)中使用的網(wǎng)頁都是根據(jù)著名搜索引擎的搜索結(jié)果下載的真實(shí)網(wǎng)頁,。實(shí)驗(yàn)中參數(shù)的取值分別是:R1=0.9,;R2=0.3;S=3,。由于文章篇幅的限制,,在此略去實(shí)驗(yàn)結(jié)果的圖片,。
??? 實(shí)驗(yàn)一是網(wǎng)頁的分塊實(shí)驗(yàn),,實(shí)驗(yàn)中對數(shù)十個(gè)網(wǎng)頁進(jìn)行了分塊,正確率達(dá)100%,;實(shí)驗(yàn)二使用100個(gè)網(wǎng)頁進(jìn)行了消除(1)類超連接文字噪聲的實(shí)驗(yàn),,其中98個(gè)網(wǎng)頁的無關(guān)項(xiàng)超連接和間接項(xiàng)超連接都被消除;實(shí)驗(yàn)三和實(shí)驗(yàn)四是保留(2)類超連接文字和(3)類超連接文字的實(shí)驗(yàn),,正確率達(dá)100%,。
??? 實(shí)驗(yàn)二的正確率與R1、R2,、S的值有關(guān),。對于參數(shù)S而言,如果值過小,,就會(huì)把一些有用的超連接文字消除,,例如文章的標(biāo)題、作者,、出處都有超連接時(shí),,這些文字是網(wǎng)頁的重要內(nèi)容,不應(yīng)消除,;如果S的值過大,,會(huì)將一些噪聲保留。通過對大量網(wǎng)頁的統(tǒng)計(jì)分析,,認(rèn)為S取值為3較合適,,這樣即使在網(wǎng)頁中保留一些噪聲,由于數(shù)量較小,,對網(wǎng)頁的影響也不大,,同時(shí)對網(wǎng)頁有用的超連接文字也不會(huì)被誤認(rèn)為是噪聲而消除。
??? 本文介紹的網(wǎng)頁解析方法在搜索引擎和數(shù)據(jù)挖掘方面具有重要的意義和應(yīng)用前景,。通過消除網(wǎng)頁的噪聲,,使網(wǎng)頁的主題更加突出。在搜索引擎的返回結(jié)果中排除了無關(guān)項(xiàng)和間接項(xiàng),,提高了搜索引擎的查準(zhǔn)率,;在網(wǎng)絡(luò)使用行為挖掘領(lǐng)域,分析用戶感興趣的網(wǎng)頁方面,,由于排除了噪聲的干擾,,使得分析結(jié)果更準(zhǔn)確,。
參考文獻(xiàn)
[1]?中國互聯(lián)網(wǎng)信息中心. 2003年中國互聯(lián)網(wǎng)絡(luò)信息資源數(shù)量調(diào)查報(bào)告,信息資源開發(fā)利用調(diào)查報(bào)告[DB/OL].http://www.cnnic.net.cn/download/ manual/report20030330.doc: 60.
[2]?中國互聯(lián)網(wǎng)信息中心. 第十四次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r調(diào)查統(tǒng)計(jì)報(bào)告(2004年7月)[DB/OL].http://www.cnnic.net.cn/download/2004/2004072002.pdf
[3]?杜阿寧,,方濱興,,胡銘曾,等. 中文交互式網(wǎng)絡(luò)搜索引擎及其自學(xué)習(xí)能力[J].計(jì)算機(jī)工程與應(yīng)用,,2003(10):148-150.
[4]?陳俊杰,,薛云,宋翰濤,,等. 基于Agent的元搜索引擎的研究與設(shè)計(jì)[J].計(jì)算機(jī)工程與應(yīng)用,,2003(10): 33-36.
[5]?KUSH M N, WELD DS,DOOREMBOS. Wrapper Induction for Information Extraction,proceedings of the Fifteenth International Joint Conference on Artificial Intelligence, 1997: 729-735.
[6]?CARCHIOLO V, LONGHEU A, MALGERIM. Malgeri,M.,Structuring the Web,Database and Expert Systems Applications,2000.Proceedings.llth International Workshop on,1123-1127,2000.
[7]?N.Cras well, D. Hawking,S. e. Robertson,Effective Site Finding Using Link Anchor Information,SIGIR 2001,2001.

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點(diǎn),。轉(zhuǎn)載的所有的文章、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容,、版權(quán)和其它問題,,請及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟(jì)損失,。聯(lián)系電話:010-82306118;郵箱:[email protected],。