基于網(wǎng)頁聚類的Web信息自動(dòng)抽取 | |
所屬分類:技術(shù)論文 | |
上傳者:aet | |
文檔大?。?span>305 K | |
所需積分:0分積分不夠怎么辦,? | |
文檔介紹:針對(duì)現(xiàn)今較流行的動(dòng)態(tài)Web網(wǎng)頁數(shù)量巨大,數(shù)據(jù)價(jià)值高,并且網(wǎng)頁結(jié)構(gòu)高度模板化的特點(diǎn),設(shè)計(jì)了一個(gè)基于網(wǎng)頁聚類的Web信息自動(dòng)抽取系統(tǒng).在DOM抽取技術(shù)基礎(chǔ)上利用網(wǎng)頁聚類尋找高相似簇,并引入列相似度和全局自相似度計(jì)算方法,提高了聚類結(jié)果的準(zhǔn)確性.抽取模板中應(yīng)用了可選節(jié)點(diǎn)對(duì)模板的修正和調(diào)整,以提高內(nèi)容節(jié)點(diǎn)的正確標(biāo)識(shí),實(shí)驗(yàn)結(jié)果表明,該方法能夠自動(dòng)尋找并抽取網(wǎng)頁主要信息,達(dá)到了較高的準(zhǔn)確率和查全率. | |
現(xiàn)在下載 | |
VIP會(huì)員,,AET專家下載不扣分;重復(fù)下載不扣分,,本人上傳資源不扣分,。 |
Copyright ? 2005-2024 華北計(jì)算機(jī)系統(tǒng)工程研究所版權(quán)所有 京ICP備10017138號(hào)-2