基于網(wǎng)頁聚類的Web信息自動(dòng)抽取
所屬分類:技術(shù)論文
上傳者:aet
文檔大?。?span>305 K
所需積分:0分積分不夠怎么辦,?
文檔介紹:針對(duì)現(xiàn)今較流行的動(dòng)態(tài)Web網(wǎng)頁數(shù)量巨大,數(shù)據(jù)價(jià)值高,并且網(wǎng)頁結(jié)構(gòu)高度模板化的特點(diǎn),設(shè)計(jì)了一個(gè)基于網(wǎng)頁聚類的Web信息自動(dòng)抽取系統(tǒng).在DOM抽取技術(shù)基礎(chǔ)上利用網(wǎng)頁聚類尋找高相似簇,并引入列相似度和全局自相似度計(jì)算方法,提高了聚類結(jié)果的準(zhǔn)確性.抽取模板中應(yīng)用了可選節(jié)點(diǎn)對(duì)模板的修正和調(diào)整,以提高內(nèi)容節(jié)點(diǎn)的正確標(biāo)識(shí),實(shí)驗(yàn)結(jié)果表明,該方法能夠自動(dòng)尋找并抽取網(wǎng)頁主要信息,達(dá)到了較高的準(zhǔn)確率和查全率.
現(xiàn)在下載
VIP會(huì)員,,AET專家下載不扣分;重復(fù)下載不扣分,,本人上傳資源不扣分,。