基于視覺(jué)特征的網(wǎng)頁(yè)正文提取方法研究 | |
所屬分類:技術(shù)論文 | |
上傳者:aet | |
文檔大?。?span>328 K | |
所需積分:0分積分不夠怎么辦,? | |
文檔介紹:利用網(wǎng)頁(yè)的視覺(jué)特征和DOM樹(shù)的結(jié)構(gòu)特性對(duì)網(wǎng)頁(yè)進(jìn)行分塊,,并采用逐層分塊逐層刪減的方法將與正文無(wú)關(guān)的噪音塊刪除,,從而得到正文塊。對(duì)得到的正文塊運(yùn)用VIPS算法得到完整的語(yǔ)義塊,,最后在語(yǔ)義塊的基礎(chǔ)上提取正文內(nèi)容,。試驗(yàn)表明,這種方法是切實(shí)可行的,。 | |
現(xiàn)在下載 | |
VIP會(huì)員,,AET專家下載不扣分;重復(fù)下載不扣分,,本人上傳資源不扣分。 |
Copyright ? 2005-2024 華北計(jì)算機(jī)系統(tǒng)工程研究所版權(quán)所有 京ICP備10017138號(hào)-2