基于視覺(jué)特征的網(wǎng)頁(yè)正文提取方法研究
所屬分類:技術(shù)論文
上傳者:aet
文檔大?。?span>328 K
所需積分:0分積分不夠怎么辦,?
文檔介紹:利用網(wǎng)頁(yè)的視覺(jué)特征和DOM樹(shù)的結(jié)構(gòu)特性對(duì)網(wǎng)頁(yè)進(jìn)行分塊,,并采用逐層分塊逐層刪減的方法將與正文無(wú)關(guān)的噪音塊刪除,,從而得到正文塊。對(duì)得到的正文塊運(yùn)用VIPS算法得到完整的語(yǔ)義塊,,最后在語(yǔ)義塊的基礎(chǔ)上提取正文內(nèi)容,。試驗(yàn)表明,這種方法是切實(shí)可行的,。
現(xiàn)在下載
VIP會(huì)員,,AET專家下載不扣分;重復(fù)下載不扣分,,本人上傳資源不扣分。