基于網(wǎng)頁(yè)分割的Web信息提取算法
所屬分類:技術(shù)論文
上傳者:aet
文檔大?。?span>238 K
所需積分:0分積分不夠怎么辦,?
文檔介紹:針對(duì)網(wǎng)頁(yè)非結(jié)構(gòu)化信息抽取復(fù)雜度高的問題,提出了一種基于網(wǎng)頁(yè)分割的Web信息提取算法,。對(duì)網(wǎng)頁(yè)噪音進(jìn)行預(yù)處理,,根據(jù)網(wǎng)頁(yè)的文檔對(duì)象模型樹結(jié)構(gòu)進(jìn)行標(biāo)簽路徑聚類,通過自動(dòng)訓(xùn)練的閾值和網(wǎng)頁(yè)分割算法快速判定網(wǎng)頁(yè)的關(guān)鍵部分,,根據(jù)數(shù)據(jù)塊中的嵌套結(jié)構(gòu)獲取網(wǎng)頁(yè)文本提取模板,。對(duì)不同類型網(wǎng)站的實(shí)驗(yàn)結(jié)果表明,該算法運(yùn)行速度快,、準(zhǔn)確度高,。
現(xiàn)在下載
VIP會(huì)員,AET專家下載不扣分,;重復(fù)下載不扣分,,本人上傳資源不扣分。