一種自適應(yīng)網(wǎng)頁結(jié)構(gòu)化信息提取方法
所屬分類:技術(shù)論文
上傳者:aetmagazine
文檔大?。?span>509 K
標(biāo)簽: 信息提取 結(jié)構(gòu)化信息 分類模型
所需積分:0分積分不夠怎么辦?
文檔介紹:面向互聯(lián)網(wǎng)信息采集挖掘應(yīng)用,,針對(duì)傳統(tǒng)的網(wǎng)站信息整頁采集方式存在采集信息混雜,、無法直接使用,而人工結(jié)構(gòu)化采集方式成本高,、工作效率低的問題,,研究提出了一種自適應(yīng)網(wǎng)頁結(jié)構(gòu)化信息提取方法,實(shí)現(xiàn)了網(wǎng)頁分類算法,、基于子樹的標(biāo)題項(xiàng),、內(nèi)容項(xiàng)的結(jié)構(gòu)化信息提取算法?;诘湫途W(wǎng)站網(wǎng)頁分類標(biāo)注數(shù)據(jù)集進(jìn)行分類模型的學(xué)習(xí)建模,,可以自適應(yīng)不同網(wǎng)站的差異,對(duì)網(wǎng)頁進(jìn)行分類,,按照網(wǎng)頁分類分別提取出網(wǎng)頁中的列表項(xiàng)結(jié)構(gòu)化信息,、內(nèi)容項(xiàng)結(jié)構(gòu)化信息。該技術(shù)對(duì)提高網(wǎng)站信息結(jié)構(gòu)化采集處理的自動(dòng)化水平及處理效率具有重要作用。
現(xiàn)在下載
VIP會(huì)員,,AET專家下載不扣分,;重復(fù)下載不扣分,本人上傳資源不扣分,。