一種自適應(yīng)網(wǎng)頁結(jié)構(gòu)化信息提取方法 | |
所屬分類:技術(shù)論文 | |
上傳者:aetmagazine | |
文檔大?。?span>509 K | |
標(biāo)簽: 信息提取 結(jié)構(gòu)化信息 分類模型 | |
所需積分:0分積分不夠怎么辦? | |
文檔介紹:面向互聯(lián)網(wǎng)信息采集挖掘應(yīng)用,,針對(duì)傳統(tǒng)的網(wǎng)站信息整頁采集方式存在采集信息混雜,、無法直接使用,而人工結(jié)構(gòu)化采集方式成本高,、工作效率低的問題,,研究提出了一種自適應(yīng)網(wǎng)頁結(jié)構(gòu)化信息提取方法,實(shí)現(xiàn)了網(wǎng)頁分類算法,、基于子樹的標(biāo)題項(xiàng),、內(nèi)容項(xiàng)的結(jié)構(gòu)化信息提取算法?;诘湫途W(wǎng)站網(wǎng)頁分類標(biāo)注數(shù)據(jù)集進(jìn)行分類模型的學(xué)習(xí)建模,,可以自適應(yīng)不同網(wǎng)站的差異,對(duì)網(wǎng)頁進(jìn)行分類,,按照網(wǎng)頁分類分別提取出網(wǎng)頁中的列表項(xiàng)結(jié)構(gòu)化信息,、內(nèi)容項(xiàng)結(jié)構(gòu)化信息。該技術(shù)對(duì)提高網(wǎng)站信息結(jié)構(gòu)化采集處理的自動(dòng)化水平及處理效率具有重要作用。 | |
現(xiàn)在下載 | |
VIP會(huì)員,,AET專家下載不扣分,;重復(fù)下載不扣分,本人上傳資源不扣分,。 |
Copyright ? 2005-2024 華北計(jì)算機(jī)系統(tǒng)工程研究所版權(quán)所有 京ICP備10017138號(hào)-2