一種基于Simhash算法的重復(fù)域名數(shù)據(jù)去重方法 | |
所屬分類:技術(shù)論文 | |
上傳者:zhoubin333 | |
文檔大小:559 K | |
標(biāo)簽: 數(shù)據(jù)去重 域名 Simhash | |
所需積分:0分積分不夠怎么辦,? | |
文檔介紹:隨著數(shù)字科學(xué)技術(shù)的發(fā)展,各領(lǐng)域需要傳輸和存儲(chǔ)的數(shù)據(jù)量急劇上升,。然而傳輸和存儲(chǔ)的數(shù)據(jù)中重復(fù)數(shù)量占據(jù)了很大的比例,這不僅會(huì)增加使用數(shù)據(jù)的成本,也會(huì)影響處理數(shù)據(jù)的效率。域名是一種存儲(chǔ)量大而且對(duì)處理速率有極高要求的數(shù)據(jù),,為了節(jié)約域名解析系統(tǒng)的存儲(chǔ)成本,提高傳輸效率,,本文在原有數(shù)據(jù)去重技術(shù)的基礎(chǔ)上,引入了Simhash算法,,結(jié)合域名數(shù)據(jù)的結(jié)構(gòu)特征,,改進(jìn)數(shù)據(jù)分詞和指紋值計(jì)算方式,提出了一種基于Simhash算法的重復(fù)域名數(shù)據(jù)去重方法,。實(shí)驗(yàn)結(jié)果表明,,相比于傳統(tǒng)的數(shù)據(jù)去重技術(shù),該方法對(duì)刪除重復(fù)域名數(shù)據(jù)效率更高,,具有較好的實(shí)際應(yīng)用價(jià)值,。 | |
現(xiàn)在下載 | |
VIP會(huì)員,AET專家下載不扣分,;重復(fù)下載不扣分,,本人上傳資源不扣分。 |
Copyright ? 2005-2024 華北計(jì)算機(jī)系統(tǒng)工程研究所版權(quán)所有 京ICP備10017138號(hào)-2