基于單頁語義特征的垃圾網(wǎng)頁檢測AET-電子技術(shù)應用-最豐富的電子設計資源平臺

基于單頁語義特征的垃圾網(wǎng)頁檢測
所屬分類：技術(shù)論文
上傳者：zhoubin333
文檔大小：3500 K
標簽：垃圾網(wǎng)頁檢測特征提取記憶化搜索
所需積分：0分積分不夠怎么辦？
文檔介紹：為解決垃圾網(wǎng)頁檢測中特征提取難度高、計算量大的問題，提出一種僅基于當前網(wǎng)頁的HTML腳本提取語義特征的方法。首先使用深度優(yōu)先搜索和動態(tài)規(guī)劃相結(jié)合的記憶化搜索算法對域名進行單詞切割，采用隱含狄利克雷分布提取主題詞，基于Word2Vec詞向量和詞移距離計算3個單頁語義相似度特征；然后將單頁語義相似度特征融合單頁統(tǒng)計特征，使用隨機森林等分類算法構(gòu)建分類模型進行垃圾網(wǎng)頁檢測。實驗結(jié)果表明，基于單頁內(nèi)容提取語義特征融合單頁統(tǒng)計特征進行分類的AUC值達到88.0%，比對照方法提高4%左右。
現(xiàn)在下載
VIP會員，AET專家下載不扣分；重復下載不扣分，本人上傳資源不扣分。

活動