基于Boosting集成學(xué)習(xí)的風(fēng)險(xiǎn)URL檢測(cè)研究[通信與網(wǎng)絡(luò)][信息安全]

隨著互聯(lián)網(wǎng)的不斷發(fā)展,網(wǎng)站數(shù)量不斷增長(zhǎng),,URL作為訪問網(wǎng)站的唯一入口,,成為Web攻擊的重點(diǎn)對(duì)象。傳統(tǒng)的URL檢測(cè)方式主要是針對(duì)惡意URL,,主要方法是基于特征值和黑白名單,,容易產(chǎn)生漏報(bào),且對(duì)于復(fù)雜URL的檢測(cè)能力不足,。為解決上述問題,,基于集成學(xué)習(xí)中的Boosting思想,提出一種針對(duì)業(yè)務(wù)訪問的風(fēng)險(xiǎn)URL檢測(cè)的混合模型,。該模型前期將URL作為字符串,,使用自然語(yǔ)言處理技術(shù)對(duì)其進(jìn)行分詞及向量化,,然后采用分步建模法的思想,首先利用GBDT算法構(gòu)建二分類模型,,判斷URL是否存在風(fēng)險(xiǎn),,接著將風(fēng)險(xiǎn)URL原始字符串輸入到多分類模型中,利用XGBoost算法對(duì)其進(jìn)行多分類判定,,明確風(fēng)險(xiǎn)URL的具體風(fēng)險(xiǎn)類型,,為安全分析人員提供參考。在模型構(gòu)建過程中不斷進(jìn)行參數(shù)調(diào)優(yōu),,并采用AUC值和F1值分別對(duì)二分類模型和多分類模型進(jìn)行評(píng)估,,評(píng)估結(jié)果顯示二分類模型的AUC值為98.91%,多分類模型的F1值為0.993,,效果較好,。將其應(yīng)用到實(shí)際環(huán)境中,與現(xiàn)有檢測(cè)手段進(jìn)行對(duì)比,,發(fā)現(xiàn)模型的檢出率高于現(xiàn)有WAF和APT安全設(shè)備,,其檢測(cè)結(jié)果彌補(bǔ)了現(xiàn)有檢測(cè)手段的漏報(bào)。

發(fā)表于:2024/7/29 15:40:00