引用格式:馮美琪,,李赟,蔣冰,等.基于Boosting集成學(xué)習(xí)的風(fēng)險(xiǎn)URL檢測(cè)研究[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,,2024,,43(7):32-40.
引言
隨著互聯(lián)網(wǎng)的快速發(fā)展,,在線購(gòu)物,、出行服務(wù)、系統(tǒng)工具和生活服務(wù)等都為人們帶來(lái)了極大的便利,。根據(jù)CNNIC數(shù)據(jù),,截至2023年12月,中國(guó)網(wǎng)民數(shù)達(dá)10.92億,,互聯(lián)網(wǎng)滲透率達(dá)77.5%,。同時(shí),Log4j等重大漏洞的出現(xiàn)也印證了Web應(yīng)用程序所帶來(lái)的嚴(yán)重危害,。而URL作為訪問(wèn)網(wǎng)站的唯一入口,,其也成為了Web攻擊的重點(diǎn)對(duì)象,如何從海量業(yè)務(wù)訪問(wèn)中檢測(cè)出風(fēng)險(xiǎn)URL也成為了重點(diǎn)研究方向,。針對(duì)URL的檢測(cè),,目前的研究方向主要集中在惡意URL,是指通過(guò)作為釣魚網(wǎng)頁(yè)的載體,、XSS攻擊等多種方式竊取用戶的隱私和財(cái)產(chǎn),,造成嚴(yán)重的網(wǎng)絡(luò)安全威脅的URL[1],檢測(cè)方法主要包括特征值檢測(cè),、黑白名單過(guò)濾等,,其不足之處在于,當(dāng)特征值或URL不在預(yù)設(shè)的名單中,,則會(huì)產(chǎn)生漏報(bào),,同時(shí)此類方法無(wú)法實(shí)時(shí)對(duì)新的URL進(jìn)行檢測(cè)。啟發(fā)式技術(shù)的提出解決了對(duì)新的URL檢測(cè)的不足,,但此類方法僅能用于有效數(shù)量的常見威脅[1],。然而,隨著URL攻擊的復(fù)雜度以及攻擊能力的不斷增強(qiáng),,傳統(tǒng)的檢測(cè)方法已無(wú)法滿足防護(hù)需求,,且其覆蓋范圍較窄,無(wú)法識(shí)別海量業(yè)務(wù)訪問(wèn)中存在風(fēng)險(xiǎn)的URL,,需要探索新的應(yīng)用場(chǎng)景和檢測(cè)方法,。在20世紀(jì)80年代,隨著人工神經(jīng)網(wǎng)絡(luò)的成功,,機(jī)器學(xué)習(xí)越來(lái)越受到重視,,由于其使計(jì)算機(jī)能夠?qū)W習(xí)、適應(yīng),、推測(cè)模式,,在沒(méi)有明確編程指令的情況下相互通信[2]的特點(diǎn),逐漸應(yīng)用到網(wǎng)絡(luò)安全領(lǐng)域,。相較于傳統(tǒng)的檢測(cè)方法,,機(jī)器學(xué)習(xí)模型具有更高的檢測(cè)效率和更強(qiáng)的泛化能力。目前對(duì)于URL的研究主要集中在惡意URL,,而非業(yè)務(wù)相關(guān)的風(fēng)險(xiǎn)URL的檢測(cè),。惡意URL的相關(guān)研究主要可以分為三類:第一類是單一的機(jī)器學(xué)習(xí)算法,如BP神經(jīng)網(wǎng)絡(luò)[3],、卷積神經(jīng)網(wǎng)絡(luò)[4],、關(guān)聯(lián)規(guī)則[5]等。第二類是集成多種機(jī)器學(xué)習(xí)算法,,如雙向長(zhǎng)短期記憶網(wǎng)絡(luò)[6]和膠囊網(wǎng)絡(luò)結(jié)合,、雙向長(zhǎng)短期記憶網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合[7-9]等,同時(shí)引入注意力機(jī)制來(lái)增加關(guān)鍵特征的權(quán)重,。此類研究中還有一種是集成學(xué)習(xí)[1],,一種方法是主要利用嶺分類、支持向量機(jī),、樸素貝葉斯作為初級(jí)學(xué)習(xí)器,,采用邏輯回歸作為次級(jí)學(xué)習(xí)器,通過(guò)初級(jí)學(xué)習(xí)器和次級(jí)學(xué)習(xí)器相結(jié)合的雙層結(jié)構(gòu)對(duì)URL進(jìn)行檢測(cè)[10],;另一種方法采用CNN與XGBoost相結(jié)合的檢測(cè)模型,利用CNN實(shí)現(xiàn)自動(dòng)提取特征,,通過(guò)XGBoost進(jìn)行分類[11]。最后一類研究是機(jī)器學(xué)習(xí)與其他手段聯(lián)合進(jìn)行檢測(cè),,如威脅情報(bào)[12],、專家知識(shí)[13],、字符嵌入編碼[14]等。本文對(duì)業(yè)務(wù)從互聯(lián)網(wǎng)接收到的風(fēng)險(xiǎn)URL請(qǐng)求開展檢測(cè)研究,,采用分步建模法和集成學(xué)習(xí)的思想,,將風(fēng)險(xiǎn)URL檢測(cè)模型分為兩個(gè)子模型:風(fēng)險(xiǎn)URL檢測(cè)以及風(fēng)險(xiǎn)URL類型分類。首先采用GBDT算法確定業(yè)務(wù)訪問(wèn)的URL是否存在風(fēng)險(xiǎn),,針對(duì)風(fēng)險(xiǎn)URL,,采用XGBoost算法確定具體的風(fēng)險(xiǎn)類型。同時(shí)產(chǎn)生告警供安全運(yùn)營(yíng)人員確認(rèn)并處置,,在一定程度上彌補(bǔ)現(xiàn)有特征值檢測(cè)方法的漏報(bào),。
本文詳細(xì)內(nèi)容請(qǐng)下載:
http://forexkbc.com/resource/share/2000006089
作者信息:
馮美琪1,2,李赟1,2,,蔣冰1,2,,王立松1,2,劉春波3,,陳偉1,2
(1.中國(guó)民航信息網(wǎng)絡(luò)股份有限公司運(yùn)行中心,,北京101318;
2.中國(guó)民航信息網(wǎng)絡(luò)股份有限公司IT基礎(chǔ)設(shè)施國(guó)產(chǎn)化適配工程技術(shù)研究中心,,北京101318,;
3.中國(guó)民航大學(xué)信息安全測(cè)評(píng)中心,天津300300)