引用格式:馮美琪,,李赟,,蔣冰,等.基于Boosting集成學(xué)習(xí)的風(fēng)險(xiǎn)URL檢測研究[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2024,,43(7):32-40.
引言
隨著互聯(lián)網(wǎng)的快速發(fā)展,在線購物,、出行服務(wù),、系統(tǒng)工具和生活服務(wù)等都為人們帶來了極大的便利。根據(jù)CNNIC數(shù)據(jù),,截至2023年12月,,中國網(wǎng)民數(shù)達(dá)10.92億,互聯(lián)網(wǎng)滲透率達(dá)77.5%,。同時,,Log4j等重大漏洞的出現(xiàn)也印證了Web應(yīng)用程序所帶來的嚴(yán)重危害。而URL作為訪問網(wǎng)站的唯一入口,,其也成為了Web攻擊的重點(diǎn)對象,,如何從海量業(yè)務(wù)訪問中檢測出風(fēng)險(xiǎn)URL也成為了重點(diǎn)研究方向。針對URL的檢測,,目前的研究方向主要集中在惡意URL,,是指通過作為釣魚網(wǎng)頁的載體、XSS攻擊等多種方式竊取用戶的隱私和財(cái)產(chǎn),,造成嚴(yán)重的網(wǎng)絡(luò)安全威脅的URL[1],,檢測方法主要包括特征值檢測、黑白名單過濾等,,其不足之處在于,,當(dāng)特征值或URL不在預(yù)設(shè)的名單中,則會產(chǎn)生漏報(bào),,同時此類方法無法實(shí)時對新的URL進(jìn)行檢測,。啟發(fā)式技術(shù)的提出解決了對新的URL檢測的不足,但此類方法僅能用于有效數(shù)量的常見威脅[1],。然而,,隨著URL攻擊的復(fù)雜度以及攻擊能力的不斷增強(qiáng),傳統(tǒng)的檢測方法已無法滿足防護(hù)需求,,且其覆蓋范圍較窄,,無法識別海量業(yè)務(wù)訪問中存在風(fēng)險(xiǎn)的URL,需要探索新的應(yīng)用場景和檢測方法,。在20世紀(jì)80年代,,隨著人工神經(jīng)網(wǎng)絡(luò)的成功,機(jī)器學(xué)習(xí)越來越受到重視,,由于其使計(jì)算機(jī)能夠?qū)W習(xí),、適應(yīng)、推測模式,,在沒有明確編程指令的情況下相互通信[2]的特點(diǎn),,逐漸應(yīng)用到網(wǎng)絡(luò)安全領(lǐng)域。相較于傳統(tǒng)的檢測方法,,機(jī)器學(xué)習(xí)模型具有更高的檢測效率和更強(qiáng)的泛化能力,。目前對于URL的研究主要集中在惡意URL,而非業(yè)務(wù)相關(guān)的風(fēng)險(xiǎn)URL的檢測,。惡意URL的相關(guān)研究主要可以分為三類:第一類是單一的機(jī)器學(xué)習(xí)算法,,如BP神經(jīng)網(wǎng)絡(luò)[3]、卷積神經(jīng)網(wǎng)絡(luò)[4],、關(guān)聯(lián)規(guī)則[5]等,。第二類是集成多種機(jī)器學(xué)習(xí)算法,如雙向長短期記憶網(wǎng)絡(luò)[6]和膠囊網(wǎng)絡(luò)結(jié)合,、雙向長短期記憶網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合[7-9]等,,同時引入注意力機(jī)制來增加關(guān)鍵特征的權(quán)重。此類研究中還有一種是集成學(xué)習(xí)[1],,一種方法是主要利用嶺分類,、支持向量機(jī)、樸素貝葉斯作為初級學(xué)習(xí)器,,采用邏輯回歸作為次級學(xué)習(xí)器,,通過初級學(xué)習(xí)器和次級學(xué)習(xí)器相結(jié)合的雙層結(jié)構(gòu)對URL進(jìn)行檢測[10];另一種方法采用CNN與XGBoost相結(jié)合的檢測模型,利用CNN實(shí)現(xiàn)自動提取特征,,通過XGBoost進(jìn)行分類[11],。最后一類研究是機(jī)器學(xué)習(xí)與其他手段聯(lián)合進(jìn)行檢測,如威脅情報(bào)[12],、專家知識[13],、字符嵌入編碼[14]等。本文對業(yè)務(wù)從互聯(lián)網(wǎng)接收到的風(fēng)險(xiǎn)URL請求開展檢測研究,,采用分步建模法和集成學(xué)習(xí)的思想,,將風(fēng)險(xiǎn)URL檢測模型分為兩個子模型:風(fēng)險(xiǎn)URL檢測以及風(fēng)險(xiǎn)URL類型分類。首先采用GBDT算法確定業(yè)務(wù)訪問的URL是否存在風(fēng)險(xiǎn),,針對風(fēng)險(xiǎn)URL,,采用XGBoost算法確定具體的風(fēng)險(xiǎn)類型。同時產(chǎn)生告警供安全運(yùn)營人員確認(rèn)并處置,,在一定程度上彌補(bǔ)現(xiàn)有特征值檢測方法的漏報(bào),。
本文詳細(xì)內(nèi)容請下載:
http://forexkbc.com/resource/share/2000006089
作者信息:
馮美琪1,2,,李赟1,2,蔣冰1,2,,王立松1,2,,劉春波3,陳偉1,2
(1.中國民航信息網(wǎng)絡(luò)股份有限公司運(yùn)行中心,,北京101318,;
2.中國民航信息網(wǎng)絡(luò)股份有限公司IT基礎(chǔ)設(shè)施國產(chǎn)化適配工程技術(shù)研究中心,北京101318,;
3.中國民航大學(xué)信息安全測評中心,,天津300300)