文獻標識碼: A,、
DOI: 10.20044/j.csdg.2097-1788.2022.02.003
引用格式: 凌仕勇,,龔錦紅. 基于SVM和Word2Vec的Web應(yīng)用入侵檢測系統(tǒng)[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2022,,41(2):13-19.
0 引言
隨著高校信息化的發(fā)展,,高校應(yīng)用系統(tǒng)中積累了大量的師生、教學(xué),、科研,、管理方面的業(yè)務(wù)數(shù)據(jù)。而隨著各業(yè)務(wù)系統(tǒng)的對外訪問,,網(wǎng)絡(luò)安全問題日趨嚴重,。目前,校園網(wǎng)安全運維主要是通過網(wǎng)絡(luò)安全產(chǎn)品如防火墻,、IDS,、IPS等設(shè)備來實現(xiàn),總體效果不佳,,一個重要的原因是忽視了日志在校園網(wǎng)管理中的作用,。校園網(wǎng)中的網(wǎng)絡(luò)產(chǎn)品、服務(wù)器,、應(yīng)用系統(tǒng)等軟硬件運行過程中產(chǎn)生大量的日志,,記錄了系統(tǒng)運行,使用者,、攻擊者的訪問行為,,可以通過對這些日志的綜合分析和處理,有效解決校園網(wǎng)運行中遇到的安全問題,。
Web入侵檢測是針對Web應(yīng)用的一種入侵檢測技術(shù),,通過對Web應(yīng)用的請求分析,,檢測和識別Web攻擊行為。在已有研究中,,周勇祿[1]使用Web日志中動態(tài)頁面的參數(shù)值長度,、字符分布等數(shù)據(jù),建立了基于統(tǒng)一異常的檢測模型,。Estevez-Tapiador等[2]對日志URL進行了劃分,,對應(yīng)到馬爾科夫模型的不同狀態(tài),使用狀態(tài)轉(zhuǎn)移矩陣,,根據(jù)模型達到終態(tài)的概率判斷日志的合法性,。Le[3]將Web入侵的URL根據(jù)不同部分進行切割,包括域名,、路徑,、參數(shù)等,并對每個部分進行選定特征的提取,。Ma[4]等人提取入侵URL中的host等特征,,以此進行Web應(yīng)用入侵威脅檢測。Kolar[5]等人則采用詞袋模型解決Web威脅入侵的檢測問題,。
高校信息系統(tǒng)一般分散部署在各個服務(wù)器中,,導(dǎo)致所產(chǎn)生的日志也比較分散。高凱[6]研究了大數(shù)據(jù)環(huán)境下,,采用分布式數(shù)據(jù)流的四個子系統(tǒng):數(shù)據(jù)采集子系統(tǒng),、消息處理子系統(tǒng)、流式計算子系統(tǒng)和數(shù)據(jù)存儲子系統(tǒng),,進行用戶大規(guī)模日志安全分析,。陳付梅等[7-9]介紹了大規(guī)模系統(tǒng)的日志模式提煉算法的優(yōu)化方法。上述研究從不同角度構(gòu)建了針對Web應(yīng)用的入侵檢測模型或系統(tǒng),,但主要是通過對URL的分析,,提取基于文本的統(tǒng)計特征,從而構(gòu)建分析模型,,而沒有考慮到POST請求體的數(shù)據(jù),,且在對文本數(shù)據(jù)的特征向量構(gòu)建上,主要以統(tǒng)計特征為主,,較少考慮到文本本身的詞匯特性,。本文主要針對數(shù)據(jù)中心產(chǎn)生的Web日志進行研究,采用Word2Vec構(gòu)造特征向量,,利用支持向量機進行模型訓(xùn)練,,并基于MapReduce并行計算模型,給出了一種海量數(shù)據(jù)異常入侵檢測算法,。通過此系統(tǒng)對日志事件進行并行挖掘分析,,可以很好地發(fā)現(xiàn)安全攻擊事件,,得出平臺整體的安全態(tài)勢,為數(shù)據(jù)中心正常運轉(zhuǎn)提供安全保障,。
本文詳細內(nèi)容請下載:http://forexkbc.com/resource/share/2000004853
作者信息:
凌仕勇1,,龔錦紅2
(1.華東交通大學(xué) 網(wǎng)絡(luò)信息中心,江西 南昌330013,;
2.華東交通大學(xué) 電氣與自動化工程學(xué)院,,江西 南昌330013)