基于SVM和Word2Vec的Web應(yīng)用入侵檢測(cè)系統(tǒng)-AET-電子技術(shù)應(yīng)用

基于SVM和Word2Vec的Web應(yīng)用入侵檢測(cè)系統(tǒng)

網(wǎng)絡(luò)安全與數(shù)據(jù)治理 2期

凌仕勇1，龔錦紅2

(1.華東交通大學(xué) 網(wǎng)絡(luò)信息中心，江西南昌330013； 2.華東交通大學(xué) 電氣與自動(dòng)化工程學(xué)院，江西南昌330013)

摘要： 高校應(yīng)用系統(tǒng)中的Web日志數(shù)據(jù)是系統(tǒng)運(yùn)維、安全分析的重要來(lái)源。針對(duì)數(shù)據(jù)中心產(chǎn)生的Web日志進(jìn)行研究，同時(shí)考慮GET和POST請(qǐng)求的所有數(shù)據(jù)，采用Word2Vec構(gòu)造特征向量，利用支持向量機(jī)進(jìn)行模型構(gòu)建。并基于MapReduce并行計(jì)算模型，給出了一種異常入侵檢測(cè)算法，構(gòu)建了一套基于Web日志的安全分析平臺(tái)。系統(tǒng)運(yùn)行結(jié)果表明，該平臺(tái)可以有效地發(fā)現(xiàn)校園網(wǎng)中的異常入侵，檢索效率高，能有效提高運(yùn)維效率和異常排查速度。

關(guān)鍵詞： 支持向量機(jī) Word2Vec MapReduce 入侵檢測(cè)

中圖分類號(hào)： TP391
文獻(xiàn)標(biāo)識(shí)碼： A、
DOI： 10.20044/j.csdg.2097-1788.2022.02.003
引用格式：凌仕勇，龔錦紅. 基于SVM和Word2Vec的Web應(yīng)用入侵檢測(cè)系統(tǒng)[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理，2022，41(2)：13-19.

Intrusion detection system of Web application based on SVM and Word2Vec

Ling Shiyong1，Gong Jinhong2

(1.Network Information Center，East China Jiaotong University，Nanchang 330013，China； 2.School of Electrical and Automation Engineering，East China Jiaotong University，Nanchang 330013，China)

Abstract： The Web log data in the university application system is an important source of system operation and security analysis. This paper mainly studies the Web log generated by the data center, with considering all data for both GET and POST requests,constructs the feature vector with Word2Vec, and builds the model with support vector machine. Based on MapReduce parallel computing model, an anomaly intrusion detection algorithm is proposed, and a security analysis platform based on Web log is constructed. The system operation results show that the platform can effectively find abnormal intrusion in the campus network, with high retrieval efficiency, and can effectively improve the operation and maintenance efficiency and abnormal troubleshooting speed.

Key words : Support Vector Machine(SVM)；Word2Vec；MapReduce；intrusion detection

0 引言

隨著高校信息化的發(fā)展，高校應(yīng)用系統(tǒng)中積累了大量的師生、教學(xué)、科研、管理方面的業(yè)務(wù)數(shù)據(jù)。而隨著各業(yè)務(wù)系統(tǒng)的對(duì)外訪問(wèn)，網(wǎng)絡(luò)安全問(wèn)題日趨嚴(yán)重。目前，校園網(wǎng)安全運(yùn)維主要是通過(guò)網(wǎng)絡(luò)安全產(chǎn)品如防火墻、IDS、IPS等設(shè)備來(lái)實(shí)現(xiàn)，總體效果不佳，一個(gè)重要的原因是忽視了日志在校園網(wǎng)管理中的作用。校園網(wǎng)中的網(wǎng)絡(luò)產(chǎn)品、服務(wù)器、應(yīng)用系統(tǒng)等軟硬件運(yùn)行過(guò)程中產(chǎn)生大量的日志，記錄了系統(tǒng)運(yùn)行，使用者、攻擊者的訪問(wèn)行為，可以通過(guò)對(duì)這些日志的綜合分析和處理，有效解決校園網(wǎng)運(yùn)行中遇到的安全問(wèn)題。

Web入侵檢測(cè)是針對(duì)Web應(yīng)用的一種入侵檢測(cè)技術(shù)，通過(guò)對(duì)Web應(yīng)用的請(qǐng)求分析，檢測(cè)和識(shí)別Web攻擊行為。在已有研究中，周勇祿[1]使用Web日志中動(dòng)態(tài)頁(yè)面的參數(shù)值長(zhǎng)度、字符分布等數(shù)據(jù)，建立了基于統(tǒng)一異常的檢測(cè)模型。Estevez-Tapiador等[2]對(duì)日志URL進(jìn)行了劃分，對(duì)應(yīng)到馬爾科夫模型的不同狀態(tài)，使用狀態(tài)轉(zhuǎn)移矩陣，根據(jù)模型達(dá)到終態(tài)的概率判斷日志的合法性。Le[3]將Web入侵的URL根據(jù)不同部分進(jìn)行切割，包括域名、路徑、參數(shù)等，并對(duì)每個(gè)部分進(jìn)行選定特征的提取。Ma[4]等人提取入侵URL中的host等特征，以此進(jìn)行Web應(yīng)用入侵威脅檢測(cè)。Kolar[5]等人則采用詞袋模型解決Web威脅入侵的檢測(cè)問(wèn)題。

高校信息系統(tǒng)一般分散部署在各個(gè)服務(wù)器中，導(dǎo)致所產(chǎn)生的日志也比較分散。高凱[6]研究了大數(shù)據(jù)環(huán)境下，采用分布式數(shù)據(jù)流的四個(gè)子系統(tǒng)：數(shù)據(jù)采集子系統(tǒng)、消息處理子系統(tǒng)、流式計(jì)算子系統(tǒng)和數(shù)據(jù)存儲(chǔ)子系統(tǒng)，進(jìn)行用戶大規(guī)模日志安全分析。陳付梅等[7-9]介紹了大規(guī)模系統(tǒng)的日志模式提煉算法的優(yōu)化方法。上述研究從不同角度構(gòu)建了針對(duì)Web應(yīng)用的入侵檢測(cè)模型或系統(tǒng)，但主要是通過(guò)對(duì)URL的分析，提取基于文本的統(tǒng)計(jì)特征，從而構(gòu)建分析模型，而沒(méi)有考慮到POST請(qǐng)求體的數(shù)據(jù)，且在對(duì)文本數(shù)據(jù)的特征向量構(gòu)建上，主要以統(tǒng)計(jì)特征為主，較少考慮到文本本身的詞匯特性。本文主要針對(duì)數(shù)據(jù)中心產(chǎn)生的Web日志進(jìn)行研究，采用Word2Vec構(gòu)造特征向量，利用支持向量機(jī)進(jìn)行模型訓(xùn)練，并基于MapReduce并行計(jì)算模型，給出了一種海量數(shù)據(jù)異常入侵檢測(cè)算法。通過(guò)此系統(tǒng)對(duì)日志事件進(jìn)行并行挖掘分析，可以很好地發(fā)現(xiàn)安全攻擊事件，得出平臺(tái)整體的安全態(tài)勢(shì)，為數(shù)據(jù)中心正常運(yùn)轉(zhuǎn)提供安全保障。

本文詳細(xì)內(nèi)容請(qǐng)下載：http://forexkbc.com/resource/share/2000004853

作者信息：

凌仕勇1，龔錦紅2

(1.華東交通大學(xué) 網(wǎng)絡(luò)信息中心，江西南昌330013；

2.華東交通大學(xué) 電氣與自動(dòng)化工程學(xué)院，江西南昌330013)

微信圖片_20210517164139.jpg

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容