一種基于統(tǒng)計排序的網絡流量特征選擇方法-AET-電子技術應用

一種基于統(tǒng)計排序的網絡流量特征選擇方法

2018年電子技術應用第1期

劉紀偉，趙月顯，趙楊

國家計算機網絡與信息安全管理中心河北分中心，河北石家莊 050021

摘要： 利用網絡流量的統(tǒng)計特征進行流量的分類識別需要從眾多的特征中選取最優(yōu)特征集合，以避免冗余和不相關特征造成的系統(tǒng)模型復雜度過高、分類準確率和效率下降等問題。針對該問題，提出一種基于統(tǒng)計排序的網絡流量特征選擇方法。首先利用基于統(tǒng)計方法定義的特征選擇系數生成初始特征子集，再將基于分類準確率構建的特征影響系數作為特征評估排序的依據，對初始特征子集進行二次特征選擇，生成最優(yōu)特征子集。實驗結果表明，該方法在保證分類整體準確率的同時有效減少了流量統(tǒng)計特征的個數，在分類效果、效率以及穩(wěn)定性之間實現(xiàn)了較好的平衡。

關鍵詞： 網絡流量分類特征選擇統(tǒng)計排序特征影響

中圖分類號： TP393
文獻標識碼： A
DOI：10.16157/j.issn.0258-7998.172203
中文引用格式： 劉紀偉，趙月顯，趙楊. 一種基于統(tǒng)計排序的網絡流量特征選擇方法[J].電子技術應用，2018，44(1)：84-87.
英文引用格式： Liu Jiwei，Zhao Yuexian，Zhao Yang. A feature selection method of network traffic based on statistic and ranking strategy[J]. Application of Electronic Technique，2018，44(1)：84-87.

A feature selection method of network traffic based on statistic and ranking strategy

Liu Jiwei，Zhao Yuexian，Zhao Yang

Network and Information Security Administration Center Hebei Center，Shijiazhuang 050021，China

Abstract： It is required to select the best features from so many ones in order to avoid the high complexity of the model, the low classification accuracy and efficiency caused by redundant and irrelevant features, if network traffic classification is obtained by using the statistical characteristics. To solve the problem, a network traffic feature selection method based on statistic and ranking is proposed, according to generate the initial feature subset by using feature selection coefficient defined by statistic and then generate the optimal feature subset through the second feature selection of the initial feature subset by using feature influence coefficient defined by classification accuracy as the reference of extraction and ranking. Experimental results show that the proposed algorithm can reduce the number of features effectively while ensuring the overall classification accuracy and a good balance is achieved between classification effectiveness, efficiency and stability.

Key words : network traffic classification；feature selection；statistic and ranking；feature influence

0 引言

網絡流量分類是指將混合有各種應用的流量，按產生這些流量的應用協(xié)議進行分類。網絡流量分類既是高性能網絡協(xié)議設計的基礎，又是網絡運營管理、網絡發(fā)展規(guī)劃的依據，也是網絡攻擊與惡意代碼檢測的重要手段^[1]。

基于網絡流量的統(tǒng)計特征并利用機器學習的方法進行流量的分類識別是當前學術界的研究熱點，一方面該方法克服了傳統(tǒng)基于標準端口匹配和深度包檢測方法在技術上的不足，另一方面基于網絡流量統(tǒng)計特征的方法不涉及報文的有效載荷信息，避免了對用戶隱私侵犯帶來的法律問題。但是網絡流量特征屬性繁多，目前得到學術界廣泛認可的各類特征數量就已多達240余個，大量冗余和不相關的特征屬性不僅會增加流量分類系統(tǒng)模型的復雜度，還會降低分類算法的效率和性能，造成流量分類準確率和效率同時下降。因此，需要對網絡流量特征進行選擇，剔除冗余和不相關的特征。

近幾年學術界對此開展了廣泛和深入的研究。文獻[2]提出了一種分治和投票的策略，首先對原始訓練集進行分割，利用分割后的子集分別獲得特征子集，再通過投票獲得最終的特征子集，有效地縮短了算法運行時間；文獻[3]提出一種結合過濾型和封裝型特征選擇算法優(yōu)點的組合式特征選擇算法，并將該算法用于網絡流量中P2P流量的識別，實驗結果表明在保證分類平均準確率不低于90%的情況下，可以將特征個數縮減至7個；潘吳斌等人在文獻[4]中提出一種基于選擇性集成策略的嵌入式特征選擇方法，采用選擇性集成方法選取5種特征選擇器產生特征子集，再通過改進的序列前向搜索和封裝器組合方法產生最優(yōu)特征子集，在一定程度上解決了類別不均衡和概念漂移的問題；孫興斌等人在文獻[5]、[6]中也對多類不均衡問題和少數類召回率低的問題進行了研究，提出了有針對性的特征選擇方法，盡管在實驗環(huán)境下取得了很好的效果，但由于選取的特征個數與網絡應用種類數相同，在實際應用中依然面臨不小的挑戰(zhàn)；文獻[7]給出了一種以分類準確率作為判決準則的流量特征二次排序選擇的思路，但特征的初次選擇依然采用傳統(tǒng)方式，算法的效率受到一定限制。

本文在前述學者的研究工作基礎之上，針對現(xiàn)有網絡流量特征選擇方法存在的問題，提出一種基于統(tǒng)計排序的特征選擇方法(Feature Selection based on Statistic and Ranking，F(xiàn)SSR)。FSSR首先根據特征選擇系數大小選取類相關性強、類別區(qū)分度高的特征組成初始特征子集，初始特征子集中的特征個數與網絡應用種類個數相同，然后根據特征影響系數大小按序對初始特征子集進行二次選擇，再次進行降維尋優(yōu)操作，從而獲得最優(yōu)特征子集，有效提升分類的效率和效果。

1 FSSR方法

1.1 相關定義

為了方便描述，對文中使用的標記符號說明如下：C={c₁，c₂，c₃，…，c_k}表示具有k個類的網絡應用集合；T={t₁，t₂，t₃，…，t_m}表示具有m個網絡流量特征的集合；X={x₁，x₂，x₃，…，x_N}表示樣本數量為N的網絡流樣本數據集合，其中x_i形式為以T中元素表征的特征向量。

定義1 特征選擇系數f_ij

特征選擇系數f_ij用來衡量特征t_i和類c_j之間的相關性以及t_i將c_j與其他類區(qū)分開來的能力。

根據香農的信息論理論，對于某個特征t，如果類c的樣本在這個特征上的取值越集中，說明c在t上的不確定性越小，即特征t與類c相關性越強，利用特征t能更好地識別類c；如果類c₁和類c₂的樣本在特征t上的取值區(qū)間沒有交集或者交集很小，則利用特征t就能很好地區(qū)分類c₁和類c₂。基于此，定義特征選擇系數如下：

其中，|t_i|表示統(tǒng)計所有樣本在特征t_i上全部取值的個數，γ_inj表示統(tǒng)計類c_j在特征t_i上取第n個值的樣本個數占類c_j樣本總數的比例。可見，特征選擇系數大小由類在特征上取值的集中程度和該類與其他所有類在該特征上取值區(qū)間的差異程度決定。在特征上的取值越集中，類間的取值區(qū)間相差越大，特征系數越大，相應的特征和類相關性越強。

定義2 特征影響系數I_i

特征影響系數I_i用來衡量特征t_i對分類準確率的影響程度。定義如下：

1.2 算法原理

FSSR方法的核心思想是基于相關性并利用統(tǒng)計的方法找出既能準確標識網絡應用同時又在不同應用類別之間具有明顯分布差異的網絡流量特征。如果所有目標應用的樣本在某些流量特征上的分布都很集中，同時各個應用的分布之間差異明顯，那么顯然利用這些特征能夠很好地區(qū)分出各個目標應用。比如，目標應用a的樣本在特征1上的取值分布集合是{1，2}，在特征2上的取值分布集合是{1，2，3，4，5}，目標應用b的樣本在特征1上的取值分布集合是{9，10}，在特征2上的取值分布集合是{4，5，6，7，8}，比較特征1和特征2，顯然利用特征1能更好地標識和區(qū)分目標應用。1.1節(jié)中的特征選擇系數即基于此思想定義。

1.3 算法描述

FSSR方法主要由特征選擇系數計算、初始特征子集生成、特征影響系數計算和最優(yōu)特征子集生成四個部分組成。算法運行過程分為兩個階段，第一階段生成初始特征子集，由于初始特征子集中的特征數量與網絡應用類別數量相等，當網絡應用數量較多時，很可能造成選取到冗余和不相關特征，因此第二階段對初始特征子集進行二次選擇，進一步尋優(yōu)，得到最優(yōu)特征子集。在第二階段計算各特征的特征影響系數時，采用C4.5決策樹分類算法評估分類準確率。算法詳細步驟描述如下：

輸入：網絡流樣本訓練數據集X

輸出：最優(yōu)特征子集S

(1)初始化初始特征子集S₁，最優(yōu)特征子集S為空集；

(2)遍歷訓練集X中的樣本，根據式(1)計算每個網絡應用類型對應每個流量特征的特征選擇系數f_ij，其中1≤i≤m，1≤j≤k；

(3)對應用類型c_j，掃描集合{f_ij}(1≤i≤m)，計算I= tx2-1.3-x1.gif ，得到對應的流量特征t_I，放入S₁中；如果S₁中已有特征t_I，則刪除f_ij，重新計算；

(4)循環(huán)執(zhí)行步驟(3)，直到遍歷完所有的應用類型c_j(1≤j≤k)，得到初始特征子集S₁；

(5)利用初始特征子集S₁，對訓練集X使用10次折疊交叉驗證，采用C4.5決策樹分類算法，根據式(2)，計算S₁中每個特征的特征影響系數；

(6)查找S₁中特征影響系數最大的特征順序放入S中，并將該特征從S₁中刪除；

(7)利用特征子集S，對訓練集X使用10次折疊交叉驗證，采用C4.5決策樹分類算法，計算分類準確率p_S；

(8)重復執(zhí)行步驟(5)~(7)，直到p_S取得最大值，此時的特征子集S即為最優(yōu)特征子集；

(9)結束。

2 實驗與分析

2.1 實驗工具與實驗數據集

本文使用的主要實驗工具為Weka 3.8。Weka是新西蘭懷卡托大學開發(fā)的一個基于JAVA環(huán)境的開源機器學習以及數據挖掘軟件，包含多種機器學習算法。同時，Weka提供JAVA接口，為開發(fā)者提供了一個基于JAVA的二次開發(fā)平臺，支持開發(fā)者自己編寫代碼進行新學習算法開發(fā)。實驗平臺運行Windows 7操作系統(tǒng)，CPU為Intel Core i5-3470 3.20 GHz，內存大小為4 GB。

實驗利用MOORE A W等人在文獻[8]中給出的網絡流數據集Moore_set作為實驗測試數據集，這是目前網絡流量分類研究中最為權威的測試數據集。Moore_set中包含10個數據子集、377 526個網絡流樣本、248個流量特征屬性(最后一個屬性是目標應用，即指出網絡流所屬的應用類型)、12種應用類型(數據子集中應用類型FTP又進一步分為：FTP-CONTROL、FTP-PASV和FTP-DATA)。10個數據子集的采集時間在同一天，按先后順序編號，每個數據子集的采集持續(xù)時間約30 min，具體統(tǒng)計信息如表1～表3所示。

從表1可以看出，Moore_set中INT和GAMES兩種應用類型的樣本數量相對過少，不具有代表性，因此刪除這兩種類型的樣本，保留其余樣本。

從表3可以看出，DB和MMEDIA兩種應用類型分別在數據子集5、6和數據子集9、10中沒有分布。為了保證實驗數據集中應用分布的統(tǒng)一，不選取這4個數據子集作為實驗數據集。經過以上選擇處理后，實驗數據集共包含6個數據子集、205 210個網絡流樣本、10種應用類型，6個數據子集分別是entry01、entry02、entry03、entry04、entry07、entry08^[8]。

2.2 實驗結果分析

為了有效評價分類效果，Weka給出了分類算法的總體準確率和按類計算的詳細準確率，詳細準確率包括真正率、假正率、精確率、召回率、F-Measure值等性能指標。文獻[1]中給出了對以上各項性能評價指標的詳細介紹，請參閱。

實驗首先分別在各個數據子集上運行FSSR特征選擇方法，獲得并記錄從各數據子集選取的初始特征子集和最優(yōu)特征子集以及分別僅包含初始特征和最優(yōu)特征的數據子集；然后為了評價FSSR方法的效果和效率，選擇C4.5算法構造分類器，使用10次折疊交叉驗證方法分別在初始特征數據子集、最優(yōu)特征數據子集和未進行特征選擇的全特征數據子集上執(zhí)行分類操作，對網絡流量進行分類識別。實驗結果對比如表4～表6所示。

由表4可知，經過FSSR方法選擇后的特征數量明顯減少，將原來的248個特征平均減少到現(xiàn)在的7.67個，表明FSSR的降維效果明顯。

由表5可知，F(xiàn)SSR方法在6個實驗數據子集上獲得的平均分類總體準確率略高于原始全特征數據子集的總體準確率，準確率未有較大程度地提升，主要原因是：分類算法C4.5本身性能很好，對未進行特征選擇的原始實驗數據集進行分類時總體準確率已經達到了99.6%以上，提升空間有限，并且實驗數據集樣本數量龐大，增加的少量正確分類樣本數對準確率貢獻較小。

由表6可知，雖然FSSR方法在提升分類準確率方面貢獻不大，但由于在特征集合降維方面效果明顯，降低了分類模型的復雜度，所以在系統(tǒng)建模時間上，利用FSSR方法獲得的最優(yōu)特征子集進行分類建模的時間遠遠低于全特征集合。

表7給出了FSSR在實驗數據集上選取頻率最高的6個特征，其中序號、標識符參照文獻[8]中的定義。

總的來說，F(xiàn)SSR特征選擇方法在網絡流量分類識別方面取得了較好的效果，在保證分類總體準確率的同時，大幅度地減少了網絡流量的統(tǒng)計特征數目，從而有效降低了后續(xù)分類系統(tǒng)模型的復雜度和對系統(tǒng)資源的占用，提高了分類效率。

3 結論

本文針對機器學習在網絡流量分類中面臨的流量統(tǒng)計特征選擇問題，提出一種基于統(tǒng)計排序的特征選擇方法，首先利用特征選擇系數為各網絡應用類型選擇相關性強、與其他應用區(qū)分度高的特征，組成初始特征子集。考慮到網絡應用類型過多時仍然可能導致選取到冗余和不相關的特征，再將特征影響系數作為特征評估排序的依據，對初始特征子集進行二次特征選擇，生成最優(yōu)特征子集。實驗結果表明，該方法在保證分類整體準確率的同時，有效減少了流量統(tǒng)計特征的個數，達到了預期的效果。但網絡流量存在應用類別分布不均衡以及概念漂移等問題，在對多類不均衡流量進行分類時，機器學習分類模型往往傾向于多數類，造成少數類召回率較低。目前的特征選擇方法可以很好地解決維數災難的問題，但在解決上述問題方面還有很多不足，下一步的主要研究方向即為結合機器學習和特征選擇解決網絡流量分類中的多類不均衡和概念漂移問題。

參考文獻

[1] 汪立東，錢麗萍，王大偉，等.網絡流量分類方法與實踐[M].北京：人民郵電出版社，2013.

[2] 高文，錢亞冠，吳春明，等.網絡流量特征選擇方法中的分治投票策略研究[J].電子學報，2015，43(4)：795-799.

[3] 儲慧琳，張興明.一種組合式特征選擇算法及其在網絡流量識別中的應用[J].小型微型計算機系統(tǒng)，2012，33(2)：325-329.

[4] 潘吳斌，程光，郭曉軍，等.基于選擇性集成策略的嵌入式網絡流特征選擇[J].計算機學報，2014，37(10)：2128-2137.

[5] 孫興斌，孫彥贊，鄭小盈，等.面向多類不均衡網絡流量的特征選擇方法[J].計算機應用研究，2017，34(2)：568-571.

[6] 孫興斌，芮赟.一種基于統(tǒng)計頻率的網絡流量特征選擇方法[J].小型微型計算機系統(tǒng)，2016，37(11)：2483-2487.

[7] 申健，夏靖波，張曉燕，等.基于分治排序策略的流量二次特征選擇[J].電子學報，2017，45(1)：128-133.

[8] MOORE A W，ZUEV D，CROGAN M.Discriminators for use in flow-based classification，RR-05-13[R].London:Queen Mary University of London，2005.

原創(chuàng)聲明：此內容為AET網站原創(chuàng)，未經授權禁止轉載。

相關內容