基于改進(jìn)TSVM的未知網(wǎng)絡(luò)應(yīng)用識(shí)別算法-AET-電子技術(shù)應(yīng)用

基于改進(jìn)TSVM的未知網(wǎng)絡(luò)應(yīng)用識(shí)別算法

2016年電子技術(shù)應(yīng)用第9期

李斌，李麗娟

石家莊職業(yè)技術(shù)學(xué)院信息工程系，河北石家莊050081

摘要： 針對(duì)訓(xùn)練集中出現(xiàn)未知網(wǎng)絡(luò)應(yīng)用樣本的識(shí)別問(wèn)題，提出一種基于改進(jìn)的直推式支持向量機(jī)的未知網(wǎng)絡(luò)應(yīng)用識(shí)別算法，引入增類損失函數(shù)刻畫(huà)在訓(xùn)練過(guò)程中新增的未知應(yīng)用樣本的損失代價(jià)，建立TSVM的優(yōu)化問(wèn)題并推導(dǎo)其求解過(guò)程，使得構(gòu)造的分類模型能夠?qū)崿F(xiàn)對(duì)未知類別樣本的識(shí)別。通過(guò)實(shí)際網(wǎng)絡(luò)數(shù)據(jù)集進(jìn)行仿真分析，結(jié)果表明所提出的算法在識(shí)別未知網(wǎng)絡(luò)應(yīng)用的可行性和有效性方面均有良好表現(xiàn)。

關(guān)鍵詞： 支持向量機(jī) 直推式學(xué)習(xí) 未知網(wǎng)絡(luò)應(yīng)用流量識(shí)別

中圖分類號(hào)： TP393；TN918.91
文獻(xiàn)標(biāo)識(shí)碼： A
DOI：10.16157/j.issn.0258-7998.2016.09.025
中文引用格式： 李斌，李麗娟. 基于改進(jìn)TSVM的未知網(wǎng)絡(luò)應(yīng)用識(shí)別算法[J].電子技術(shù)應(yīng)用，2016，42(9)：95-98.
英文引用格式： Li Bin，Li Lijuan. Unknown network applications traffic classification algorithm based on improved TSVM[J].Application of Electronic Technique，2016，42(9)：95-98.

Unknown network applications traffic classification algorithm based on improved TSVM

Li Bin，Li Lijuan

Department of Information Engineering，Shijiazhuang Vocational Technology Institute，Shijiazhuang 050081，China

Abstract： An unknown network protocol classification method based on improved transductive support vector machine learning is proposed to solve the problem of classifying augmented class when unknown network protocol data appeared in the training process. This method uses the large number of unlabeled samples to assist training classification model, where the augment loss of new unknown class samples is described by the loss augment function. TSVM(Transductive Support Vector Machine) optimization model is established and its solving process is deduced, so the decision boundary can classify the unknown class samples. The performance of the proposed method is examined in simulations with real network data sets. The experimental results illustrate the feasibility and effectiveness of the unknown network applications classified by this proposed method.

Key words : support vector machine；transductive learning；unknown network protocol；traffic classification

0 引言

　　根據(jù)Internet2 NetFlow組織對(duì)骨干網(wǎng)中流量的統(tǒng)計(jì)發(fā)現(xiàn)：超過(guò)40％的網(wǎng)絡(luò)數(shù)據(jù)流屬于未知的應(yīng)用[1]，其中惡意代碼流量占有相當(dāng)?shù)谋壤ａ槍?duì)上述問(wèn)題，需要設(shè)計(jì)合理、有效的方法快速準(zhǔn)確地識(shí)別和分析未知應(yīng)用流量，進(jìn)而作出相應(yīng)的控制，提高網(wǎng)絡(luò)管理的效率和對(duì)網(wǎng)絡(luò)攻擊的反應(yīng)速度。

　　網(wǎng)絡(luò)流量識(shí)別方法根據(jù)研究對(duì)象的不同可分為基于端口號(hào)、基于有效負(fù)載和基于流統(tǒng)計(jì)特征3種主流的方法。由于未知應(yīng)用流量一般采用動(dòng)態(tài)端口號(hào)或者偽端口號(hào)進(jìn)行傳輸，且應(yīng)用規(guī)范尚未公開(kāi)，無(wú)法獲取其載荷特征，使得基于端口號(hào)和基于有效負(fù)載這2種方法失去了對(duì)其識(shí)別的能力。而基于流統(tǒng)計(jì)特征方法通過(guò)分析網(wǎng)絡(luò)流的統(tǒng)計(jì)特征，可以實(shí)現(xiàn)對(duì)未知應(yīng)用的識(shí)別。然而，傳統(tǒng)的基于流統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)方法對(duì)未知應(yīng)用的識(shí)別效果要優(yōu)于前兩者方法，但嚴(yán)重依賴于訓(xùn)練分類器的樣本集合。

　　文中提到的類型應(yīng)用已知簡(jiǎn)稱為已知類，應(yīng)用類型未知簡(jiǎn)稱為未知類。根據(jù)訓(xùn)練集中是否存在未知類樣本，將基于流統(tǒng)計(jì)特征的未知應(yīng)用識(shí)別方法大致分為3類：(1)有監(jiān)督方法[2]，通過(guò)訓(xùn)練集中已知類樣本學(xué)習(xí)構(gòu)造一個(gè)判決邊界，并設(shè)定臨閾值，實(shí)現(xiàn)對(duì)待識(shí)別樣本進(jìn)行預(yù)測(cè)，測(cè)試樣本超出閾值的則認(rèn)為屬于未知類。由于缺乏未知應(yīng)用信息，存在判決邊界模糊和臨閾值設(shè)定困難問(wèn)題，識(shí)別效果一般。(2)無(wú)監(jiān)督方法[3]，通過(guò)聚類分析將混合的訓(xùn)練樣本集聚成幾個(gè)簇，實(shí)現(xiàn)對(duì)已知類和未知類的識(shí)別。由于未能有效利用已知類樣本的類別信息，聚類結(jié)果面臨解釋困難。(3)半監(jiān)督方法[4，5]，可以有效利用無(wú)標(biāo)記樣本輔助已知類樣本學(xué)習(xí)構(gòu)造分類模型，實(shí)現(xiàn)對(duì)未知樣本的識(shí)別。如果未標(biāo)記樣本出現(xiàn)未知類的樣本，會(huì)導(dǎo)致該方法對(duì)已知類的效果大大下降，也無(wú)法識(shí)別出新增未知類的樣本。

　　針對(duì)上述存在的問(wèn)題，本文提出了一種基于改進(jìn)的直推式支持向量機(jī)的未知網(wǎng)絡(luò)應(yīng)用流量識(shí)別算法（UPCTSVM），通過(guò)引入增類損失函數(shù)刻畫(huà)未知類的損失代價(jià)，構(gòu)造的判決邊界能夠?qū)崿F(xiàn)對(duì)未知應(yīng)用的識(shí)別。實(shí)驗(yàn)結(jié)果表明，該方法能夠在保證已知類別的識(shí)別準(zhǔn)確率情況下，有效地識(shí)別出未知類數(shù)據(jù)。

1 問(wèn)題描述

　　本文解決的新增類識(shí)別問(wèn)題可以描述為如下形式：已知原始網(wǎng)絡(luò)數(shù)據(jù)集中包含K類已知類和M類未知類。訓(xùn)練樣本集為 QQ圖片20161114133834.png ，其中，yi∈Y={1，2，…，K}，屬于已知類。測(cè)試樣本集為 QQ圖片20161114133841.png ，含有新增類的樣本信息，其中，yi∈YO={1，2，…，K，K+1，…，K+M}。由于這些未知類樣本信息在訓(xùn)練過(guò)程中是不可預(yù)見(jiàn)的，那么該新增類問(wèn)題的目標(biāo)函數(shù)可以表示為f(x)：\ QQ圖片20161114133853.png ，其中novel表示樣本x屬于新增加的類別。該目標(biāo)函數(shù)最小化期望錯(cuò)誤為 QQ圖片20161114134116.png ，其中H為hypnosis空間，誤差函數(shù)定義如下：

　　 QQ圖片20161114132951.png

　　其中I(·)表示示性函數(shù)，若表達(dá)式(1)成立，其值則為1，否則為0。

　　根據(jù)最大分類間隔理論，所有類別都可以利用最大間隔進(jìn)行判定，所以利用未標(biāo)記樣本幫助訓(xùn)練已知類的最大間隔，可以實(shí)現(xiàn)識(shí)別已知類和未知類。那么，在增加Du這部分樣本后，該新增類識(shí)別問(wèn)題中用來(lái)識(shí)別未知類樣本的分類函數(shù)可以描述為：

　　 QQ圖片20161114132955.png

　　其中：f(x)∈H代表分類函數(shù)，Ih(f，DL)和Iu(f，Du)分別代表訓(xùn)練集中標(biāo)記樣本和輔助訓(xùn)練的未標(biāo)記樣本的損失函數(shù)，Inovel(f，DL)為新增類別樣本的損失函數(shù)。C1、C2和C3為影響因子，用于平衡3種不同樣本在目標(biāo)函數(shù)中的損失權(quán)重。

2 工作原理

　　假設(shè)獨(dú)立帶標(biāo)記樣本訓(xùn)練集(x1，y1)，…，(xL，yL)，xi∈Rm，yi∈{-1，+1}，其中xi為標(biāo)記樣本向量，yi為樣本所屬類別，+1表示正類，-1表示負(fù)類。另一組無(wú)標(biāo)記樣本集： QQ圖片20161114134351.png ，輔助訓(xùn)練分類模型。其中 QQ圖片20161114134356.png 為線性分類函數(shù)，其中 QQ圖片20161114134405.png 為分類模型的參數(shù)，w為最優(yōu)超平面的向量，b為偏置，得到TSVM的優(yōu)化問(wèn)題為：

　　 QQ圖片20161114132959.png

　　其中?灼i和?灼j分別代表標(biāo)記樣本與無(wú)標(biāo)記的損失式。為了解決多分類問(wèn)題，需要對(duì)式(3)進(jìn)行擴(kuò)展，本文采用LEE Y等[6]提出的鉸鏈損失函數(shù)對(duì)多類數(shù)據(jù)進(jìn)行刻畫(huà)，引入增類損失函數(shù)對(duì)無(wú)標(biāo)記樣本集中新增的未知類樣本進(jìn)行刻畫(huà)得到UPCTSVM的優(yōu)化問(wèn)題，然后需要對(duì)該優(yōu)化問(wèn)題訓(xùn)練K次，每次將某個(gè)已知類判為正類(yi=+1)，而剩下的所有類別判為負(fù)類(yi=-1)。其中3類損失函數(shù)分別代表為：

　　 QQ圖片20161114133002.png

　　其中損失函數(shù) Inovel是用來(lái)調(diào)整控制判決邊界的移動(dòng)，使得最大分類間隔最小化，I+、I-分別是訓(xùn)練集中的正例和負(fù)例。

　　通過(guò)式(2)和式(4)訓(xùn)練得到一個(gè)K+1分類器，得到待測(cè)樣本x進(jìn)行的判別函數(shù)為：

　　 QQ圖片20161114133006.png

　　當(dāng) fnovel為0時(shí)，將測(cè)試樣本x判為novel。

　　為了求解上述的優(yōu)化問(wèn)題，需要為 Inovel(f，DL)添加一個(gè)約束條件：

　　 QQ圖片20161114133011.png

　　其中參數(shù)?姿>0，用來(lái)控制正類樣本影響判決邊界的動(dòng)態(tài)調(diào)整方向，該約束條件轉(zhuǎn)換成：

　　 QQ圖片20161114133016.png

　　由于 Iu(f，Du)采用裁剪的對(duì)稱鉸鏈損失函數(shù)max(0，

　　1-|z|)≈Rs(z)+Rs(-z)+const，導(dǎo)致該優(yōu)化問(wèn)題仍很復(fù)雜，Rs(z)min(1-s，max(0，1-z))，s∈(-1，0]。為了更好地區(qū)別Ih和Iu兩種損失函數(shù)，Rs(z)也可以用Rs(z)=H1(z)-Hs(z)，Hs(z)=max(0，s-z)來(lái)表示。

　　通過(guò)前面分析，式(2)的優(yōu)化問(wèn)題轉(zhuǎn)化為下面最小優(yōu)化問(wèn)題：

　　 QQ圖片20161114133019.png

　　其中：J1(?茲)為凸函數(shù)，J2(?茲)為凹函數(shù)，當(dāng)L+1≤i≤L+U時(shí)，yi=+1；當(dāng)L+U+1≤i≤L+2U時(shí)，yi=-1，且當(dāng)1≤i≤U時(shí)，xL+U+i=xL+i。

　　 QQ圖片20161114133022.png

　　 QQ圖片20161114133026.png

　　由于在訓(xùn)練集中正類樣本在Du中所占比例遠(yuǎn)小于DL，為了防止將未標(biāo)記樣本都錯(cuò)歸為一類，提出約束條件：

　　 QQ圖片20161114133029.png

　　引入文獻(xiàn)[7]中的凹凸求解方法對(duì)目標(biāo)函數(shù)進(jìn)行優(yōu)化，凹凸求解方法是通過(guò)求解一系列不同的子問(wèn)題，包括凸問(wèn)題和非凸的問(wèn)題。在凹凸問(wèn)題求解過(guò)程中每次迭代需要求解下面的子問(wèn)題：

　　 QQ圖片20161114133033.png

　　該子問(wèn)題是由一個(gè)凸函數(shù)和一個(gè)線性函數(shù)組成，注意到在式(3)仍存在一個(gè)非凸約束條件，提出選擇優(yōu)化方法來(lái)求解該子問(wèn)題。當(dāng)?shù)趖+1次迭代，用固定值 QQ圖片20161114134533.png 代替 QQ圖片20161114134536.png ，式(12)可以轉(zhuǎn)化為標(biāo)準(zhǔn)的SVM對(duì)偶問(wèn)題及約束條件：

　　 QQ圖片20161114133036.png

　　 QQ圖片20161114133040.png

　　其中N=L+2U+2+|I-|為對(duì)偶變量總數(shù)。當(dāng) QQ圖片20161114134826.png QQ圖片20161114135046.png 時(shí)， QQ圖片20161114135104.png ，否則為 QQ圖片20161114134839.png 為核函數(shù)矩陣， QQ圖片20161114135321.png 。前面L+2U個(gè)樣本為已知類的訓(xùn)練樣本，后面2+|I-|個(gè)樣本定義為：

　　 QQ圖片20161114133043.png

　　其中， QQ圖片20161114135453.png 。由于該QP問(wèn)題和標(biāo)準(zhǔn)SVM的對(duì)偶問(wèn)題非常相似，考慮利用BOTTOU L等[8]提出的最小優(yōu)化算法(Sequential Minimal Optimization，SMO)進(jìn)行求解，得到最優(yōu)解為： QQ圖片20161114134902.png 。

3 實(shí)驗(yàn)和分析

　　3.1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

　　為了驗(yàn)證UPCTSVM算法的分類性能，本文將采用2個(gè)真實(shí)的網(wǎng)絡(luò)數(shù)據(jù)集進(jìn)行仿真測(cè)試，分別是MAWI實(shí)驗(yàn)室提供的WIDE公開(kāi)網(wǎng)絡(luò)數(shù)據(jù)集[9]和校園網(wǎng)截獲的網(wǎng)絡(luò)數(shù)據(jù)CND。WIDE數(shù)據(jù)集分別是采集于2010年4月13日共4個(gè)小時(shí)的流量和2012年3月30日共5個(gè)小時(shí)的流量；CND數(shù)據(jù)集在校園主干網(wǎng)采集4個(gè)小時(shí)的流量。提取流行的9種應(yīng)用層協(xié)議對(duì)文中算法的性能進(jìn)行評(píng)估，分別為HTTP、SSH、SSL、FTP、SMTP、POP3、SMB、DNS和IMAP。為了減少樣本分布不均衡的影響，樣本超過(guò)5 000的類隨機(jī)抽取5 000個(gè)樣本，小于5 000的類保持原有樣本，組成一個(gè)含有32 978個(gè)樣本的實(shí)驗(yàn)數(shù)據(jù)集，詳細(xì)信息如表1所示。實(shí)驗(yàn)中，本文提取20個(gè)單向流的統(tǒng)計(jì)特征作為代表樣本信息，然后利用特征選擇算法剔除不相關(guān)或冗余的特征，得到其中的9個(gè)特征，詳細(xì)的描述如表2所示。在實(shí)驗(yàn)過(guò)程中，將HTTP、SSL、FTP、SMTP、POP3、DNS和IMAP分別標(biāo)記為序號(hào)1～7。各類樣本按照一定比例，分別組成訓(xùn)練樣本集、未標(biāo)記樣本集和測(cè)試樣本集。

圖像 005.png

圖像 006.png

　　為了驗(yàn)證UPCTSVM算法的有效性，將與其他3種算法(OVR-SVM[10]、MOCSVM[4]和MULTIpLE[5])分別進(jìn)行性能比較，采用整體識(shí)別準(zhǔn)確率(Overcall-Precision)和調(diào)和均值(F-measure)作為評(píng)價(jià)指標(biāo)。每次實(shí)驗(yàn)重復(fù)10次，取其平均值作為實(shí)驗(yàn)結(jié)果。

　　3.2 實(shí)驗(yàn)結(jié)果分析

　　(1)測(cè)試1：不同算法的識(shí)別性能比較。實(shí)驗(yàn)過(guò)程中，隨機(jī)選擇5種應(yīng)用作為已知類，剩余2種作為未知類進(jìn)行測(cè)試，訓(xùn)練集中各類標(biāo)記樣本數(shù)為200，未標(biāo)記樣本為200，剩余作為測(cè)試樣本。圖1和圖2分別表示各類算法在不同訓(xùn)練集上的整體識(shí)別準(zhǔn)確率和未知類的F-measure值。從結(jié)果可以看出，本文提出的算法利用未標(biāo)記樣本輔助訓(xùn)練分類模型可以有效準(zhǔn)確地識(shí)別出新增未知類數(shù)據(jù)，其整體識(shí)別準(zhǔn)確率和未知類的識(shí)別效果均優(yōu)于其他算法。因?yàn)镺VR-SVM算法無(wú)法識(shí)別新增的未知類，在判別過(guò)程中未知類樣本都被誤判為已知類，導(dǎo)致其識(shí)別效果最差；另外2種算法雖然都具備一定的未知類識(shí)別能力，但未能有效利用未標(biāo)記樣本中未知類的樣本信息，使得整體識(shí)別效果和未知類的F-measure值也都比較差。

圖像 001.png

圖像 002.png

　　(2)測(cè)試2：不同未標(biāo)記樣本對(duì)UPCTSVM算法的識(shí)別性能的影響。圖3和圖4分別表示訓(xùn)練集中標(biāo)記樣本數(shù)為100和200的情況下，不同的未標(biāo)記樣本輔助訓(xùn)練得到的整體識(shí)別準(zhǔn)確率和新增未知類的F-measure值的曲線圖。結(jié)果顯示，該算法的整體識(shí)別準(zhǔn)確率和未知類的F-measure值均隨著輔助未標(biāo)記樣本的增加而逐漸提高，說(shuō)明在訓(xùn)練集標(biāo)記樣本數(shù)一定的情況，含有未知類的未標(biāo)記樣本的增加有助于提高分類器識(shí)別未知類樣本的能力。

圖像 003.png

圖像 004.png

4 結(jié)束語(yǔ)

　　針對(duì)訓(xùn)練集中出現(xiàn)未知應(yīng)用的識(shí)別問(wèn)題，本文提出一種改進(jìn)直推式支持向量機(jī)的未知應(yīng)用識(shí)別算法，通過(guò)獲取與訓(xùn)練集相同網(wǎng)絡(luò)環(huán)境下的未標(biāo)記樣本，包含著未知應(yīng)用的數(shù)據(jù)樣本，用來(lái)輔助訓(xùn)練分類模型，引入增類損失函數(shù)刻畫(huà)新增未知類樣本的損失代價(jià)，使得構(gòu)造的判決邊界能夠識(shí)別出未知應(yīng)用樣本。實(shí)驗(yàn)結(jié)果表明，與其他算法相比，本文提出的算法在識(shí)別未知網(wǎng)絡(luò)應(yīng)用的可行性和有效性方面均有良好表現(xiàn)。

　　參考文獻(xiàn)

　　[1] 王一鵬，云曉春，張永錚，等.基于主動(dòng)學(xué)習(xí)和SVM方法的網(wǎng)絡(luò)應(yīng)用識(shí)別技術(shù)[J].通信學(xué)報(bào)，2013，34(10)：135-142.

　　[2] KUZBORSKIJ I，ORABONA F，CAPUTO B.From n to n+1：Multiclass transfer incremental learning[C].Proce.of the 26th IEEE Conference on Computer Vision and Pattern Recognition，2013：3358-3365.

　　[3] 王變琴，余順爭(zhēng).未知網(wǎng)絡(luò)應(yīng)用流量的自動(dòng)提取方法[J].通信學(xué)報(bào)，2014，35(7)：164-172.

　　[4] ZHOU Z H，LI M.Tri-training：Exploiting unlabeled data using three classifiers[J].Knowledge and Data Engineering，IEEE Transactions on，2005，17(11)：1529-1541.

　　[5] 李洋，方濱興，郭莉，等.基于直推式方法的網(wǎng)絡(luò)異常檢測(cè)方法[J].軟件學(xué)報(bào)，2007，18(10)：2595-2604.

　　[6] LEE Y，LIN Y，WAHBA G.Multi-category support vector machines, theory，and application to the classification of microarray data and satellite radiance data[J].Journal of the American Statistical Association，2004，99(465)：67-81.

　　[7] COLLOBERT R，SINZ F，WESTON J，et al.Large scale transductive SVMs[J].The Journal of Machine Learning Research，2006，7(8)：1687-1712.

　　[8] BOTTOU L，LIN C J.Support vector machine solvers[J].Large Scale Kernel Machines，2007，3(1)：301-320.

　　[9] WAWI Working Group.Packet traces from WIDE backbone [EB/OL].[2016-03].http：//mawi.wide.ad.jp/mawi/.

　　[10] ALLWEIN E L，SCHAPIRE R E，SINGER Y.Reducing multiclass to binary：A unifying approach for margin classifiers[J].The Journal of Machine Learning Research，2001，1(2)：113-141.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容