《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于支持向量機的地表水環(huán)境質(zhì)量分類模型
基于支持向量機的地表水環(huán)境質(zhì)量分類模型
2014年微型機與應用第21期
笪英云,,汪曉東
(浙江師范大學 數(shù)理與信息工程學院,,浙江 金華321004)
摘要: 建立了一種基于支持向量機的地表水環(huán)境質(zhì)量分類模型,,并將其用于浙江省主要市界交界面的地表水環(huán)境質(zhì)量分類,。該模型采用徑向基核函數(shù),,以一對多方式實現(xiàn)多分類,。分別以網(wǎng)格搜索,、粒子群優(yōu)化和遺傳算法三種優(yōu)化方法對支持向量機的控制參數(shù)進行尋優(yōu)。實驗表明,,采用網(wǎng)格搜索法確定支持向量機控制參數(shù)可以得到最好的水質(zhì)分類結果,,分類準確率可達到82%,由此證明以支持向量機對水質(zhì)進行分類是可行的,。
Abstract:
Key words :

  摘 要: 建立了一種基于支持向量機的地表水環(huán)境質(zhì)量分類模型,,并將其用于浙江省主要市界交界面的地表水環(huán)境質(zhì)量分類。該模型采用徑向基核函數(shù),,以一對多方式實現(xiàn)多分類,。分別以網(wǎng)格搜索、粒子群優(yōu)化和遺傳算法三種優(yōu)化方法對支持向量機的控制參數(shù)進行尋優(yōu),。實驗表明,,采用網(wǎng)格搜索法確定支持向量機控制參數(shù)可以得到最好的水質(zhì)分類結果,分類準確率可達到82%,,由此證明以支持向量機對水質(zhì)進行分類是可行的,。

  關鍵詞: 支持向量機;水質(zhì)分類,;分類模型,;網(wǎng)格搜索;主成分分析

0 引言

  地表水環(huán)境質(zhì)量分類是進行水環(huán)境治理保護的一項重要內(nèi)容,,建立地表水環(huán)境質(zhì)量分類模型是對地表水環(huán)境質(zhì)量進行正確分類的一項基礎工作,。近年來,常見的水環(huán)境質(zhì)量分類方法有綜合指數(shù)法[1],、灰色聚類法[2],、人工神經(jīng)網(wǎng)絡[3]等,但前兩類方法中的模型屬于傳統(tǒng)模型,,并沒有很好地解決水環(huán)境質(zhì)量分類中的評價因子和水質(zhì)等級之間存在的非線性關系[4],。

  支持向量機(Support Vector Machine, SVM)[5]作為近年發(fā)展起來的一種機器學習方法,是一種建立在統(tǒng)計學習理論和結構風險最小化原則基礎上的監(jiān)督式學習方法[6],,能很好地解決小樣本、非線性,、高維數(shù)和局部極小點等問題,,已成為機器學習界的研究熱點之一[7],。目前,SVM已廣泛應用于統(tǒng)計分類,、回歸分析和時間序列預測等實際問題,。SVM作為分類模型,無論是訓練速度還是分類準確率均明顯優(yōu)于神經(jīng)網(wǎng)絡[8],。因此,,本文嘗試將SVM分類模型用于地表水環(huán)境質(zhì)量分類。

1 支持向量機分類

  SVM的研究最初是針對模式識別中的二類線性可分問題,,對于二類線性不可分問題則通過非線性映射,,將數(shù)據(jù)由低維空間映射到高維特征空間,使其在高維空間線性可分,,進而得到最優(yōu)分類超平面,,實現(xiàn)問題的求解。

  設輸入空間Rn中的訓練集為:

  1.png

  通過非線性映射到高維Hilbert空間H,,得到新的訓練集:

  2.png

  若在高維特征空間建立一最優(yōu)超平面:

  3.png

  其中,,V_O0%93ZA$8L@N[~F0~QOAY.png是最優(yōu)超平面的法向量,b是最優(yōu)超平面的偏移量,。對于部分不能被最優(yōu)超平面直接分開的數(shù)據(jù),,通過引入松弛變量ξi使約束條件弱化,同時由懲罰因子C控制對錯分樣本的懲罰程度,。則二類線性不可分的原始問題可以轉化為:

  4.png

  再引入拉格朗日乘數(shù)αi≥0,,βi≥0,得:

  5.png

  根據(jù)Wolfe對偶定義,,對L關于V_O0%93ZA$8L@N[~F0~QOAY.png,、b、ξ求極小,,可得:

  6.png

  然后將上述極值條件代入拉格朗日函數(shù),,對α求極大,獲得其對偶問題:

  7.png

  同時得到分類函數(shù):

  8.png

  其中,,8+.png為核函數(shù),。最優(yōu)超平面僅依賴于相應αi不為零的訓練點(xi,yi)所對應的輸入xi,,稱其為支持向量(Support Vector, SV),。選擇不同的核函數(shù),可以生成不同的SVM,,本文選用徑向基核函數(shù):8++.png,,γ為核函數(shù)寬度。

2 支持向量機地表水環(huán)境質(zhì)量分類模型

  用SVM對地表水環(huán)境質(zhì)量進行分類有兩個問題需要考慮:首先水質(zhì)分類問題屬于多分類問題,,要采用多分類的SVM,;其次從SVM分類算法可以看出,,懲罰因子C及徑向基核函數(shù)寬度γ是SVM的兩個控制參數(shù),訓練時需對它們進行調(diào)整,,即存在控制參數(shù)尋優(yōu)問題,。

  2.1 多分類方法

  SVM多分類的方法有多種[9],常用的有一對一(One Against One)和一對多(One Against All)兩種方法[10],,由于一對一分類器訓練速度比較慢,,故本文采用一對多方法。

  2.2 控制參數(shù)尋優(yōu)

  交叉驗證(Cross Validation, CV)是一種用來驗證分類器性能的統(tǒng)計分析方法,,常用的CV方法有幾種,,本文采用k-fold Cross Validation(k-CV),其基本思想是將原始樣本分成k組,,每個子集樣本分別做一次驗證集,,同時剩下的k-1組子集樣本作為訓練集,得到k個模型,,取這k個模型驗證集的分類準確率的平均值作為此分類器的性能指標,。

  采用徑向基核函數(shù)時需要調(diào)節(jié)懲罰因子C和核函數(shù)寬度γ兩個SVM控制參數(shù),本文使用3種控制參數(shù)尋優(yōu)方法,,分別是網(wǎng)格搜索法(Grid Search),、粒子群優(yōu)化算法(Particle Swarm Optimization, PSO)和遺傳算法(Genetic Algorithm, GA)。

  網(wǎng)格搜索法分兩步進行,,其基本原理是先在大范圍內(nèi)粗略尋找較佳參數(shù),,采用k-CV方法對訓練集進行測試,并得到使分類準確率較高的控制參數(shù),。再在上述控制參數(shù)附近的小范圍內(nèi)精確搜索,,再次進行尋優(yōu),找到最優(yōu)參數(shù),。PSO是一種基于群體智能的演化計算方法,,它是通過粒子在解空間追隨最優(yōu)的粒子進行搜索的。本文中利用PSO對SVM參數(shù)優(yōu)化時以對訓練集進行CV得到的準確率作為適應度函數(shù),,最大進化次數(shù)設置為200,,種群最大數(shù)量設置為20。GA是通過模擬“優(yōu)勝劣汰,,適者生存”的自然界演化法則而生成的一種并行隨機搜索最優(yōu)化方法,。本文中GA以對訓練集進行CV得到的準確率為適應度函數(shù),最大進化代數(shù)設置為500,,種群最大數(shù)量設置為20,。

3 實驗

  3.1 實驗數(shù)據(jù)集

  實驗數(shù)據(jù)來源于浙江省環(huán)境保護廳網(wǎng)站(http://www.zjepb.gov.cn)發(fā)布的浙江省主要市界交界面水質(zhì)自動監(jiān)測月報(2009年1月~2012年1月)。其中主要檢測項目為PH值、溶解氧(DO),、高錳酸鹽指數(shù)(CODMn),、氨氮(NH3-N)這4個參數(shù),。根據(jù)《地表水環(huán)境質(zhì)量標準》(GB 3838-2002),,水質(zhì)分類有Ⅰ、Ⅱ,、Ⅲ,、Ⅳ、Ⅴ類,,如表1所示,。

004.jpg

  3.2 監(jiān)測數(shù)據(jù)分析

  主成分分析(Principal Component Analysis, PCA)是一種分析、簡化數(shù)據(jù)集的技術,。PCA可以在盡可能減少信息損失的情況下,,將高維數(shù)據(jù)降至低維,在二維或三維空間以圖形方式直觀顯示數(shù)據(jù)的分布情況[11],,因此本文采用PCA觀測地表水環(huán)境監(jiān)測數(shù)據(jù)的復雜程度,。在本實驗中,監(jiān)測數(shù)據(jù)總共有360個樣本,,除Ⅰ,、Ⅱ、Ⅲ,、Ⅳ,、Ⅴ類之外,對于低于Ⅴ類的水質(zhì),,本文稱之為劣Ⅴ類,,這樣一共有6類,即本文需解決的地表水環(huán)境質(zhì)量分類問題是6分類問題,。對其監(jiān)測數(shù)據(jù)進行PCA分析后得到前4個主成分分量的貢獻率如圖1所示,,相應前2個及前3個主成分分量數(shù)據(jù)分布分別如圖2與圖3所示。

001.jpg

  由圖1可知,,PCA分析結果中前4個主成分的貢獻率分別為52.067 6%,、22.555 4%、14.899 6%和10.477 4%,,這說明PCA分析后的每個主成分分量都比較重要,,若降維則會對水質(zhì)分類結果有較大的影響,因此本文對訓練與測試SVM分類模型的數(shù)據(jù)不進行降維處理,。從圖2及圖3可以看出,,待分類處理的檢測數(shù)據(jù)分布是比較復雜的,例如圖2的Ⅲ類與Ⅳ類、Ⅴ類與劣Ⅴ類以及圖3中的Ⅰ類,、Ⅱ類和Ⅳ類之間都存在比較嚴重混疊,,用常規(guī)方法難以準確分類。因此,,本文通過建立SVM分類模型,,實現(xiàn)地表水環(huán)境質(zhì)量的分類。在360個樣本中取其中的182個樣本數(shù)據(jù)作為SVM的訓練集,,剩余的178個樣本數(shù)據(jù)作為SVM的測試集,。

  3.3 實驗結果與分析

  使用網(wǎng)格搜索法、PSO參數(shù)尋優(yōu)法和GA參數(shù)尋優(yōu)法3種方法得到的訓練集交叉驗證(CV)分類準確率,、測試集分類準確率及整個程序運行所需要的時間如表2所示(每種控制參數(shù)尋優(yōu)方法均運行3次),。

005.jpg

  從表2可以看出,網(wǎng)格搜索法的測試集分類準確率可以達到82.022 5%,,PSO參數(shù)尋優(yōu)法雖然也可以達到82.022 5%,,但是沒有網(wǎng)格搜索法穩(wěn)定,且整個程序運行所需要的時間是網(wǎng)格搜索法的3倍多,。GA參數(shù)尋優(yōu)法的測試集分類準確率則普遍沒有PSO參數(shù)尋優(yōu)法高,,且整個程序運行所需要的時間也比PSO參數(shù)尋優(yōu)法長。通過比較這3種控制參數(shù)尋優(yōu)方法可知,,用網(wǎng)格搜索法對SVM中的參數(shù)進行尋優(yōu)是可行的,,且得到的水質(zhì)分類結果最好。

4 結論

  本文通過建立SVM多分類模型實現(xiàn)地表水環(huán)境質(zhì)量分類,,并在建模過程中以網(wǎng)格搜索法,、PSO參數(shù)尋優(yōu)法和GA參數(shù)尋優(yōu)法分別對SVM的控制參數(shù)進行了尋優(yōu)。從實驗結果可知,,采用網(wǎng)格搜索法進行SVM參數(shù)尋優(yōu),,可以得到較高的測試集分類精度,表明采用SVM多分類模型進行地表水環(huán)境質(zhì)量分類是可行的,。

參考文獻

  [1] 王文強. 綜合指數(shù)法在地下水質(zhì)評價中的應用[J]. 水利科技與經(jīng)濟,,2008, 14(1): 54-55.

  [2] 鄧聚龍. 灰色理論系統(tǒng)[M]. 武漢:華中科技大學出版社, 2002.

  [3] FARMAKI E G, THOMAIDIS N S, EFSTATHIOU C E. Artificial neural networks in water analysis: theory and application [J]. International Journal of Environmental Analytical Chemistry, 2010, 90(2): 85-105.

  [4] 鄭一華. 基于支持向量機的水質(zhì)評價和預測研究[D]. 南京:河海大學,2006.

  [5] CORTES C, VAPNIK V. Support-vector networks [J]. Machine Learning, 1995, 20(3): 273-297.

  [6] 張學工. 關于統(tǒng)計學習理論與支持向量機[J]. 自動化學報,,2000, 26(1): 32-42.

  [7] 鄧乃揚,,田英杰. 數(shù)學挖掘中的新方法:支持向量機[M]. 北京:科學出版社,2004.

  [8] Cao Jian, Hu Hongsheng, Qian Suxiang, et al. Research on the water quality forecast method based on SVM [C]. SPIE, 2009,7500.

  [9] 聶盼盼, 臧洌, 劉雷雷. 基于對支持向量機的多分類算法在入侵檢測中的應用[J]. 計算機應用, 2013, 33(2): 426-429.

  [10] JOUTSIJOKI H, JUHOLA M. Comparing the one-vs-one and one-vs-all methods in benthic macroinvertebrate image classification [C]. Proceeding in 7th International Conference, MLDM 2011, NewYork, USA, 2011:399-413.

  [11] PARDO M, SBERYEGLIERI G. Coffee analysis with an electronic nose [J]. IEEE Transactions on Instrumentation and Measurement, 2002, 51(6): 1334-1339.


此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權禁止轉載,。