摘 要: 提出在支持向量機(jī)回歸預(yù)測(cè)中采用粒子群算法優(yōu)化參數(shù)和主成分析降維的方法,,通過算例分析表明,此法能夠顯著提高預(yù)測(cè)的精度,。
關(guān)鍵詞: 支持向量機(jī),;粒子群算法;主成分析法,;預(yù)測(cè)
預(yù)測(cè)是國(guó)家,、企業(yè)等組織制定政策和計(jì)劃的主要依據(jù),因而預(yù)測(cè)的準(zhǔn)確度是政策與計(jì)劃制定是否科學(xué)的前提。預(yù)測(cè)的方法有傳統(tǒng)的多元回歸預(yù)測(cè),,以及近幾年來發(fā)展起來的人工神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)[1],、灰色預(yù)測(cè)[2]。多元回歸預(yù)測(cè)模型簡(jiǎn)單,、易用性強(qiáng),,但難以處理高維、非線性模式,;人工神經(jīng)網(wǎng)絡(luò)雖然能夠較好地解決高維非線性預(yù)測(cè)的難題,,但它需要大量的訓(xùn)練樣本,且泛化能力不強(qiáng),,所以當(dāng)可得到的預(yù)測(cè)樣本是小樣本,,或者獲得大量樣本的成本很高時(shí),就難免影響其實(shí)用性和經(jīng)濟(jì)性,;灰色預(yù)測(cè)雖具有短期預(yù)測(cè)能力強(qiáng),,可檢驗(yàn)等優(yōu)點(diǎn),但其長(zhǎng)期預(yù)測(cè)能力較差,。Vapnik等人提出的支持向量機(jī)[3-4]是在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上發(fā)展起來的一種新的機(jī)器學(xué)習(xí)算法,,是目前針對(duì)小樣本統(tǒng)計(jì)和預(yù)測(cè)學(xué)習(xí)的最佳理論,支持向量機(jī)具有完美的數(shù)學(xué)形式,、直觀的幾何解釋和良好的泛化性能,,解決了模型選擇與欠學(xué)習(xí)、過學(xué)習(xí)及非線性等問題,,克服了收斂速度慢,,易陷入局部最優(yōu)解等缺點(diǎn),,因此支持向量機(jī)在分類和回歸中均表現(xiàn)出優(yōu)越的性能,。
射函數(shù)。核函數(shù)的作用是當(dāng)樣本點(diǎn)在原空間線性不可分時(shí),,可以通過映射函數(shù)映射到高維空間,,從而達(dá)到線性可分的目的,,但實(shí)際應(yīng)用中映射函數(shù)的顯式表達(dá)式很難找到,觀察式(2)~式(4)中只用到了映射在高維空間的點(diǎn)積,,而核函數(shù)的特點(diǎn)就是能使變量在低維空間核函數(shù)值等于其映射到高維空間的點(diǎn)積值,,從而實(shí)現(xiàn)不需要知道顯式映射函數(shù)達(dá)到向高維空間映射的目的。任何滿足Mercer 條件的函數(shù)均可作為核函數(shù),。
2 粒子群算法基本原理
微粒群算法最早是在1995年由美國(guó)社會(huì)心理學(xué)家Kennedy和Russell[6]共同提出,,其基本思想是受鳥群覓食行為的啟發(fā)而形成的。PSO算法把優(yōu)化問題的解看作是D維空間中一個(gè)沒有體積沒有質(zhì)量的飛行粒子,,所有的粒子都有一個(gè)被優(yōu)化目標(biāo)函數(shù)決定的適應(yīng)度值,,而速度決定每個(gè)粒子的飛行方向和距離,,粒子根據(jù)自己先前達(dá)到的最優(yōu)位置和整個(gè)群體達(dá)到的最優(yōu)位置來更新自己的位置和速度,從而向全局最優(yōu)位置聚集,。粒子根據(jù)以下公式來更新自己的速度和位置:
4 應(yīng)用實(shí)例
試驗(yàn)從UCI上選取美國(guó)波斯頓地區(qū)1993年城鎮(zhèn)住房數(shù)據(jù)作為試驗(yàn)數(shù)據(jù)[9],。試驗(yàn)步驟如下:
(1)應(yīng)用主成分析法降維
由于統(tǒng)計(jì)軟件SPSS提供了主成份分析功能,而且具有采用交互式,、圖形化操作界面,、結(jié)果圖形化輸出、直觀性強(qiáng)等優(yōu)點(diǎn),,故本文采用SPSS16.0作為降維工具,,表1為最大方差旋轉(zhuǎn)后的因子載荷圖,從表中可以看出,,7個(gè)主成份都有很好的解釋意義(載荷絕對(duì)值>0.5,,說明變量與主成份存在相關(guān)性)。主成份1為城鎮(zhèn)生活環(huán)境,,主成份2為治安環(huán)境,,主成份3為人口密度,主成份4為人口層次,,主成份5為是否有河流,主成份6為商業(yè)環(huán)境,,主成份7為教育發(fā)展水平,。
本文把量子群優(yōu)化算法和主成分析降維的方法應(yīng)用于支持向量機(jī)的回歸預(yù)測(cè)中,試驗(yàn)結(jié)果表明此法能顯著提高支持向量機(jī)的預(yù)測(cè)精度,,同時(shí)也表明了支持向量機(jī)在非線性,、高維模式下的良好預(yù)測(cè)性能。
參考文獻(xiàn)
[1] 閻平凡,,張長(zhǎng)水.人工神經(jīng)網(wǎng)絡(luò)與模擬進(jìn)化計(jì)算[M].北京:清華大學(xué)出版社,,2006.
[2] 韋康南,姚立綱等.基于灰色理論的產(chǎn)品壽命預(yù)測(cè)研究[J].計(jì)算機(jī)集成制造系統(tǒng),,2005(10):1491-1495.
[3] VAPNIK V N. The nature of statistic learning theory[M].New York: Springer,, 2005.
[4] VAPNIK V N. Estimation of dependencies based on empiric[M]. Berlin Springer-Verlag, 2003.
[5] 鄧乃揚(yáng),,田英杰. 數(shù)據(jù)挖掘中的新方法-支持向量機(jī)[M].北京:科學(xué)出版社,,2004.
[6] KENNEDY J, EBERHART R. Particle swarm optimizat[A].Proc IEEE Int Conf. on Neural[C]. Perth,, 1995. 1942-1948.
[7] CLERK,, M. The swarm and the queen: Towards a deterministic and adaptive particle swarm optimization[A].1951-1957. 1990. Proc. CEC 1999.
[8] 林海明.對(duì)主成分分析法運(yùn)用中的十個(gè)問題的解析[J].統(tǒng)計(jì)與決策(理論版),2007(8):16-18.
[9] http://archive.ics.uci.edu/ml/index.html 1993.07.