摘 要: 因近紅外光譜具有波長(zhǎng)點(diǎn)多,、譜帶歸屬困難、光譜重疊嚴(yán)重及光譜分布結(jié)構(gòu)未知等問題,,在進(jìn)行近紅外光譜關(guān)鍵特征提取和數(shù)據(jù)特征空間映射時(shí)難以準(zhǔn)確獲知合適降維方法,。為了解決該問題,本文對(duì)比分析了典型線性和非線性降維方法,,并用煙葉近紅外光譜數(shù)據(jù)從數(shù)據(jù)降維可視化和分類準(zhǔn)確性識(shí)別率角度分別進(jìn)行了實(shí)驗(yàn)驗(yàn)證,。結(jié)果表明,線性降維算法,,特別是PCA,、LDA算法,比較適合應(yīng)用于煙葉近紅外光譜降維分析中,,非線性降維算法因其泛化學(xué)習(xí)能力與推廣能力差以及本征維數(shù)估計(jì)困難不適合應(yīng)用于近紅外光譜降維分析,。
關(guān)鍵詞: 降維;PCA;LDA,;近紅外光譜,;小樣本
0 引言
近紅外光譜(NIR)分析技術(shù)是近年來分析化學(xué)領(lǐng)域迅猛發(fā)展的高新分析技術(shù),越來越受到國(guó)內(nèi)外分析專家的關(guān)注,,在分析化學(xué)領(lǐng)域被譽(yù)為分析“巨人”,。它的出現(xiàn)可以說帶來了又一次分析技術(shù)的革命。近紅外光譜分析技術(shù)廣泛應(yīng)用于農(nóng)產(chǎn)品,、化工,、醫(yī)藥等領(lǐng)域的質(zhì)量分析。然而,,由于近紅外光譜數(shù)據(jù)具有高維,、譜帶重疊等特征,給提取樣品的關(guān)鍵主成分信息帶來了一定程度的困難和挑戰(zhàn),。如何實(shí)現(xiàn)高維到低維空間的特征映射關(guān)系,,選擇合適降維方法顯得尤為重要。近年來,,為了解決高維光譜數(shù)據(jù)降維問題,,國(guó)內(nèi)外相繼出現(xiàn)大量的降維算法。主成分分析(PCA)[1]和線性識(shí)別分析(LDA)[2]是目前應(yīng)用最為廣泛的特征提取與數(shù)據(jù)降維方法之一,。但當(dāng)分析數(shù)據(jù)集呈現(xiàn)非線性且數(shù)據(jù)分布明顯彎曲時(shí),,采用線性降維方法無法獲取數(shù)據(jù)非線性結(jié)構(gòu)特征。為了更好地解決該問題,,先后有不少非線性降維方法被提出,,比較經(jīng)典的有局部線性嵌入LLE算法、等距離映射方法Isomap算法,;另外,,Sammon[3]提出了一種非線性映射,即Sammon映射(SM),,該算法能夠保持輸入樣本之間的相關(guān)距離,;Hastie[4]提出了Principal Curves(PC),其定義為通過概率分布或數(shù)據(jù)云中間的“自洽”光滑曲線,;Kohonen[5]基于自組織神經(jīng)網(wǎng)絡(luò)提出Self-organizing Map(SOM)用來保存數(shù)據(jù)空間的拓?fù)鋵傩?;Scholkopf[6]應(yīng)用Mercer核將PCA擴(kuò)展為Kernel PCA(KPCA),該算法在高維空間中計(jì)算主分量,,而該高維空間由輸入空間經(jīng)某種非線性映射得到,;Mika等[7]采用相同的思想來非線性擴(kuò)展LDA,從而提出了Kernel LDA(KLDA),。
上述這些線性和非線性降維方法各有特性,,適合解決不同類型特征數(shù)據(jù),,對(duì)于近紅外光譜而言,需要根據(jù)光譜特征找到適合降維和關(guān)鍵特征提取方法,,因此,,本文重點(diǎn)分析近紅外光譜特征,對(duì)比分析了線性降維算法與非線性降維算法在提取關(guān)鍵數(shù)據(jù)特征方面的優(yōu)缺點(diǎn),,獲得一種可行有效的降維方法,,并在實(shí)際應(yīng)用中得到較好應(yīng)用。
1 降維方法
1.1 線性降維方法
主成分分析PCA是目前應(yīng)用最為廣泛的降維方法之一,。PCA算法依據(jù)的是方差最大化原理,,將數(shù)據(jù)從高維空間向低維空間映射,并使之投影后方向相互正交,。主成分大小根據(jù)方差大小依次提取,。PCA是一種無監(jiān)督的降維算法,該方法無需考慮數(shù)據(jù)類別屬性,,通過某種線性投影變化獲得綜合變換,,綜合變量最大化反應(yīng)了原始光譜數(shù)據(jù)中所反映的大致規(guī)律。
線性判別式分析LDA算法是模式識(shí)別的經(jīng)典算法,,其基本思想是將高維的模式樣本投影到最佳鑒別矢量空間,,以達(dá)到抽取分類信息和壓縮特征空間維數(shù)的效果,投影后保證模式樣本在新的子空間有最大的類間距離和最小的類內(nèi)距離,,使投影后空間中有最佳的可分離性,。但是,PCA和LDA方法中的全局線性屬性限制了它們?cè)诜歉咚狗植紨?shù)據(jù)上的有效性,。
1.2 兩種線性方法的區(qū)別
PCA算法是在數(shù)據(jù)空間中找出一組向量,,用此向量盡可能地表達(dá)數(shù)據(jù)的方差,將數(shù)據(jù)從高維降到低維,,其利用K-L變換獲得逼近原數(shù)據(jù)空間的最低維識(shí)別空間。LDA算法也是一種線性降維方法,,它基于分類的思想對(duì)數(shù)據(jù)進(jìn)行降維,,即它希望降維后的數(shù)據(jù)在分類后間距盡可能的大。
1.3 兩種線性方法的結(jié)合PCA+LDA
根據(jù)PCA與LDA的特點(diǎn),,可將二者進(jìn)行結(jié)合使用,。設(shè)訓(xùn)練樣本為xi∈Rm×n,i=1,,2,,…,N,,N表示訓(xùn)練樣本數(shù),,訓(xùn)練樣本的協(xié)方差矩陣Q為XXT,,然后計(jì)算協(xié)方差矩陣的特征值與特征向量,并取其較大d個(gè)特征值對(duì)應(yīng)的特征向量,,組成PCA算法的特征子空間W1,;在樣本數(shù)小于樣本維數(shù)時(shí),直接運(yùn)用LDA算法會(huì)出現(xiàn)小樣本問題,,即Sw奇異,,此時(shí)無法求出Sw-1Sb的特征向量,其中Sw為類內(nèi)散布矩陣,,Sb為類間散布矩陣,。依據(jù)PCA算法的特征子空間W1,結(jié)合使用PCA,、LDA算法時(shí)Sw與Sb分別定義為:
Sw=W1TXwXwW1
Sb=W1TXbXbW1
然后,,求解矩陣Sw-1Sb的特征值問題。這里選擇Sw-1Sb的P個(gè)較大特征值對(duì)應(yīng)的特征向量構(gòu)造LDA算法的特征子空間W2,,將PCA算法與LDA算法的特征子空間進(jìn)行融合,,即WS=W1W2,可獲得PCA-LDA算法的融合特征空間WS,,使用得到的WS作為PCA-LDA算法的特征空間進(jìn)行運(yùn)算,。
1.4 非線性降維方法
(1)LLE算法
局部線性嵌入(Locally Linear Embedding,,LLE)算法是流形學(xué)習(xí)中非線性降維方法中最為經(jīng)典的算法之一,,能夠使降維后的數(shù)據(jù)較好地保持原有流形結(jié)構(gòu),并找到每個(gè)樣本的k個(gè)最近鄰域,。
?。?)ISOMAP
如果數(shù)據(jù)采自一個(gè)蛋卷形的流形,兩點(diǎn)間的歐式距離不能真實(shí)反應(yīng)兩點(diǎn)間的關(guān)系,,而兩個(gè)點(diǎn)之間沿著蛋卷的最短距離即geodesic距離可以更好地反應(yīng)這兩個(gè)點(diǎn)之間的關(guān)系,。ISOMAP的主要思想就是利用點(diǎn)之間的geodesic距離來代替點(diǎn)之間的歐氏距離,然后用Metric MDS計(jì)量多元尺度算法進(jìn)行數(shù)據(jù)降維,。ISOMAP對(duì)數(shù)據(jù)的整體平移,、旋轉(zhuǎn)和翻轉(zhuǎn)具有不變形的特性,并且它最后也歸結(jié)為特征值和特征向量的計(jì)算問題,,它具有發(fā)現(xiàn)高維空間低維流形的能力,。
(3)KPCA(Kernel-PCA)
KPCA算法是基于核函數(shù)的思想對(duì)PCA算法進(jìn)行改進(jìn),,它不會(huì)顯著增加計(jì)算的復(fù)雜度,,并且繼承了PCA算法可以得到全局最優(yōu)解的特性,另外它可以求解非線性問題,。其算法思想大致如下:假設(shè)有m個(gè)數(shù)據(jù)x1,,x2,,…,xm,,當(dāng)這些數(shù)據(jù)在n維空間中線性不可分時(shí),,希望通過一個(gè)映射將數(shù)據(jù)從n維空間映射到N(N>n)維空間中,使得數(shù)據(jù)在N維空間中是線性可分的,,這樣,,當(dāng)使用PCA在N維空間對(duì)數(shù)據(jù)進(jìn)行降維時(shí)可以得到更好的結(jié)果。實(shí)踐發(fā)現(xiàn),,當(dāng)對(duì)數(shù)據(jù)處理時(shí),,經(jīng)常會(huì)出現(xiàn)求兩個(gè)向量點(diǎn)積的形式,即椎(xi)T(xj)的形式,,于是,,可以用一個(gè)函數(shù)來代替這種點(diǎn)積計(jì)算,即尋找一個(gè)函數(shù),,使得K(xi,,xj)=(xi)T(xj),這樣可以把求點(diǎn)積的運(yùn)算轉(zhuǎn)化為求函數(shù)值的問題,。這里的函數(shù)K(xi,,xj)便稱為核函數(shù)。
2 實(shí)驗(yàn)部分
2.1 材料和儀器
為了獲得有效的近紅外光譜數(shù)據(jù)降維方法,,挑選了134個(gè)有代表性的復(fù)烤片煙,,包含福建、云南,、山東3個(gè)質(zhì)量差異明顯的產(chǎn)區(qū),。這些煙葉樣品的近紅外光譜采用FOSS近紅外分析儀NIRS DS2500采集,該設(shè)備波長(zhǎng)范圍400~2 500 nm,,數(shù)據(jù)采樣間隔0.5 nm,。
2.2 環(huán)境條件
為了保證近紅外光譜數(shù)據(jù)采集的準(zhǔn)確性和穩(wěn)定性,需具有良好的環(huán)境溫濕度條件,,空氣相對(duì)濕度范圍保持20%~70%,,溫度范圍為20℃~26℃,樣品檢測(cè)過程中門窗處于關(guān)閉狀態(tài),,確保每小時(shí)的溫度變化不大于1℃,濕度變化不大于2%,。
2.3 樣品前處理
將挑選的134份來自三個(gè)不同產(chǎn)區(qū)的煙葉樣品進(jìn)行抽樣,、去梗等前處理,然后在烘箱中以60℃,、4 h條件烘干(含水量約為4%~8%),,從烘箱中取出烘好的樣品馬上磨粉,,過篩40目,裝入密封袋中密封并常溫下避光貯存,。
2.4 光譜數(shù)據(jù)采集
每份煙葉粉末樣品稱重20~25 g,,采用漫反射的方式掃描,每個(gè)樣本重復(fù)裝樣3次,,取平均光譜作為該樣品的最終近紅外光譜,。
2.5 實(shí)驗(yàn)驗(yàn)證分析
2.5.1五種降維算法的數(shù)據(jù)可視化結(jié)果
本實(shí)驗(yàn)中,分別采用PCA,、LDA,、LLE、ISOMAP,、KPCA 5種降維算法對(duì)134份煙葉粉末樣品近紅外光譜數(shù)據(jù)在MATLAB平臺(tái)下進(jìn)行降維分析,,降維因子數(shù)為10個(gè),其獲得數(shù)據(jù)可視化結(jié)果如圖1~圖5(其中橫軸表示降維后第一主成分的得分,,縱軸表示降維后第二主成分的得分),。
從數(shù)據(jù)的可視化結(jié)果來看,LDA算法在水平與垂直方向都可以把產(chǎn)區(qū)分開,,PCA,、LLE、ISOMAP可以在某些方向上把產(chǎn)區(qū)分開,,Kernel-PCA可以在某些區(qū)域內(nèi)把產(chǎn)區(qū)分開,。
2.5.2 分類結(jié)果
從降維后的可視化結(jié)果中可看出5種算法的不同性能,此外,,本文從另外一個(gè)角度——分類器正確識(shí)別率來判斷算法的適合性,。從三個(gè)產(chǎn)區(qū)中分別隨機(jī)選取部分樣本作為測(cè)試樣本,訓(xùn)練樣本與測(cè)試樣本的組成結(jié)構(gòu)如表1所示,。如果測(cè)試樣本經(jīng)過分類器分類之后可以正確識(shí)別出產(chǎn)區(qū)信息,,則認(rèn)為是正確識(shí)別。實(shí)驗(yàn)過程中主因子數(shù)采用1~10,,對(duì)5種降維算法分別進(jìn)行KNN分類,,不同算法采用不同主因子數(shù)得到的正確識(shí)別率如表2所示。
由表2可以看出:(1)LDA具有最好的對(duì)煙葉產(chǎn)區(qū)分類功能,,其次是PCA和ISOMAP,,LLE對(duì)于產(chǎn)區(qū)分類的效果不理想,由此可以推測(cè)煙葉近紅外光譜在高維空間的分布情況,;(2)特征空間維數(shù)對(duì)產(chǎn)區(qū)的正確識(shí)別率有一定的影響,,并不是特征空間的維數(shù)越多對(duì)產(chǎn)區(qū)分類越好,這表明在特征提取時(shí)部分維數(shù)信息對(duì)于產(chǎn)區(qū)的分類是具有干擾性的,。
3 結(jié)論
本文著重對(duì)比分析了線性與非線性的數(shù)據(jù)降維方法在煙葉光譜中的應(yīng)用,。在對(duì)5種降維算法的分析中可以看出,,PCA和LDA降維算法在煙葉近紅外光譜圖方面相對(duì)其他的降維算法有較好的分類性能,而且特征空間的維數(shù)對(duì)產(chǎn)區(qū)分類有一定的影響,,合適的特征空間維數(shù)能夠進(jìn)行較好的分類,。本文的分析結(jié)果與專家評(píng)吸的結(jié)果相一致,對(duì)降維算法的研究可為實(shí)際應(yīng)用中降維算法的選擇提供重要的參考依據(jù),。
參考文獻(xiàn)
[1] HOTELLING H. Analysis of a complex of statistical variables into principal components[J]. Journal of Educational Psychology,, 1933,24:417-441.
[2] FISHER R A. The use of multiple measurements in taxonomic problems[J]. Annals of Eugenics,, 1936,,7(2):179-188.
[3] SAMMON J J W. A nonlinear mapping for data structure analysis[J]. IEEE Trans on Computers,1969,,18(5):401-409.
[4] HASTIE T. Principal curves and surfaces[D]. California:
Stanford Univ,, 1984.
[5] KOHONEN T. Self-organizing Maps[J]. Journal of Mathematical Modelling and Algorithms,2008,,7(4):371-387.
[6] SCHOLKOPF B,, SMOLA A, M?譈LLER K R. Nonlinear component analysis as a kernel eigenvalue problem[J]. Neural Computation,, 1999(10):1299-1319.
[7] MIKA S,, RATSCH G, WESTON J,, et al. Fisher Discriminant Analysis with Kernels[C]. Proc. IEEE Workshop Neural Networks for Signal Processing,, 1999,25: 41-48.