摘 要: 介紹了局部線性嵌套和等距映射兩種最基本的非線性降維方法,對比測試了兩種降維方法在不同參數(shù)下的執(zhí)行效果與效率,,總結(jié)了兩種降維方法所適合的數(shù)據(jù)特點(diǎn),,并應(yīng)用于圖像識別中,,比較了兩者在圖像識別中的識別率,。
關(guān)鍵詞: 非線性降維;流形學(xué)習(xí); 局部線性嵌套; 等距映射; 人臉識別
流形的概念最早是由德國數(shù)學(xué)家黎曼在1854年提出的,,它是微分幾何學(xué)的基礎(chǔ)[1]。流形本質(zhì)上是局部可坐標(biāo)化的拓?fù)淇臻g,可以看作是歐式空間的非線性推廣,。
1 局部線性嵌入算法
局部線性嵌入算法LLE(Locally Linear Embedding)是ROWEIS S T和SAUL L K于2000年提出的一種非線性降維方法[2],,該方法主要認(rèn)為在局部意義下,,數(shù)據(jù)結(jié)構(gòu)是線性的,或者說局部意義下的點(diǎn)是在一個(gè)超平面上,,故可以使用任意一點(diǎn)的鄰近點(diǎn)的線性組合來表示該點(diǎn),。對于一組具有嵌套流形的數(shù)據(jù)集,在嵌套空間與內(nèi)在低維空間局部鄰域間的點(diǎn)的關(guān)系應(yīng)該保持不變,。即在嵌套空間,,每個(gè)采樣點(diǎn)可以用它的近鄰點(diǎn)線性表示,在低維空間中保持每個(gè)鄰域中的權(quán)值不變,,重構(gòu)原數(shù)據(jù)使重構(gòu)誤差最小,。
通過最小化這種線性表示的誤差,可以建立如下數(shù)學(xué)模型:
該算法有兩個(gè)待定的參數(shù)k和d,,由于重構(gòu)成本函數(shù)同時(shí)最小化得到的最優(yōu)權(quán)值應(yīng)該遵循對稱性,,因此每個(gè)點(diǎn)的鄰近權(quán)值在進(jìn)行平移、伸縮和旋轉(zhuǎn)變換時(shí)保持不變[3],。
2 等距映射
等距映射算法是由TENENBAUM J B等人于2000年提出的一種非線性降維方法[4],。該方法試圖保持?jǐn)?shù)據(jù)內(nèi)部幾何特征,從而獲得流形上數(shù)據(jù)之間的測地距離,。與傳統(tǒng)的非線性降維方法所不同的是,,利用等距映射方法可以求得高維數(shù)據(jù)的本征維數(shù),將本征維數(shù)較低的高維數(shù)據(jù)投影到低維空間中去[5],,使得高維數(shù)據(jù)可以直接觀察,。等距映射有兩個(gè)假設(shè):(1)高維數(shù)據(jù)所在的低維流形與歐式空間的一個(gè)子集是整體等距的; (2)與數(shù)據(jù)所在的流形等距的歐式空間的子集是一個(gè)凸集,。
實(shí)驗(yàn)3
使用MATLAB軟件用siomap方法對scurve數(shù)據(jù)集進(jìn)行數(shù)據(jù)降維,分別選擇數(shù)據(jù)點(diǎn)個(gè)數(shù)為800,、1 200,降維以后的維數(shù)為2,,在構(gòu)造鄰域圖時(shí)選取k=2,、6、12,。降低維數(shù)后的仿真結(jié)果如圖3所示, 數(shù)據(jù)降維用時(shí)對比如表3所示,?! ?br />
實(shí)驗(yàn)4
使用MATLAB軟件用LLE方法對scurve數(shù)據(jù)集進(jìn)行降維,分別選擇數(shù)據(jù)點(diǎn)個(gè)數(shù)為800、1 200,,降維后的維數(shù)為2,,在構(gòu)造鄰域圖時(shí)選取k=6、8,、12,。降低維數(shù)后的仿真結(jié)果如圖4所示,,數(shù)據(jù)降維用時(shí)對比如表4所示。
4 結(jié)果分析
實(shí)驗(yàn)1中,,從圖1可以看出樣本點(diǎn)的分布及其鄰域點(diǎn)的取值對isomap的降維結(jié)果會產(chǎn)生比較大的影響[7],。實(shí)驗(yàn)2中,隨著鄰域點(diǎn)k取值的增加,,圖2有著明顯的變化,,說明隨著鄰域k的增加,LLE所得的結(jié)果明顯增強(qiáng)。在樣本點(diǎn)稀疏的情況下,,鄰域k的取值對于LLE降維效果有比較明顯的影響,,因而選取合適的鄰域取值對于LLE降維有非常重要的作用。對比實(shí)驗(yàn)2和實(shí)驗(yàn)4可知,,鄰域k的選擇對于不同數(shù)據(jù)集的選取是不同的,。LLE算法中的待定參數(shù)很少(k和d),從圖3可以看出,,隨著樣本鄰域選取的增加,,會把其他較遠(yuǎn)點(diǎn)一起納入,從而造成結(jié)果的誤差,,說明鄰域的選取對于實(shí)驗(yàn)有著直接的影響,。
通過對比實(shí)驗(yàn)運(yùn)行的時(shí)間會發(fā)現(xiàn),isomap所用時(shí)間遠(yuǎn)遠(yuǎn)大于LLE,。其中主要原因是計(jì)算歐式距離矩陣花費(fèi)時(shí)間比較長,,計(jì)算賦權(quán)無向圖運(yùn)算量比較龐大,用多維尺度方法(MDS)時(shí)會用到大量的矩陣運(yùn)算,,對于每一個(gè)不同的數(shù)據(jù)集,,需要重新計(jì)算距離矩陣等,算法復(fù)雜度比較高,,而LLE運(yùn)算量相對較少,。
isomap算法計(jì)算圖上兩點(diǎn)間的最短距離, 執(zhí)行起來比較慢,該方法適用于學(xué)習(xí)內(nèi)部平坦的低維流形, 不適于學(xué)習(xí)有較大內(nèi)在曲率的流形,。LLE算法可以學(xué)習(xí)任意維數(shù)的低維流形,,每個(gè)點(diǎn)的近鄰權(quán)值在平移、旋轉(zhuǎn)和伸縮變換下是保持不變的,。在計(jì)算耗時(shí)上,,isomap遠(yuǎn)遠(yuǎn)大于LLE。
參考文獻(xiàn)
[1] 王澤杰.兩類非線性降維流形學(xué)習(xí)算法的比較分析[J].上海工程技術(shù)大學(xué)學(xué)報(bào),,2008,22(1):54-59.
[2] ROWEIS S T, SAUL L K. Nonlinear dimensionality reducation by locally linear embedding[J]. Science,,2000,26(8): 2323-2326.
[3] 趙連偉,羅四維,趙艷敞.高維數(shù)據(jù)的低維嵌入及嵌入維數(shù)研究[J].軟件學(xué)報(bào),,2005,12(8):1423-1430.
[4] REINHARD K,NIRANJAN M. Subspace models for speech transitions using principal curves[J].Proceedings of Institute of Acoustics,1998:53-60
[5] 王靖.流形學(xué)習(xí)的理論與方法研究[D].杭州:浙江大學(xué), 2006.
[6] 孫明明.流形學(xué)習(xí)理論與算法研究[D].南京:南京理工大學(xué), 2007.
[7] 劉小明.數(shù)據(jù)降維及分類中的流形學(xué)習(xí)研究[D].杭州:浙江大學(xué),2007.