《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 融入距離信息的最小二乘回歸子空間分割
融入距離信息的最小二乘回歸子空間分割
2016年微型機(jī)與應(yīng)用第06期
林莉媛1,,陳曉云1,簡(jiǎn)彩仁2
1.福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建 福州 350116,; 2. 廈門(mén)大學(xué) 嘉庚學(xué)院,福建 漳州 363105
摘要: 有效分類(lèi)基因表達(dá)數(shù)據(jù)有助于癌癥的診斷,,而基因表達(dá)數(shù)據(jù)的高維數(shù)、小樣本特點(diǎn)使基因表達(dá)數(shù)據(jù)分類(lèi)困難。針對(duì)這個(gè)問(wèn)題,,在最小二乘回歸子空間分割算法中考慮距離信息,提出融入距離信息的最小二乘回歸子空間分割算法,。融入距離信息的最小二乘回歸子空間分割模型除了考慮數(shù)據(jù)之間的相關(guān)性,,還考慮了數(shù)據(jù)之間的距離信息。在基因表達(dá)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,,所提出的算法是有效的聚類(lèi)方法,。
Abstract:
Key words :

  林莉媛1,陳曉云1,,簡(jiǎn)彩仁2

 ?。?.福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建 福州 350116;2. 廈門(mén)大學(xué) 嘉庚學(xué)院,,福建 漳州 363105)

       摘要:有效分類(lèi)基因表達(dá)數(shù)據(jù)有助于癌癥的診斷,,而基因表達(dá)數(shù)據(jù)的高維數(shù)、小樣本特點(diǎn)使基因表達(dá)數(shù)據(jù)分類(lèi)困難,。針對(duì)這個(gè)問(wèn)題,,在最小二乘回歸子空間分割算法中考慮距離信息,提出融入距離信息的最小二乘回歸子空間分割算法,。融入距離信息的最小二乘回歸子空間分割模型除了考慮數(shù)據(jù)之間的相關(guān)性,,還考慮了數(shù)據(jù)之間的距離信息。在基因表達(dá)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,,所提出的算法是有效的聚類(lèi)方法,。

  關(guān)鍵詞:基因表達(dá)數(shù)據(jù);聚類(lèi),;距離,;子空間分割

0引言

  基因表達(dá)數(shù)據(jù)的研究有助于準(zhǔn)確識(shí)別癌癥[1],因此有效處理基因表達(dá)數(shù)據(jù)尤為重要,。但基因表達(dá)數(shù)據(jù)小樣本,、高維數(shù)[2]的特點(diǎn)令這項(xiàng)工作困難重重。近幾十年來(lái),,很多分類(lèi)和聚類(lèi)方法成功應(yīng)用在基因表達(dá)數(shù)據(jù)上,,如凸非負(fù)矩陣分解(Convex Nonnegative Matrix Factorization,C_NMF),、半非負(fù)矩陣分解(Seminonnegative Matrix Factorization,,S_NMF)[3]、基因數(shù)據(jù)分析半監(jiān)督學(xué)習(xí)[2]以及根據(jù)基因表達(dá)數(shù)據(jù)特點(diǎn)改進(jìn)的譜聚類(lèi)算法[4]等?;虮磉_(dá)數(shù)據(jù)的聚類(lèi)分為基因聚類(lèi),、樣本聚類(lèi)和雙向聚類(lèi)[5],本文對(duì)腫瘤基因表達(dá)數(shù)據(jù)樣本聚類(lèi),。

  子空間分割方法是近年流行的方法[6],,如稀疏子空間聚類(lèi)SSC[7]、低秩表示子空間聚類(lèi)LRR[8],、最小二乘回歸子空間聚類(lèi)LSR[9]等,,并成功用于圖像分割,、圖像壓縮以及混合系統(tǒng)鑒定等領(lǐng)域[6],。子空間分割方法可使高維數(shù)據(jù)有效聚類(lèi),這適用于基因表達(dá)數(shù)據(jù),,因此本文將提出新的用于基因表達(dá)數(shù)據(jù)聚類(lèi)的子空間分割方法,。LSR使同類(lèi)相關(guān)性強(qiáng)的樣本聚集,但沒(méi)考慮距離信息,,針對(duì)這點(diǎn),,本文對(duì)LSR進(jìn)行改進(jìn),融入距離信息,,并將改進(jìn)后的模型應(yīng)用在基因表達(dá)數(shù)據(jù)中,,通過(guò)與其他用于基因表達(dá)數(shù)據(jù)的聚類(lèi)方法以及子空間分割算法進(jìn)行實(shí)驗(yàn)比較,證明本文方法是有效的,。

1子空間分割

  子空間聚類(lèi)又稱(chēng)子空間分割[6],,目標(biāo)是尋找多個(gè)低維子空間,將數(shù)據(jù)歸到相應(yīng)子空間中,,數(shù)學(xué)定義為[6]:設(shè){xi∈Rd}ni=1是從k≥1個(gè)維數(shù)未知的子空間或仿射空間{Si}ki=1中采樣獲得的點(diǎn)集,,各子空間維數(shù)為mi,0<mi<d,i=1,…,k,。子空間描述為Si={x∈Rd:x=ui+Uiy},i=1,…,k,ui∈Rd是子空間Si的任意點(diǎn)(線性空間ui=0),,Ui∈Rd×mi是Si的一個(gè)基,y∈Rmi是x的低維表示,。子空間聚類(lèi)是找子空間個(gè)數(shù)k,、維數(shù){mi}ki=1、基{Ui}ki=1,、點(diǎn){ui}ki=1,,并將點(diǎn)集分割到子空間中。

  LSR[9]是基于譜聚類(lèi)的子空間聚類(lèi)方法,,與其他基于譜聚類(lèi)的方法一樣,,先構(gòu)造仿射矩陣,再將譜聚類(lèi)方法應(yīng)用在仿射矩陣上,模型為:

  minZZF,,s.t.X=XZ

  噪聲的擴(kuò)展模型為:

  minZX-XZ2F+λZ2F(1)

  其中,,λ>0,·F是F范數(shù),,參考文獻(xiàn)[9]給出式(1)的計(jì)算方法,,并證明LSR有聚集性,是高效,、魯棒的方法,。

2融入距離信息的最小二乘回歸子空間分割

  2.1樣本數(shù)據(jù)點(diǎn)的距離信息

  由參考文獻(xiàn)[10]可知彼此間距離近的數(shù)據(jù)點(diǎn)更可能來(lái)自同一子空間,因此本文假設(shè)彼此間距離近的數(shù)據(jù)點(diǎn)可分配到更大的權(quán)重系數(shù),。設(shè)樣本集為{x1,x2,...,xn},,X∈Rd×n,xi∈Rd×1,。根據(jù)上述假設(shè),,對(duì)于任意樣本xi,希望:

  min∑nj=1xi-xj2zij

  其中,,zi∈Rn×1,,zij是zi的第j個(gè)元素,矩陣形式為:

  min Tr(ZΤD)(2)

  其中,,D為距離矩陣,,xi-xj2是D的第i行的第j個(gè)元素,Z={z1,z2,…,zn},。

  2.2融入距離信息的最小二乘回歸子空間分割模型

  將式(2)與最小二乘回歸子空間分割模型相結(jié)合,,得到融入距離信息的最小二乘回歸子空間分割模型為:

  minZ12X-XZ2F+λ2Z2F+βTr(ZΤD)(3)

  其中,λ>0,、β>0是兩個(gè)可調(diào)節(jié)的參數(shù),·F表示F范數(shù),,Tr(·)表示跡。令:

  1.png

  對(duì)L(Z)求導(dǎo),并令其導(dǎo)數(shù)為0,,即2.pngL=-XΤX+XΤXZ+λZ+βD=0,,可得到式(3)的最優(yōu)解:Z*=(XTX+λI)-1(XTX-βD)。

  通過(guò)(|Z*|+|(Z*)T|)/2構(gòu)造仿射矩陣,,再用標(biāo)準(zhǔn)聚類(lèi)方法(Normalized Cuts, Ncut)[11]分割彷射矩陣,。融入距離信息的最小二乘回歸子空間分割(Subspace Segmentation via Least Squares Regression including Information about Distance, DLSR)算法如下:

  輸入:數(shù)據(jù)矩陣X,類(lèi)別數(shù)為k,,參數(shù)β,、λ

  (1)解決問(wèn)題式(3)得到解Z*,;

 ?。?)通過(guò)(|Z*|+|(Z*)T|)/2計(jì)算仿射矩陣,;

  (3)應(yīng)用Ncut方法將數(shù)據(jù)分成k個(gè)子空間,。

  輸出:聚類(lèi)結(jié)果

3實(shí)驗(yàn)

  本節(jié)在基因表達(dá)數(shù)據(jù)集上用聚類(lèi)準(zhǔn)確率驗(yàn)證提出的DLSR,,與本文方法比較的現(xiàn)有方法為:傳統(tǒng)聚類(lèi)方法kmeans和層次聚類(lèi)(Hierarchical Clustering, HC),子空間分割方法LRR[8]和LSR[9],,非負(fù)矩陣分解擴(kuò)展方法C_NMF和S_NMF[3],。

  3.1數(shù)據(jù)集

  實(shí)驗(yàn)使用公開(kāi)基因表達(dá)數(shù)據(jù)集: 9_Tumor[12]、Brain_Tumor[13],、Leukemia[14],、Leukemia[13]、Leukemia[15],、DLBCL[13],,數(shù)據(jù)集信息如表1所示。表1數(shù)據(jù)集信息數(shù)據(jù)集診斷內(nèi)容樣本個(gè)數(shù)基因個(gè)數(shù)類(lèi)別數(shù)9_Tumor人類(lèi)腫瘤605 7269Brain_Tumor1腦癌1905 9205Leukemia白血病727 1292DLBCL彌漫性大B細(xì)胞淋巴瘤和

  濾泡性淋巴瘤775 4692Leukemia1白血病1725 3273Leukemia2白血病28311 2253

  3.2實(shí)驗(yàn)結(jié)果與分析

  準(zhǔn)確率計(jì)算公式為:

  3.png

  其中,,ri是得到的類(lèi)標(biāo)簽,;si是樣本本身的類(lèi)標(biāo)簽,;n為樣本數(shù),;map(ri)是將ri映射成與si等價(jià)的類(lèi)標(biāo)簽;δ(x,y)是一個(gè)函數(shù),,δ(x,y)=1x=y

  0x≠y,。

001.jpg

  實(shí)驗(yàn)中,DLSR,、LSR,、LRR都需設(shè)置參數(shù),本文的參數(shù)選擇方法是讓參數(shù)取多個(gè)不同的值,,實(shí)驗(yàn)時(shí)遍歷這些值,,最后取使結(jié)果最好的值。DLSR還有另一個(gè)參數(shù)β,,取值策略與λ相同,。實(shí)驗(yàn)時(shí),HC運(yùn)行一次,,其余算法運(yùn)行10次,,取準(zhǔn)確率的平均值,結(jié)果如表2所示,。

002.jpg

  6個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)表明,,除Leukemia外,DLSR與其他方法相比,,都取得較優(yōu)準(zhǔn)確率,。kmeans雖然在Leukemia中準(zhǔn)確率最高,但在其余數(shù)據(jù)集中的結(jié)果并不都好??偟膩?lái)說(shuō),,DLSR還是優(yōu)于kmeans。因此,,本文算法對(duì)基因表達(dá)數(shù)據(jù)的聚類(lèi)更有效,。

  值得注意的是,DLSR優(yōu)于LSR,,因此在LSR中融入距離信息,,可以提供一定的額外信息,有利于提高算法聚類(lèi)能力,。

  3.3參數(shù)選擇

  DLSR模型有兩個(gè)參數(shù)β和λ,。本節(jié)設(shè)置參數(shù)β的變化范圍為{0.002,0.004,0.01,0.04,0.6,0.7,1,100,10 000, 100 000},參數(shù)λ的變化范圍為{0.005,0.01,0.05, 0.1,0.5,1,10,100,1 000},。圖1描述了這兩個(gè)參數(shù)變化對(duì)聚類(lèi)準(zhǔn)確率的影響,。平穩(wěn)的地方說(shuō)明參數(shù)取在那部分時(shí)準(zhǔn)確率變化較穩(wěn)定??煽闯鯠LSR對(duì)參數(shù)β和λ的選取都較敏感,,聚類(lèi)準(zhǔn)確率隨參數(shù)變化呈現(xiàn)出一定波動(dòng)??傮w上看,,參數(shù)β選在0.002~0.6范圍內(nèi)可找到較理想的聚類(lèi)準(zhǔn)確率,參數(shù)λ選在0.05~10范圍內(nèi)可找到較好的聚類(lèi)準(zhǔn)確率,。

  4結(jié)論

  本文在最小二乘回歸子空間分割模型的基礎(chǔ)上,,考慮距離信息,提出融入距離信息的最小二乘回歸子空間分割模型,,并應(yīng)用在基因表達(dá)數(shù)據(jù)上,。實(shí)驗(yàn)表明,對(duì)于給出的基因表達(dá)數(shù)據(jù)集,,DLSR與子空間分割算法LRR,、LSR以及原先用于基因表達(dá)數(shù)據(jù)的方法相比更有效。而且,,在LSR的基礎(chǔ)上融入了距離信息,,確實(shí)可提高聚類(lèi)能力,對(duì)LSR有一定的優(yōu)化,。但是介于參數(shù)的選取對(duì)實(shí)驗(yàn)結(jié)果較為敏感,,如何高效地選取參數(shù)是今后要研究的問(wèn)題。

參考文獻(xiàn)

 ?。?] 黃德雙. 基因表達(dá)譜數(shù)據(jù)挖掘方法研究[M].北京:科學(xué)出版社, 2009.

 ?。?] 劉德山, 孫麗, 閆德勤. 一種基因數(shù)據(jù)分析的半監(jiān)督學(xué)習(xí)算法[J]. 微型機(jī)與應(yīng)用, 2014, 33(12): 4447.

 ?。?] DING C, Li Tao, JORDAN M. Convex and seminonnegative matrix factorizations[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(1): 4555.

  [4] 王俊生, 王年, 郭秀麗, 等. 基于 Normalized Cut 的基因表達(dá)數(shù)據(jù)聚類(lèi)[J]. 安徽大學(xué)學(xué)報(bào)(自然科學(xué)版),2012, 36(4): 6872.

 ?。?] Jiang Daxin, Tang Chun, Zhang Aidong. Cluster analysis for gene expression data: a survey[J]. IEEE Transactions on Knowledge and Data Engineering, 2004, 16(11): 13701386.

 ?。?] VIDAL R. A tutorial on subspace clustering[J]. IEEE Signal Processing Magazine, 2010, 28(2): 5268.

  [7] ELHAMIFAR E, VIDAL R. Sparse subspace clustering[C]. IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2009, IEEE, 2009: 27902797.

 ?。?] Liu Guangcan, Lin Zhouchen, Yu Yong. Robust subspace segmentation by lowrank representation[C]. Proceedings of the 27th International Conference on Machine Learning (ICML10), 2010: 663670.

 ?。?] Lu Canyi, Min Hai, Zhao Zhongqiu, et al. Robust and efficient subspace segmentation via least squares regression[C]. European Conference on Computer Vision, ECCV 2012, 2012,7578(1): 347360.

  [10] Nie Feiping, Wang Xiaoqian, Huang Heng. Clustering and projected clustering with adaptive neighbors[C]. Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM, 2014: 977986.

 ?。?1] Shi Jianbo, MALIK J. Normalized cuts and image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(8): 888905.

 ?。?2] STAUNTON J E, SLONIM D K, COLLER H A, et al. Chemosensitivity prediction by transcriptional profiling[J]. Proceedings of the National Academy of Sciences, 2001, 98(19): 1078710792.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載,。