融入距離信息的最小二乘回歸子空間分割-AET-電子技術(shù)應(yīng)用

融入距離信息的最小二乘回歸子空間分割

2016年微型機(jī)與應(yīng)用第06期

林莉媛1，陳曉云1，簡彩仁2

1.福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建福州 350116； 2. 廈門大學(xué) 嘉庚學(xué)院，福建漳州 363105

摘要： 有效分類基因表達(dá)數(shù)據(jù)有助于癌癥的診斷，而基因表達(dá)數(shù)據(jù)的高維數(shù)、小樣本特點(diǎn)使基因表達(dá)數(shù)據(jù)分類困難。針對(duì)這個(gè)問題，在最小二乘回歸子空間分割算法中考慮距離信息，提出融入距離信息的最小二乘回歸子空間分割算法。融入距離信息的最小二乘回歸子空間分割模型除了考慮數(shù)據(jù)之間的相關(guān)性，還考慮了數(shù)據(jù)之間的距離信息。在基因表達(dá)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，所提出的算法是有效的聚類方法。

關(guān)鍵詞： 基因表達(dá)數(shù)據(jù) 聚類距離子空間分割

Abstract：

Key words :

　　林莉媛1，陳曉云1，簡彩仁2

　　（1.福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建福州 350116；2. 廈門大學(xué) 嘉庚學(xué)院，福建漳州 363105）

摘要：有效分類基因表達(dá)數(shù)據(jù)有助于癌癥的診斷，而基因表達(dá)數(shù)據(jù)的高維數(shù)、小樣本特點(diǎn)使基因表達(dá)數(shù)據(jù)分類困難。針對(duì)這個(gè)問題，在最小二乘回歸子空間分割算法中考慮距離信息，提出融入距離信息的最小二乘回歸子空間分割算法。融入距離信息的最小二乘回歸子空間分割模型除了考慮數(shù)據(jù)之間的相關(guān)性，還考慮了數(shù)據(jù)之間的距離信息。在基因表達(dá)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，所提出的算法是有效的聚類方法。

　　關(guān)鍵詞：基因表達(dá)數(shù)據(jù)；聚類；距離；子空間分割

0引言

　　基因表達(dá)數(shù)據(jù)的研究有助于準(zhǔn)確識(shí)別癌癥［1］，因此有效處理基因表達(dá)數(shù)據(jù)尤為重要。但基因表達(dá)數(shù)據(jù)小樣本、高維數(shù)［2］的特點(diǎn)令這項(xiàng)工作困難重重。近幾十年來，很多分類和聚類方法成功應(yīng)用在基因表達(dá)數(shù)據(jù)上，如凸非負(fù)矩陣分解（Convex Nonnegative Matrix Factorization，C_NMF）、半非負(fù)矩陣分解（Seminonnegative Matrix Factorization，S_NMF）［3］、基因數(shù)據(jù)分析半監(jiān)督學(xué)習(xí)［2］以及根據(jù)基因表達(dá)數(shù)據(jù)特點(diǎn)改進(jìn)的譜聚類算法［4］等。基因表達(dá)數(shù)據(jù)的聚類分為基因聚類、樣本聚類和雙向聚類［5］，本文對(duì)腫瘤基因表達(dá)數(shù)據(jù)樣本聚類。

　　子空間分割方法是近年流行的方法［6］，如稀疏子空間聚類SSC［7］、低秩表示子空間聚類LRR［8］、最小二乘回歸子空間聚類LSR［9］等，并成功用于圖像分割、圖像壓縮以及混合系統(tǒng)鑒定等領(lǐng)域［6］。子空間分割方法可使高維數(shù)據(jù)有效聚類，這適用于基因表達(dá)數(shù)據(jù)，因此本文將提出新的用于基因表達(dá)數(shù)據(jù)聚類的子空間分割方法。LSR使同類相關(guān)性強(qiáng)的樣本聚集，但沒考慮距離信息，針對(duì)這點(diǎn)，本文對(duì)LSR進(jìn)行改進(jìn)，融入距離信息，并將改進(jìn)后的模型應(yīng)用在基因表達(dá)數(shù)據(jù)中，通過與其他用于基因表達(dá)數(shù)據(jù)的聚類方法以及子空間分割算法進(jìn)行實(shí)驗(yàn)比較，證明本文方法是有效的。

1子空間分割

　　子空間聚類又稱子空間分割［6］，目標(biāo)是尋找多個(gè)低維子空間，將數(shù)據(jù)歸到相應(yīng)子空間中，數(shù)學(xué)定義為［6］：設(shè){xi∈Rd}ni=1是從k≥1個(gè)維數(shù)未知的子空間或仿射空間{Si}ki=1中采樣獲得的點(diǎn)集，各子空間維數(shù)為mi,0<mi<d，i=1,…,k。子空間描述為Si={x∈Rd:x=ui+Uiy},i=1,…,k,ui∈Rd是子空間Si的任意點(diǎn)（線性空間ui=0)，Ui∈Rd×mi是Si的一個(gè)基，y∈Rmi是x的低維表示。子空間聚類是找子空間個(gè)數(shù)k、維數(shù){mi}ki=1、基{Ui}ki=1、點(diǎn){ui}ki=1，并將點(diǎn)集分割到子空間中。

　　LSR［9］是基于譜聚類的子空間聚類方法，與其他基于譜聚類的方法一樣，先構(gòu)造仿射矩陣，再將譜聚類方法應(yīng)用在仿射矩陣上，模型為：

　　minZZF，s.t.X=XZ

　　噪聲的擴(kuò)展模型為：

　　minZX－XZ2F+λZ2F(1)

　　其中，λ>0，·F是F范數(shù)，參考文獻(xiàn)［9］給出式(1)的計(jì)算方法，并證明LSR有聚集性，是高效、魯棒的方法。

2融入距離信息的最小二乘回歸子空間分割

　　2.1樣本數(shù)據(jù)點(diǎn)的距離信息

　　由參考文獻(xiàn)［10］可知彼此間距離近的數(shù)據(jù)點(diǎn)更可能來自同一子空間，因此本文假設(shè)彼此間距離近的數(shù)據(jù)點(diǎn)可分配到更大的權(quán)重系數(shù)。設(shè)樣本集為{x1,x2,...,xn}，X∈Rd×n，xi∈Rd×1。根據(jù)上述假設(shè)，對(duì)于任意樣本xi，希望：

　　min∑nj=1xi－xj2zij

　　其中，zi∈Rn×1，zij是zi的第j個(gè)元素，矩陣形式為：

　　min Tr(ZΤD)(2)

　　其中，D為距離矩陣，xi－xj2是D的第i行的第j個(gè)元素，Z={z1,z2,…,zn}。

　　2.2融入距離信息的最小二乘回歸子空間分割模型

　　將式(2)與最小二乘回歸子空間分割模型相結(jié)合，得到融入距離信息的最小二乘回歸子空間分割模型為：

　　minZ12X－XZ2F+λ2Z2F+βTr(ZΤD)(3)

　　其中，λ>0、β>0是兩個(gè)可調(diào)節(jié)的參數(shù),·F表示F范數(shù)，Tr(·)表示跡。令：

　　對(duì)L(Z)求導(dǎo),并令其導(dǎo)數(shù)為0，即L=－XΤX+XΤXZ+λZ+βD=0，可得到式（3）的最優(yōu)解：Z*=(XTX+λI)－1(XTX－βD)。

　　通過(|Z*|+|(Z*)T|)/2構(gòu)造仿射矩陣，再用標(biāo)準(zhǔn)聚類方法（Normalized Cuts, Ncut）［11］分割彷射矩陣。融入距離信息的最小二乘回歸子空間分割(Subspace Segmentation via Least Squares Regression including Information about Distance, DLSR)算法如下：

　　輸入：數(shù)據(jù)矩陣X，類別數(shù)為k，參數(shù)β、λ

　　（1）解決問題式（3）得到解Z*；

　　（2）通過(|Z*|+|(Z*)T|)/2計(jì)算仿射矩陣；

　　（3）應(yīng)用Ncut方法將數(shù)據(jù)分成k個(gè)子空間。

　　輸出：聚類結(jié)果

3實(shí)驗(yàn)

　　本節(jié)在基因表達(dá)數(shù)據(jù)集上用聚類準(zhǔn)確率驗(yàn)證提出的DLSR，與本文方法比較的現(xiàn)有方法為：傳統(tǒng)聚類方法kmeans和層次聚類（Hierarchical Clustering, HC），子空間分割方法LRR［8］和LSR［9］，非負(fù)矩陣分解擴(kuò)展方法C_NMF和S_NMF［3］。

　　3.1數(shù)據(jù)集

　　實(shí)驗(yàn)使用公開基因表達(dá)數(shù)據(jù)集: 9_Tumor［12］、Brain_Tumor［13］、Leukemia［14］、Leukemia［13］、Leukemia［15］、DLBCL［13］，數(shù)據(jù)集信息如表1所示。表1數(shù)據(jù)集信息數(shù)據(jù)集診斷內(nèi)容樣本個(gè)數(shù)基因個(gè)數(shù)類別數(shù)9_Tumor人類腫瘤605 7269Brain_Tumor1腦癌1905 9205Leukemia白血病727 1292DLBCL彌漫性大B細(xì)胞淋巴瘤和

　　濾泡性淋巴瘤775 4692Leukemia1白血病1725 3273Leukemia2白血病28311 2253

　　3.2實(shí)驗(yàn)結(jié)果與分析

　　準(zhǔn)確率計(jì)算公式為：

　　其中，ri是得到的類標(biāo)簽；si是樣本本身的類標(biāo)簽；n為樣本數(shù)；map(ri)是將ri映射成與si等價(jià)的類標(biāo)簽；δ(x,y)是一個(gè)函數(shù)，δ(x,y)=1x=y

　　0x≠y。

　　實(shí)驗(yàn)中，DLSR、LSR、LRR都需設(shè)置參數(shù)，本文的參數(shù)選擇方法是讓參數(shù)取多個(gè)不同的值，實(shí)驗(yàn)時(shí)遍歷這些值，最后取使結(jié)果最好的值。DLSR還有另一個(gè)參數(shù)β，取值策略與λ相同。實(shí)驗(yàn)時(shí)，HC運(yùn)行一次，其余算法運(yùn)行10次，取準(zhǔn)確率的平均值，結(jié)果如表2所示。

　　6個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)表明，除Leukemia外，DLSR與其他方法相比，都取得較優(yōu)準(zhǔn)確率。kmeans雖然在Leukemia中準(zhǔn)確率最高，但在其余數(shù)據(jù)集中的結(jié)果并不都好。總的來說，DLSR還是優(yōu)于kmeans。因此，本文算法對(duì)基因表達(dá)數(shù)據(jù)的聚類更有效。

　　值得注意的是，DLSR優(yōu)于LSR，因此在LSR中融入距離信息，可以提供一定的額外信息，有利于提高算法聚類能力。

　　3.3參數(shù)選擇

　　DLSR模型有兩個(gè)參數(shù)β和λ。本節(jié)設(shè)置參數(shù)β的變化范圍為{0.002,0.004,0.01,0.04,0.6,0.7,1,100,10 000, 100 000}，參數(shù)λ的變化范圍為{0.005,0.01,0.05, 0.1,0.5,1,10,100,1 000}。圖1描述了這兩個(gè)參數(shù)變化對(duì)聚類準(zhǔn)確率的影響。平穩(wěn)的地方說明參數(shù)取在那部分時(shí)準(zhǔn)確率變化較穩(wěn)定。可看出DLSR對(duì)參數(shù)β和λ的選取都較敏感，聚類準(zhǔn)確率隨參數(shù)變化呈現(xiàn)出一定波動(dòng)。總體上看，參數(shù)β選在0.002~0.6范圍內(nèi)可找到較理想的聚類準(zhǔn)確率，參數(shù)λ選在0.05~10范圍內(nèi)可找到較好的聚類準(zhǔn)確率。

　　4結(jié)論

　　本文在最小二乘回歸子空間分割模型的基礎(chǔ)上，考慮距離信息，提出融入距離信息的最小二乘回歸子空間分割模型，并應(yīng)用在基因表達(dá)數(shù)據(jù)上。實(shí)驗(yàn)表明，對(duì)于給出的基因表達(dá)數(shù)據(jù)集，DLSR與子空間分割算法LRR、LSR以及原先用于基因表達(dá)數(shù)據(jù)的方法相比更有效。而且，在LSR的基礎(chǔ)上融入了距離信息，確實(shí)可提高聚類能力，對(duì)LSR有一定的優(yōu)化。但是介于參數(shù)的選取對(duì)實(shí)驗(yàn)結(jié)果較為敏感，如何高效地選取參數(shù)是今后要研究的問題。

參考文獻(xiàn)

　　［1］黃德雙. 基因表達(dá)譜數(shù)據(jù)挖掘方法研究［M］.北京：科學(xué)出版社, 2009.

　　［2］劉德山, 孫麗, 閆德勤. 一種基因數(shù)據(jù)分析的半監(jiān)督學(xué)習(xí)算法［J］. 微型機(jī)與應(yīng)用, 2014, 33(12): 4447.

　　［3］ DING C, Li Tao, JORDAN M. Convex and seminonnegative matrix factorizations［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(1): 4555.

　　［4］王俊生, 王年, 郭秀麗, 等. 基于 Normalized Cut 的基因表達(dá)數(shù)據(jù)聚類［J］. 安徽大學(xué)學(xué)報(bào)(自然科學(xué)版),2012, 36(4): 6872.

　　［5］ Jiang Daxin, Tang Chun, Zhang Aidong. Cluster analysis for gene expression data: a survey［J］. IEEE Transactions on Knowledge and Data Engineering, 2004, 16(11): 13701386.

　　［6］ VIDAL R. A tutorial on subspace clustering［J］. IEEE Signal Processing Magazine, 2010, 28(2): 5268.

　　［7］ ELHAMIFAR E, VIDAL R. Sparse subspace clustering［C］. IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2009, IEEE, 2009: 27902797.

　　［8］ Liu Guangcan, Lin Zhouchen, Yu Yong. Robust subspace segmentation by lowrank representation［C］. Proceedings of the 27th International Conference on Machine Learning (ICML10), 2010: 663670.

　　［9］ Lu Canyi, Min Hai, Zhao Zhongqiu, et al. Robust and efficient subspace segmentation via least squares regression［C］. European Conference on Computer Vision, ECCV 2012, 2012,7578(1): 347360.

　　［10］ Nie Feiping, Wang Xiaoqian, Huang Heng. Clustering and projected clustering with adaptive neighbors［C］. Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM, 2014: 977986.

　　［11］ Shi Jianbo, MALIK J. Normalized cuts and image segmentation［J］. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2000, 22(8): 888905.

　　［12］ STAUNTON J E, SLONIM D K, COLLER H A, et al. Chemosensitivity prediction by transcriptional profiling［J］. Proceedings of the National Academy of Sciences, 2001, 98(19): 1078710792.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容