摘 要: 對擬南芥的幼苗進行不同鹽濃度的處理,,然后提取株系的RNA進行RNA-SEQ分析,。為了能夠?qū)@些基因數(shù)據(jù)進行精確的分析,將對擬南芥幼苗的基因數(shù)據(jù)進行兩步處理,,首先對這些數(shù)據(jù)進行評估,,包括對這些數(shù)據(jù)進行極差歸一化,做直方圖,,使得對這些數(shù)據(jù)有大概的了解,;然后提出了改進的主成分分析法的基因分析算法。改進的主成分分析法不僅包含了原始基因數(shù)據(jù)的全部信息,,而且彌補了傳統(tǒng)主成分分析法的缺陷,,可以處理數(shù)據(jù)的非線性特征,還反映了數(shù)據(jù)間的變異信息,,使得數(shù)據(jù)的處理更加簡明,、準確。結(jié)果表明,,鹽脅迫對擬南芥DNA到RNA(即轉(zhuǎn)錄)的后期對RNA前體的加工方式?jīng)]有太大的影響,。
關(guān)鍵詞: 特征值;貢獻率,;標準化,;主成分分析法;極差歸一化
0 引言
在生物信息學(xué)中,,基因[1]和環(huán)境控制著生物的性狀,,為了研究基因?qū)ι锏挠绊懀葟臄M南芥的幼苗中提取出來基因,,然后對這些基因進行分析,。因為幼苗受到鹽脅迫的程度不同,所以基因的多變量問題會頻繁出現(xiàn),,一旦變量增多,,問題的復(fù)雜性和難度也會隨之增加,,在實際問題中,這些變量之間也具有一定的關(guān)系,。為了能夠從中選出少數(shù)的幾個指標,,使它們盡可能地包含原始變量的所有信息,又可以達到用較少的指標去體現(xiàn)原來基因的信息,,因此可以用主成分分析方法進行分析,,它能夠比較客觀地反映樣本間的現(xiàn)實關(guān)系。
1 擬南芥幼苗的處理和基因的提取
1.1 擬南芥幼苗的處理
?。?)對種子進行滅菌并且調(diào)制1/2MS培養(yǎng)基配方,。
(2)種完后,,用封口膜包好,,防止染菌。在4℃的冰箱中放置3天,,然后放到培養(yǎng)箱中豎直培養(yǎng)7天,,等長出2片真葉后,移到NaCl濃度為50 mM,、200 mM的1/2MS培養(yǎng)基上。
?。?)不作任何處理,,50 mM和200 mM鹽濃度處理植株的取材時間分別為7天、48 h和12 h,。
1.2 RNA的提取和RNA-SEQ檢測
對擬南芥幼苗進行3種條件處理:正常未處理(cd0),、50 mM鹽溶液處理(cd1)、200 mM鹽溶液[2]處理(cd5),。cd0取兩個株系,,即cd0WT1、cd0WT2,;cd1取3個株系:cd1WT0,、cd1WT1、cd1WT2,;cd5取3個株系cd5WT0,、cd5WT1、cd5WT2,。將上述株系提取它們的RNA送給公司進行RNA-SEQ數(shù)據(jù)分析,。
因為DNA到RNA(即轉(zhuǎn)錄)的后期對RNA前體的加工方式(即剪接方式)的不同而造成了不同的剪接本,所以幼苗表現(xiàn)的性狀會有所不同,。實驗對1 280條染色體上的基因進行了數(shù)據(jù)的分析,,下面選一條擬南芥第5條染色體上的基因AT5G43280對實驗做全面的概述,。AT5G43280這條基因匹配的數(shù)據(jù)最符合實驗生物最終結(jié)果,它有AT5G43280.1和AT5G43280.2兩種剪接本形式,。
將提取到的RNA通過技術(shù)轉(zhuǎn)換成cDNA,,這些cDNA被隨機打碎成90 bp的片段,將大批量的隨機打碎的片段(每個株系從192段到400片段不等)與AT5G43280.1和AT5G43280.2進行對比,,計算出僅與AT5G43280.1匹配的基因片段所占比率,、僅包含在AT5G43280.2的比率以及同時包含在這兩種基因的片段的比率,通過對數(shù)據(jù)進行分析做出數(shù)據(jù)的表格如表1所示,,極差歸一化和直方圖如圖1所示,。
表1中,0代表打亂的每一個90 bp與AT5G43280.1和AT5G43280.2都不匹配,;1代表只存在于AT5G43280.1的片段數(shù),;2代表只存在于AT5G43280.2的片段數(shù);3代表既包含在AT5G43280.1,,又存在于AT5G43280.2中的片段數(shù),。
從AT5G43280數(shù)據(jù)分析可以得出:對未處理的(cd0)的擬南芥DNA到RNA(即轉(zhuǎn)錄[3-4])的后期對RNA前體的加工方式大部分是AT5G43280.1剪接本形式,50 mM鹽處理(cd1),、200 mM鹽處理(cd5)的擬南芥DNA到RNA(即轉(zhuǎn)錄)的后期對RNA前體的加工方式大部分為AT5G43280.1剪接本形式,。通過對這些基因數(shù)據(jù)進行分析得出:鹽脅迫對擬南芥DNA到RNA(即轉(zhuǎn)錄)的后期對RNA前體的加工方式?jīng)]有太大的影響。
2 利用改進的主成分分析方法對基因數(shù)據(jù)再次進行分析
在實際應(yīng)用中,,為了消除變量量綱的影響,,往往對原始數(shù)據(jù)標準化,但是標準化在消除量綱或數(shù)量級影響的同時,,也抹殺了各指標變異程度的差異信息,。傳統(tǒng)的主成分分析法[5]基于相關(guān)系數(shù)矩陣進行數(shù)據(jù)標準化處理,將數(shù)據(jù)間方差化為1,,消除了數(shù)據(jù)量綱[6]和數(shù)據(jù)級影響的同時,,也忽略了數(shù)據(jù)指標間的變異程度。因此本文采用中心化對數(shù)比進行原始數(shù)據(jù)變換,。
2.1 改進的主成分分析方法步驟
?。?)假定有n個樣本,每個樣本共有p個變量,,構(gòu)成一個n×p階的數(shù)據(jù)矩陣X,。
(2)對數(shù)變換法
采用中心化對數(shù)比進行原始數(shù)據(jù)變換,,一是可以處理數(shù)據(jù)的非線性特征,,二是可以充分反映數(shù)據(jù)間的變異性信息。
yij=lnxij(1)
(3)求解主成分
求解主成分時可以從樣本協(xié)方差矩陣出發(fā),,也可以從樣本相關(guān)系數(shù)矩陣出發(fā),。
計算相關(guān)系數(shù)矩陣:
R=r11 r12 L r1pr21 r22 L r2pM M L Mrp1 rp2 L rpp
其中,rij(i,,j=1,,2,3,,…,,p)為變量yi與yj的相關(guān)系數(shù),rij=rji其計算公式為:
?。?)計算特征值[7]與特征向量
?、俳馓卣鞣匠蘾λI-R|=0,求出特征值,,并使其按大小順序排列(λ1≥λ2≥λ3…λP≥0),,分別求出對應(yīng)于特征值λi的特征向量。
?、谟嬎阒鞒煞重暙I率[8]及累計貢獻率,。
貢獻率:
累計貢獻率:
累積貢獻率[9]反映了前m個主成分綜合原始變量信息的能力,通常是取較小的m,,而且累積貢獻率自達到一定的數(shù)值(85%)時,,累積方差貢獻率越大,這就表示前面的幾個主成分包含的信息就越豐富,。對于含有m個主成分的數(shù)據(jù)來說,,每一個主成分都可以表示為:
fi=ei1z1+ei2z2+…+eizzp(i=1,2,,3,…,,m)
因此綜合評價為:
2.2 主成分的指標分成強,、中、弱三部分
在對基因的分析中發(fā)現(xiàn),,各列(指標)之間的相關(guān)性高低影響著評價指標權(quán)重系數(shù)的分配,,權(quán)重系數(shù)會明顯地傾向于相關(guān)系數(shù)較高的變量,不同的研究者使用的評價標準不同,,得到的結(jié)果也會有差距,。又因為在不同鹽濃度處理下幼苗提取的基因的數(shù)據(jù)量大,為了使最后得到的綜合評價函數(shù)能夠合理,,可以把主成分的指標分成強,、中、弱3部分,將相關(guān)性較強的指標分入到s1中,,相關(guān)性較弱的指標分入到s2,,剩下的分到相關(guān)性為中的s3中,s1+s2+s3=A(A為基因數(shù)據(jù)指標元素總體),,所以相關(guān)性較強的指標得到函數(shù)f11,,相關(guān)性為中的指標得到函數(shù)f22,相關(guān)性較弱的指標得到函數(shù)f33(在這3項中指標個數(shù)不一定相同),,最終的綜合函數(shù)為:F=f11+f22+f33,。
3 實例分析
實驗對擬南芥很多條染色體上面的基因作了研究,對從這些植株中提取的數(shù)據(jù)進行分析,,目的是探討用不同濃度的鹽處理擬南芥幼苗,,是否對DNA到RNA的轉(zhuǎn)錄方式有變化,導(dǎo)致擬南芥幼苗外形的變化,。
?。?)首先對這些數(shù)據(jù)采用中心化對數(shù)比進行原始數(shù)據(jù)變換,然后利用MATLAB求出數(shù)據(jù)的相關(guān)系數(shù)矩陣R:
從計算出的相關(guān)系數(shù)矩陣可以看出,,第1列,、第2列、第4列的相關(guān)性比較強,,第6列,、第7列、第8列的相關(guān)性為中,,第3列和第5列之間的相關(guān)性最弱,。根據(jù)相關(guān)性強弱將它們分到s1,s2,,s3中,。求出R的特征值、差值,、特征向量,、貢獻率和累積貢獻率,進而求得主成分與變量之間的關(guān)系如表2所示,。
第一主成分對所有主成分的貢獻率為76.389 5%,,而01所占的比重最大,因指標1表示由DNA到RNA的轉(zhuǎn)錄方式選擇的是第一種剪接本,,因此標準變化量為0,、1、3時,,這3個指標值比較大時,,第一主成分的貢獻率也就越大,。第二主成分對所有主成分的貢獻率為 17.155 0%,而2所占的比重比較大,,指標2表示的是DNA到RNA的轉(zhuǎn)錄方式選擇的是第二種剪接本,,因此標準變化量為0、1,、2,、7時,這4個指標值比較大,,第二主成分的貢獻率也就越大,。前兩個主成分的累積貢獻率達到了93.544 5%,因此可以只用前3個主成分進行后續(xù)的分析,,后面主成分對總體的貢獻率比較小,,分別為5.6%、0.6%和0.1%,,可以不對它們做出任何解釋,。
第一主成分分量的計算公式為:
f1=0.369 5z1+0.4z2+0.050 2z3+0.612 6z4-0.230 2 z6-0.522 2z8
第二主成分分量的計算公式為:
f2=0.336 9z1+0.248 8z2+0.666 8z3+0.139 0z4+0.253 1z6+0.544 6z8
綜合評價函數(shù)為:F=a1f1+a2f2+…+amfm
F=0.34z1+0.348 2z2+0.114 3z3+0.491 7z4-0.132 3z6-0.305 4z8
又因為把主成分的指標分為強、中,、弱3部分,,所以最終的綜合評價函數(shù)為F=f11+f22+f33。由f11=0.369 5z1+ 0.4z2+0.612 6z4,,f22=0.050 2z3,,f33=-0.230 2z6-0.522 2z8,可得:
F=0.369 5z1+0.4z2+0.050 2z3+0.612 6z4-0.230 2z6-0.522 2z8
由綜合函數(shù)可以得到,,s1中包含的指標0,、1、3的相關(guān)性較強,,改進的主成分分析方法使得相關(guān)性較強的集合更加明顯,,相關(guān)性較弱的集合相應(yīng)地減弱,更容易分析鹽脅迫對擬南芥基因的影響,。由于0,、1、3指標的意義,,明顯可以得到不同的鹽濃度下DNA到RNA的轉(zhuǎn)錄方式基本都是選擇第一種剪接本,擬南芥的幼苗在濃度越高的環(huán)境下生長的葉子黃而且小,,主要是外界環(huán)境的作用,,鹽濃度對基因的改變不大。
4 結(jié)論
主成分分析方法在很多領(lǐng)域得到廣泛的應(yīng)用,,一般來說,,當研究的問題涉及很多變量時,變量間相關(guān)性明顯,并且包含的信息有所重疊時,,可以考慮用主成分分析方法,。本文經(jīng)過對PCA進行改進,更容易抓住事物的主要矛盾,,使問題得到解決,,通過對擬南芥基因數(shù)據(jù)的分析,預(yù)測的結(jié)論和實驗得到的結(jié)果一致,。在實際的評價中,,應(yīng)當從樣本的客觀性出發(fā),兼顧主觀客觀兩方面,,分析不同的數(shù)據(jù)應(yīng)當使用不同的PCA改進方法,,以達到所需要的目的,并且能夠更加準確地分析數(shù)據(jù),。
參考文獻
[1] 王素平,,郭世榮,李璟,,等.鹽脅迫對黃瓜幼苗根系生長和水分利用的影響[J].應(yīng)用生態(tài)學(xué)報,,2006,17(10):1883-1888.
[2] 郭麗紅,,王定康,,楊曉虹,等.外源乙烯利對干旱脅迫過程中玉米幼苗某些抗逆生理指標的影響[J].云南大學(xué)學(xué)報(自然科學(xué)版),,2004,,26(4):352-356.
[3] SAKUMA Y, MARUYAMA K,, OSAKABE Y,, et al. Functional analysis of an Arabidopsis transcription factor, DREB2A,, involved in drought-responsive gene expression[J]. The Plant Cell Online,, 2006,18(5):1292-1309.
[4] SHINOZAKI K,, YAMAGUCHI-SHINOZAKI K. Gene networks involved in drought stress response and tolerance[J]. Journal of Experimental Botany,, 2007,58(2):221-227.
[5] 王正群,,鄒軍,,劉風(fēng).基于集成主成份分析的人臉識別[J].計算機應(yīng)用,2008,,28(1):120-124.
[6] 王曉偉,,閆德勤,,劉益含.基于隨機矩陣變換的快速PCA算法[J].微型機與應(yīng)用,2013,,32(20):83-86.
[7] 盛驟,,謝式千,潘承毅.概率論與數(shù)理統(tǒng)計(第4版)[M].北京:高等教育出版社,,2008.
[8] 馮德俊,,李永樹,蘭燕.基于主成分變換的動態(tài)監(jiān)測變化信息自動發(fā)現(xiàn)[J].計算機工程與應(yīng)用,,2004,,38(3):199-202.
[9] 趙鵬,白振興,,范文同.基于主成分分析的快速圖像匹配研究[J].電子技術(shù)應(yīng)用,,2010,4(11):132-134.