改進(jìn)的主成分分析法對(duì)擬南芥基因的分析-AET-電子技術(shù)應(yīng)用

改進(jìn)的主成分分析法對(duì)擬南芥基因的分析

2015年微型機(jī)與應(yīng)用第14期

代曉琳1，馬學(xué)強(qiáng)1，2，王甜甜2

（1.山東師范大學(xué) 信息科學(xué)與工程學(xué)院，山東濟(jì)南 250014； 2.山東省分布式計(jì)算機(jī)軟件新技術(shù)重點(diǎn)實(shí)驗(yàn)室，山東濟(jì)南 250014）

摘要： 對(duì)擬南芥的幼苗進(jìn)行不同鹽濃度的處理，然后提取株系的RNA進(jìn)行RNA-SEQ分析。為了能夠?qū)@些基因數(shù)據(jù)進(jìn)行精確的分析，將對(duì)擬南芥幼苗的基因數(shù)據(jù)進(jìn)行兩步處理，首先對(duì)這些數(shù)據(jù)進(jìn)行評(píng)估，包括對(duì)這些數(shù)據(jù)進(jìn)行極差歸一化，做直方圖，使得對(duì)這些數(shù)據(jù)有大概的了解；然后提出了改進(jìn)的主成分分析法的基因分析算法。改進(jìn)的主成分分析法不僅包含了原始基因數(shù)據(jù)的全部信息，而且彌補(bǔ)了傳統(tǒng)主成分分析法的缺陷，可以處理數(shù)據(jù)的非線性特征，還反映了數(shù)據(jù)間的變異信息，使得數(shù)據(jù)的處理更加簡(jiǎn)明、準(zhǔn)確。結(jié)果表明，鹽脅迫對(duì)擬南芥DNA到RNA（即轉(zhuǎn)錄）的后期對(duì)RNA前體的加工方式?jīng)]有太大的影響。

關(guān)鍵詞： 特征值貢獻(xiàn)率標(biāo)準(zhǔn)化主成分分析法極差歸一化

Abstract：

Key words :

　　摘要：對(duì)擬南芥的幼苗進(jìn)行不同鹽濃度的處理，然后提取株系的RNA進(jìn)行RNA-SEQ分析。為了能夠?qū)@些基因數(shù)據(jù)進(jìn)行精確的分析，將對(duì)擬南芥幼苗的基因數(shù)據(jù)進(jìn)行兩步處理，首先對(duì)這些數(shù)據(jù)進(jìn)行評(píng)估，包括對(duì)這些數(shù)據(jù)進(jìn)行極差歸一化，做直方圖，使得對(duì)這些數(shù)據(jù)有大概的了解；然后提出了改進(jìn)的主成分分析法的基因分析算法。改進(jìn)的主成分分析法不僅包含了原始基因數(shù)據(jù)的全部信息，而且彌補(bǔ)了傳統(tǒng)主成分分析法的缺陷，可以處理數(shù)據(jù)的非線性特征，還反映了數(shù)據(jù)間的變異信息，使得數(shù)據(jù)的處理更加簡(jiǎn)明、準(zhǔn)確。結(jié)果表明，鹽脅迫對(duì)擬南芥DNA到RNA（即轉(zhuǎn)錄）的后期對(duì)RNA前體的加工方式?jīng)]有太大的影響。

　　關(guān)鍵詞：特征值；貢獻(xiàn)率；標(biāo)準(zhǔn)化；主成分分析法；極差歸一化

0 引言

　　在生物信息學(xué)中，基因[1]和環(huán)境控制著生物的性狀，為了研究基因?qū)ι锏挠绊懀葟臄M南芥的幼苗中提取出來(lái)基因，然后對(duì)這些基因進(jìn)行分析。因?yàn)橛酌缡艿禁}脅迫的程度不同，所以基因的多變量問(wèn)題會(huì)頻繁出現(xiàn)，一旦變量增多，問(wèn)題的復(fù)雜性和難度也會(huì)隨之增加，在實(shí)際問(wèn)題中，這些變量之間也具有一定的關(guān)系。為了能夠從中選出少數(shù)的幾個(gè)指標(biāo)，使它們盡可能地包含原始變量的所有信息，又可以達(dá)到用較少的指標(biāo)去體現(xiàn)原來(lái)基因的信息，因此可以用主成分分析方法進(jìn)行分析，它能夠比較客觀地反映樣本間的現(xiàn)實(shí)關(guān)系。

1 擬南芥幼苗的處理和基因的提取

　　1.1 擬南芥幼苗的處理

　　（1）對(duì)種子進(jìn)行滅菌并且調(diào)制1/2MS培養(yǎng)基配方。

　　（2）種完后，用封口膜包好，防止染菌。在4℃的冰箱中放置3天，然后放到培養(yǎng)箱中豎直培養(yǎng)7天，等長(zhǎng)出2片真葉后，移到NaCl濃度為50 mM、200 mM的1/2MS培養(yǎng)基上。

　　（3）不作任何處理，50 mM和200 mM鹽濃度處理植株的取材時(shí)間分別為7天、48 h和12 h。

　　1.2 RNA的提取和RNA-SEQ檢測(cè)

　　對(duì)擬南芥幼苗進(jìn)行3種條件處理：正常未處理（cd0）、50 mM鹽溶液處理（cd1）、200 mM鹽溶液[2]處理（cd5）。cd0取兩個(gè)株系，即cd0WT1、cd0WT2；cd1取3個(gè)株系：cd1WT0、cd1WT1、cd1WT2；cd5取3個(gè)株系cd5WT0、cd5WT1、cd5WT2。將上述株系提取它們的RNA送給公司進(jìn)行RNA-SEQ數(shù)據(jù)分析。

　　因?yàn)镈NA到RNA（即轉(zhuǎn)錄）的后期對(duì)RNA前體的加工方式（即剪接方式）的不同而造成了不同的剪接本，所以幼苗表現(xiàn)的性狀會(huì)有所不同。實(shí)驗(yàn)對(duì)1 280條染色體上的基因進(jìn)行了數(shù)據(jù)的分析，下面選一條擬南芥第5條染色體上的基因AT5G43280對(duì)實(shí)驗(yàn)做全面的概述。AT5G43280這條基因匹配的數(shù)據(jù)最符合實(shí)驗(yàn)生物最終結(jié)果，它有AT5G43280.1和AT5G43280.2兩種剪接本形式。

　　將提取到的RNA通過(guò)技術(shù)轉(zhuǎn)換成cDNA，這些cDNA被隨機(jī)打碎成90 bp的片段，將大批量的隨機(jī)打碎的片段（每個(gè)株系從192段到400片段不等）與AT5G43280.1和AT5G43280.2進(jìn)行對(duì)比，計(jì)算出僅與AT5G43280.1匹配的基因片段所占比率、僅包含在AT5G43280.2的比率以及同時(shí)包含在這兩種基因的片段的比率，通過(guò)對(duì)數(shù)據(jù)進(jìn)行分析做出數(shù)據(jù)的表格如表1所示，極差歸一化和直方圖如圖1所示。

　　表1中，0代表打亂的每一個(gè)90 bp與AT5G43280.1和AT5G43280.2都不匹配；1代表只存在于AT5G43280.1的片段數(shù)；2代表只存在于AT5G43280.2的片段數(shù)；3代表既包含在AT5G43280.1，又存在于AT5G43280.2中的片段數(shù)。

　　從AT5G43280數(shù)據(jù)分析可以得出：對(duì)未處理的（cd0）的擬南芥DNA到RNA（即轉(zhuǎn)錄[3-4]）的后期對(duì)RNA前體的加工方式大部分是AT5G43280.1剪接本形式，50 mM鹽處理（cd1）、200 mM鹽處理（cd5）的擬南芥DNA到RNA（即轉(zhuǎn)錄）的后期對(duì)RNA前體的加工方式大部分為AT5G43280.1剪接本形式。通過(guò)對(duì)這些基因數(shù)據(jù)進(jìn)行分析得出：鹽脅迫對(duì)擬南芥DNA到RNA（即轉(zhuǎn)錄）的后期對(duì)RNA前體的加工方式?jīng)]有太大的影響。

2 利用改進(jìn)的主成分分析方法對(duì)基因數(shù)據(jù)再次進(jìn)行分析

　　在實(shí)際應(yīng)用中，為了消除變量量綱的影響，往往對(duì)原始數(shù)據(jù)標(biāo)準(zhǔn)化，但是標(biāo)準(zhǔn)化在消除量綱或數(shù)量級(jí)影響的同時(shí)，也抹殺了各指標(biāo)變異程度的差異信息。傳統(tǒng)的主成分分析法[5]基于相關(guān)系數(shù)矩陣進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理，將數(shù)據(jù)間方差化為1，消除了數(shù)據(jù)量綱[6]和數(shù)據(jù)級(jí)影響的同時(shí)，也忽略了數(shù)據(jù)指標(biāo)間的變異程度。因此本文采用中心化對(duì)數(shù)比進(jìn)行原始數(shù)據(jù)變換。

　　2.1 改進(jìn)的主成分分析方法步驟

　　（1）假定有n個(gè)樣本，每個(gè)樣本共有p個(gè)變量，構(gòu)成一個(gè)n×p階的數(shù)據(jù)矩陣X。

　　（2）對(duì)數(shù)變換法

　　采用中心化對(duì)數(shù)比進(jìn)行原始數(shù)據(jù)變換，一是可以處理數(shù)據(jù)的非線性特征，二是可以充分反映數(shù)據(jù)間的變異性信息。

　　yij=lnxij（1）

　　（3）求解主成分

　　求解主成分時(shí)可以從樣本協(xié)方差矩陣出發(fā)，也可以從樣本相關(guān)系數(shù)矩陣出發(fā)。

　　計(jì)算相關(guān)系數(shù)矩陣：

　　R=r11 r12 L r1pr21 r22 L r2pM M L Mrp1 rp2 L rpp

　　其中，rij（i，j=1，2，3，…，p）為變量yi與yj的相關(guān)系數(shù)，rij=rji其計(jì)算公式為：

　　（4）計(jì)算特征值[7]與特征向量

　　①解特征方程|λI-R|=0，求出特征值，并使其按大小順序排列（λ1≥λ2≥λ3…λP≥0），分別求出對(duì)應(yīng)于特征值λi的特征向量。

　　②計(jì)算主成分貢獻(xiàn)率[8]及累計(jì)貢獻(xiàn)率。

　　貢獻(xiàn)率：

　　累計(jì)貢獻(xiàn)率：

　　累積貢獻(xiàn)率[9]反映了前m個(gè)主成分綜合原始變量信息的能力，通常是取較小的m，而且累積貢獻(xiàn)率自達(dá)到一定的數(shù)值（85%）時(shí)，累積方差貢獻(xiàn)率越大，這就表示前面的幾個(gè)主成分包含的信息就越豐富。對(duì)于含有m個(gè)主成分的數(shù)據(jù)來(lái)說(shuō)，每一個(gè)主成分都可以表示為：

　　fi=ei1z1+ei2z2+…+eizzp（i=1，2，3，…，m）

　　因此綜合評(píng)價(jià)為：

　　 0@V$QK%$OG9@K[6_YJGMA(V.jpg

　　2.2 主成分的指標(biāo)分成強(qiáng)、中、弱三部分

　　在對(duì)基因的分析中發(fā)現(xiàn)，各列（指標(biāo)）之間的相關(guān)性高低影響著評(píng)價(jià)指標(biāo)權(quán)重系數(shù)的分配，權(quán)重系數(shù)會(huì)明顯地傾向于相關(guān)系數(shù)較高的變量，不同的研究者使用的評(píng)價(jià)標(biāo)準(zhǔn)不同，得到的結(jié)果也會(huì)有差距。又因?yàn)樵诓煌}濃度處理下幼苗提取的基因的數(shù)據(jù)量大，為了使最后得到的綜合評(píng)價(jià)函數(shù)能夠合理，可以把主成分的指標(biāo)分成強(qiáng)、中、弱3部分，將相關(guān)性較強(qiáng)的指標(biāo)分入到s1中，相關(guān)性較弱的指標(biāo)分入到s2，剩下的分到相關(guān)性為中的s3中，s1+s2+s3=A（A為基因數(shù)據(jù)指標(biāo)元素總體），所以相關(guān)性較強(qiáng)的指標(biāo)得到函數(shù)f11，相關(guān)性為中的指標(biāo)得到函數(shù)f22，相關(guān)性較弱的指標(biāo)得到函數(shù)f33（在這3項(xiàng)中指標(biāo)個(gè)數(shù)不一定相同），最終的綜合函數(shù)為：F=f11+f22+f33。

　　3 實(shí)例分析

　　實(shí)驗(yàn)對(duì)擬南芥很多條染色體上面的基因作了研究，對(duì)從這些植株中提取的數(shù)據(jù)進(jìn)行分析，目的是探討用不同濃度的鹽處理擬南芥幼苗，是否對(duì)DNA到RNA的轉(zhuǎn)錄方式有變化，導(dǎo)致擬南芥幼苗外形的變化。

　　（1）首先對(duì)這些數(shù)據(jù)采用中心化對(duì)數(shù)比進(jìn)行原始數(shù)據(jù)變換，然后利用MATLAB求出數(shù)據(jù)的相關(guān)系數(shù)矩陣R：

　　 )XH3[09SQ6}((NE98E7}4PP.png

從計(jì)算出的相關(guān)系數(shù)矩陣可以看出，第1列、第2列、第4列的相關(guān)性比較強(qiáng)，第6列、第7列、第8列的相關(guān)性為中，第3列和第5列之間的相關(guān)性最弱。根據(jù)相關(guān)性強(qiáng)弱將它們分到s1，s2，s3中。求出R的特征值、差值、特征向量、貢獻(xiàn)率和累積貢獻(xiàn)率，進(jìn)而求得主成分與變量之間的關(guān)系如表2所示。

　　第一主成分對(duì)所有主成分的貢獻(xiàn)率為76.389 5%，而01所占的比重最大，因指標(biāo)1表示由DNA到RNA的轉(zhuǎn)錄方式選擇的是第一種剪接本，因此標(biāo)準(zhǔn)變化量為0、1、3時(shí)，這3個(gè)指標(biāo)值比較大時(shí)，第一主成分的貢獻(xiàn)率也就越大。第二主成分對(duì)所有主成分的貢獻(xiàn)率為 17.155 0%，而2所占的比重比較大，指標(biāo)2表示的是DNA到RNA的轉(zhuǎn)錄方式選擇的是第二種剪接本，因此標(biāo)準(zhǔn)變化量為0、1、2、7時(shí)，這4個(gè)指標(biāo)值比較大，第二主成分的貢獻(xiàn)率也就越大。前兩個(gè)主成分的累積貢獻(xiàn)率達(dá)到了93.544 5%，因此可以只用前3個(gè)主成分進(jìn)行后續(xù)的分析，后面主成分對(duì)總體的貢獻(xiàn)率比較小，分別為5.6%、0.6%和0.1%，可以不對(duì)它們做出任何解釋。

　　第一主成分分量的計(jì)算公式為：

　　f1=0.369 5z1+0.4z2+0.050 2z3+0.612 6z4-0.230 2 z6-0.522 2z8

　　第二主成分分量的計(jì)算公式為：

　　f2=0.336 9z1+0.248 8z2+0.666 8z3+0.139 0z4+0.253 1z6+0.544 6z8

　　綜合評(píng)價(jià)函數(shù)為：F=a1f1+a2f2+…+amfm

　　F=0.34z1+0.348 2z2+0.114 3z3+0.491 7z4-0.132 3z6-0.305 4z8

　　又因?yàn)榘阎鞒煞值闹笜?biāo)分為強(qiáng)、中、弱3部分，所以最終的綜合評(píng)價(jià)函數(shù)為F=f11+f22+f33。由f11=0.369 5z1+ 0.4z2+0.612 6z4，f22=0.050 2z3，f33=-0.230 2z6-0.522 2z8，可得：

　　F=0.369 5z1+0.4z2+0.050 2z3+0.612 6z4-0.230 2z6-0.522 2z8

　　由綜合函數(shù)可以得到，s1中包含的指標(biāo)0、1、3的相關(guān)性較強(qiáng)，改進(jìn)的主成分分析方法使得相關(guān)性較強(qiáng)的集合更加明顯，相關(guān)性較弱的集合相應(yīng)地減弱，更容易分析鹽脅迫對(duì)擬南芥基因的影響。由于0、1、3指標(biāo)的意義，明顯可以得到不同的鹽濃度下DNA到RNA的轉(zhuǎn)錄方式基本都是選擇第一種剪接本，擬南芥的幼苗在濃度越高的環(huán)境下生長(zhǎng)的葉子黃而且小，主要是外界環(huán)境的作用，鹽濃度對(duì)基因的改變不大。

4 結(jié)論

　　主成分分析方法在很多領(lǐng)域得到廣泛的應(yīng)用，一般來(lái)說(shuō)，當(dāng)研究的問(wèn)題涉及很多變量時(shí)，變量間相關(guān)性明顯，并且包含的信息有所重疊時(shí)，可以考慮用主成分分析方法。本文經(jīng)過(guò)對(duì)PCA進(jìn)行改進(jìn)，更容易抓住事物的主要矛盾，使問(wèn)題得到解決，通過(guò)對(duì)擬南芥基因數(shù)據(jù)的分析，預(yù)測(cè)的結(jié)論和實(shí)驗(yàn)得到的結(jié)果一致。在實(shí)際的評(píng)價(jià)中，應(yīng)當(dāng)從樣本的客觀性出發(fā)，兼顧主觀客觀兩方面，分析不同的數(shù)據(jù)應(yīng)當(dāng)使用不同的PCA改進(jìn)方法，以達(dá)到所需要的目的，并且能夠更加準(zhǔn)確地分析數(shù)據(jù)。

參考文獻(xiàn)

　　[1] 王素平，郭世榮，李璟，等.鹽脅迫對(duì)黃瓜幼苗根系生長(zhǎng)和水分利用的影響[J].應(yīng)用生態(tài)學(xué)報(bào)，2006，17（10）：1883-1888.

　　[2] 郭麗紅，王定康，楊曉虹，等.外源乙烯利對(duì)干旱脅迫過(guò)程中玉米幼苗某些抗逆生理指標(biāo)的影響[J].云南大學(xué)學(xué)報(bào)（自然科學(xué)版），2004，26（4）：352-356.

　　[3] SAKUMA Y， MARUYAMA K， OSAKABE Y， et al. Functional analysis of an Arabidopsis transcription factor， DREB2A， involved in drought-responsive gene expression[J]. The Plant Cell Online， 2006，18（5）：1292-1309.

　　[4] SHINOZAKI K， YAMAGUCHI-SHINOZAKI K. Gene networks involved in drought stress response and tolerance[J]. Journal of Experimental Botany， 2007，58（2）：221-227.

　　[5] 王正群，鄒軍，劉風(fēng).基于集成主成份分析的人臉識(shí)別[J].計(jì)算機(jī)應(yīng)用，2008，28（1）：120-124.

　　[6] 王曉偉，閆德勤，劉益含.基于隨機(jī)矩陣變換的快速PCA算法[J].微型機(jī)與應(yīng)用，2013，32（20）：83-86.

　　[7] 盛驟，謝式千，潘承毅.概率論與數(shù)理統(tǒng)計(jì)（第4版）[M].北京：高等教育出版社，2008.

　　[8] 馮德俊，李永樹(shù)，蘭燕.基于主成分變換的動(dòng)態(tài)監(jiān)測(cè)變化信息自動(dòng)發(fā)現(xiàn)[J].計(jì)算機(jī)工程與應(yīng)用，2004，38（3）：199-202.

　　[9] 趙鵬，白振興，范文同.基于主成分分析的快速圖像匹配研究[J].電子技術(shù)應(yīng)用，2010，4（11）：132-134.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容