中文引用格式: 楊波,,徐勝超,,周繼鵬,等. 一種基于Yarn云平臺的基因啟發(fā)式多序列比對算法[J]. 電子技術(shù)應(yīng)用,,2024,,50(11):16-22.
英文引用格式: Yang Bo,Xu Shengchao,,Zhou Jipeng,,et al. Gene heuristic multi sequence alignment algorithm based on Yarn cloud platform[J]. Application of Electronic Technique,2024,,50(11):16-22.
引言
生物序列對比是生物信息學(xué)領(lǐng)域的核心內(nèi)容。由于不同物種的基因序列長度不同,,大量的重復(fù)序列高頻率出現(xiàn)在每個物種的基因組中,,因此每個物種都有一個多序列比對問題。最重要的工作是建立基因數(shù)據(jù)庫,,在基因數(shù)據(jù)庫的建立過程中,,對于基因啟發(fā)式的多序列比對研究是重中之重。在比對的過程中,,通過比較不同物種或同一物種不同基因的DNA序列,,基因啟發(fā)式多序列比對算法有助于理解基因的進化歷史、功能和結(jié)構(gòu),,通過比對多個基因序列的相似性和差異性,,可以推斷出這些物種之間的進化關(guān)系,從而了解物種之間是否有親緣關(guān)系和演化到目前為止的歷程?;騿l(fā)式多序列比對算法可以找出多個基因序列之間的共同結(jié)構(gòu)和功能區(qū)域,,這有助于預(yù)測新的基因功能,為藥物設(shè)計和疾病治療提供重要信息,??傊騿l(fā)式多序列對比算法可以揭示基因的多種特點和規(guī)律,,為生物學(xué),、醫(yī)學(xué)和農(nóng)業(yè)等領(lǐng)域的研究提供重要支持。
國內(nèi)外眾多學(xué)者都對基因比對算法有著深入研究,。文獻[1]提出了一種基于序列長度的高效多序列比對算法,,該算法首先根據(jù)基因序列的長度將其劃分為若干段,然后對每個分段排序,,并與原始序列比對,。文獻[2]介紹了一種基于時間窗的DNA序列分段方法,該方法的核心步驟是將DNA序列依據(jù)其長度切割成多個區(qū)間,,并對這些區(qū)間逐一比較分析,。而文獻[3]則側(cè)重于基因序列比對原理的探討,通過引入Logistic映射對混沌遺傳算法的優(yōu)化,,有效提升了算法的收斂速度,。在算法設(shè)計中,它明確了基因序列的遺傳編碼方式,,并計算了相應(yīng)的適應(yīng)度值,,同時考慮了堿基缺失情況的影響。此外,,文中還設(shè)計了混沌遺傳算子,,實施了混沌變異操作,從而實現(xiàn)了基因序列的比對,。文獻[4]則提出了一種基于啟發(fā)式策略的多序列比對算法,。該算法首先利用啟發(fā)式策略對多個基因排序,然后將所有排序后的結(jié)果比對,。然而,,DNA序列比對算法在實踐中也面臨一些挑戰(zhàn)。由于DNA序列通常較長且序列間重疊率高,,傳統(tǒng)的比對算法往往耗時較長,。同時,由于DNA序列的穩(wěn)定性以及比對結(jié)果的單一性,,基因數(shù)據(jù)信息在比對過程中損失較大,,這在一定程度上影響了比對的準(zhǔn)確性。因此,如何快速且準(zhǔn)確地完成多個基因的比對,,成為當(dāng)前亟待解決的問題[5-8],。
云平臺能夠共享龐大的計算資源,并以服務(wù)的形式提供給用戶,,讓用戶能夠按需靈活使用,。Yarn云平臺是云計算Apache Hadoop2.0生態(tài)系統(tǒng)中的一個關(guān)鍵組件,是用于資源管理和作業(yè)調(diào)度的分布式計算框架,。利用Yarn在云環(huán)境中提供資源分配,、作業(yè)調(diào)度和容錯能力,使用戶能夠高效地利用云計算提供的計算能力,。本文提出了一種基于Yarn云平臺的基因啟發(fā)式多序列比對算法,旨在提高比對效率和準(zhǔn)確性,。結(jié)合生物知識建立基因啟發(fā)式數(shù)學(xué)模型,,構(gòu)建Yarn云平臺邏輯架構(gòu),針對處理后的數(shù)據(jù)并行計算,,提高處理效率,,利用HBase數(shù)據(jù)庫和基因段編碼模塊對數(shù)據(jù)的存儲和處理,將序列比對的結(jié)果展示在數(shù)據(jù)庫中,。通過實驗結(jié)果可知,,本文的方法運行時間較短且SP分值高于0.9,具有良好的應(yīng)用性能,。
本文詳細內(nèi)容請下載:
http://forexkbc.com/resource/share/2000006204
作者信息:
楊波1,,徐勝超1,周繼鵬2,,王志堅1
(1.廣州華商學(xué)院 人工智能學(xué)院,, 廣東 廣州511300;
2.暨南大學(xué) 信息科學(xué)技術(shù)學(xué)院,, 廣東 廣州510632)