蛋白質(zhì)結(jié)構(gòu)預測是生命科學領(lǐng)域的一大難題,。近日,來自哈佛大學醫(yī)學院的研究人員提出了一種基于氨基酸序列預測蛋白質(zhì)結(jié)構(gòu)的新方法,,準確率可媲美當前最佳方案,,但預測速度提升了100萬倍。
生命所必需的每一次基礎(chǔ)生物學進展幾乎都是由蛋白質(zhì)帶來的,。蛋白質(zhì)參與創(chuàng)建細胞和組織并保持著它們的形狀,;構(gòu)成維持生命所需化學反應的催化酶;充當分子工廠,、轉(zhuǎn)運工具和馬達,;充當細胞通訊的信號和接收器等等。
蛋白質(zhì)由很多氨基酸長鏈組成,,通過折疊成精確的 3D 結(jié)構(gòu)來完成無數(shù)的任務,,這些結(jié)構(gòu)控制著它們與其它分子互動的方式。蛋白質(zhì)的形狀決定了其功能以及它在疾病中的功能紊亂程度,。闡明蛋白質(zhì)的結(jié)構(gòu)是所有分子生物學的核心,,更是治療患者、拯救生命,、改變生活的醫(yī)學發(fā)展的核心,。
近年來,根據(jù)氨基酸序列預測蛋白質(zhì)折疊結(jié)構(gòu)方面的計算方法已經(jīng)取得了很大進展,。如果能夠充分實現(xiàn),,這些方法可能會改變生物醫(yī)學研究的方方面面,。然而,現(xiàn)在的方法在可測定的蛋白質(zhì)的大小和范圍上是有限的,。
最近,,哈佛大學醫(yī)學院 Blavatnik 研究所系統(tǒng)生物學家 Mohammed AlQuraishi 發(fā)布了一項新的研究,,他根據(jù)氨基酸序列,,利用深度學習實現(xiàn)了任意蛋白質(zhì) 3D 結(jié)構(gòu)的高效預測。在 4 月 17 日的 Cell Systems 期刊中,,Mohammed AlQuraishi 詳細介紹了這種通過計算確定蛋白質(zhì)結(jié)構(gòu)的新方法,,利用該方法實現(xiàn)的準確率可媲美當前最佳方案,但速度提高了 100 萬倍,。
論文:End-to-end differentiable learning of protein structure
論文地址:https://www.biorxiv.org/content/biorxiv/early/2018/08/29/265231.full.pdf
項目地址:https://github.com/aqlaboratory/rgn
原論文表 2:蛋白質(zhì)結(jié)構(gòu)預測方法的訓練和預測速度對比,。
如上所示,AlQuraishi 提出的循環(huán)幾何網(wǎng)絡(luò)在預測速度上快了 6 到 7 個數(shù)量級,。其中上表第一行是目前已經(jīng)建立起來的復雜方法,,這些方法嚴重依賴于模擬和采樣。第二行對應于協(xié)同演化(co-evolution)的方法,,它也會有一個學習過程,。最后一行就是作者提出的一種端到端的可微分方法。
「蛋白質(zhì)折疊是近半個世紀以來生物化學家研究的重要問題之一,,此次提出的方法為解決這一問題提供了全新的思路,,」AlQuraishi 說道?!脯F(xiàn)在我們有了一個探索蛋白質(zhì)折疊的全新方法,,我覺得我們現(xiàn)在的研究不過是冰山一角?!?/p>
AlQuraishi 研究的特點在于,,一名埋頭在哈佛醫(yī)學院和波士頓生物醫(yī)學社區(qū)豐富研究生態(tài)系統(tǒng)中的研究人員,居然能夠在計算機科學最熱門的領(lǐng)域里抗衡谷歌等巨頭,?!狿eter Sorger
說起來簡單
雖然成功率高,但利用物理工具來鑒別蛋白質(zhì)結(jié)構(gòu)的過程既昂貴又耗時,,即使是使用現(xiàn)代技術(shù)(如低溫電子顯微鏡)同樣如此,。因此,絕大多數(shù)蛋白質(zhì)結(jié)構(gòu)以及致病突變對這些結(jié)構(gòu)的影響目前仍是未知的,。
蛋白質(zhì)折疊方式的計算方法有可能大大降低確定蛋白質(zhì)結(jié)構(gòu)的成本和時間,。但經(jīng)過近四十年的不懈努力,這個難題仍未解決,。
可視化模擬 AlQuraishi 的蛋白質(zhì)折疊深度學習方法,。模型通過反復預測某個結(jié)構(gòu)(彩色)并將其預測與真實結(jié)構(gòu)(灰色)對比來實現(xiàn)自訓練,。對數(shù)千種已知蛋白質(zhì)重復此步驟,模型在每次迭代中都會學習并提高自己的準確率,。
蛋白質(zhì)由 20 種不同的氨基酸組成,。這些氨基酸就像字母表中的字母,組合成單詞,、句子,、段落,產(chǎn)生了無數(shù)種可能的文本,。然而,,與字母不同,氨基酸是位于 3D 空間的物理存在,。通常,,蛋白質(zhì)的各個部分在物理上非常接近,但在序列上卻相隔很遠,,因為其氨基酸鏈形成了環(huán),、螺旋、折疊等不同形狀,。
AlQuraishi 表示,,「這個問題引人注目的地方在于它說起來簡單:挑一個序列,想辦法弄清楚它的形狀就可以了,。蛋白質(zhì)從一個非結(jié)構(gòu)化的線開始,,必須呈現(xiàn) 3D 形狀,線可能折疊成的形狀有很多種,。許多蛋白質(zhì)有上千個氨基酸長,,其復雜性遠遠超過人類直覺甚至強大的計算機?!?/p>
做起來難
為了應對這一挑戰(zhàn),,科學家利用氨基酸的特點,即它會在物理法則的約束下相互作用,,從而尋找更具潛力的狀態(tài),。目前最先進的算法通過超級計算機或眾包計算來尋找蛋白質(zhì)結(jié)構(gòu),它們基本上都是在模擬極其復雜的氨基酸物理相互作用,。為了降低這些方法對大規(guī)模計算的需求,,它們依賴于將新序列映射到預定義的模板,且這些蛋白質(zhì)結(jié)構(gòu)模板都是之前通過實驗確定的,。
其它如 DeepMind 的 AlphaFold 則采用了另一種方法,,它利用深度學習進一步預測蛋白質(zhì)結(jié)構(gòu)。這類方法會分析大量的基因數(shù)據(jù),,其內(nèi)在包含了蛋白質(zhì)的設(shè)計藍圖,,目前受到了極大的關(guān)注,。
AlphaFold 是之前非常受關(guān)注的一項研究,它利用神經(jīng)網(wǎng)絡(luò)來預測氨基酸對之間的距離,,以及連接它們的化學鍵之間的角度,。AlphaFold 參加了 CASP 競賽,它首次參賽就在 98 名參賽者中名列榜首,,準確地從 43 種蛋白質(zhì)中預測出了 25 種蛋白質(zhì)的結(jié)構(gòu),,而同組比賽中獲得第二名的參賽者僅準確預測出了 3 種。
然而,,這些 AI 方法并不能僅基于蛋白質(zhì)的氨基酸序列預測結(jié)構(gòu),。這一點會限制 AlphaFold 等方法的能力,,因為在沒有先驗知識的情況下它們很難決定蛋白質(zhì)結(jié)構(gòu),,其在演化獨特的蛋白質(zhì)或手工設(shè)計新蛋白質(zhì)上能力有限。
針對這些問題,,AlQuraishi 主要從四個核心概念出發(fā)構(gòu)建新的解決方案,。首先我們應該要使用循環(huán)神經(jīng)網(wǎng)絡(luò)編碼蛋白質(zhì)序列;其次通過扭轉(zhuǎn)角度參數(shù)化局部蛋白質(zhì)的結(jié)構(gòu),,從而允許模型在不破壞共價化學性質(zhì)的情況下對各種結(jié)構(gòu)進行推理,;再者,我們還應該通過循環(huán)幾何單元耦合局部蛋白質(zhì)結(jié)構(gòu)和它的全局表征,;最后,,使用一種可微損失函數(shù)來捕捉預測結(jié)構(gòu)與實際結(jié)構(gòu)之間的差別。
端到端的可微分學習
為了開發(fā)新的方法,,AlQuraishi 應用了一種名為端到端的可微分深度學習方法,。本質(zhì)上而言,可微分學習涉及到一種單獨的強力數(shù)學函數(shù):神經(jīng)網(wǎng)絡(luò),,通過神經(jīng)元的前饋傳播與反向傳播,,可微分學習能逐漸學習到各種「專業(yè)知識」。
神經(jīng)網(wǎng)絡(luò)這種函數(shù)能在極其復雜的特征空間上調(diào)整自身,,以便精確地學習蛋白質(zhì)序列與其結(jié)構(gòu)之間的數(shù)學關(guān)系,。AlQuraishi 就構(gòu)建了一種名為循環(huán)幾何網(wǎng)絡(luò)(Recurrent Geometric Network)的深度學習模型,它側(cè)重建模蛋白質(zhì)折疊的關(guān)鍵特征,。
循環(huán)幾何網(wǎng)絡(luò)
模型輸入一個氨基酸序列和 PSSM(具體位置的評分矩陣)并輸出一個 3D 結(jié)構(gòu),。它由三個階段組成:計算、幾何建模和評估——因此將其稱為循環(huán)幾何網(wǎng)絡(luò)(RGN),。
第一階段由計算單元組成,,對于每個殘基位置(residue position),計算單元將關(guān)于氨基酸和 PSSM 的信息與來自相鄰單元的信息整合,。通過將這些單元放在循環(huán)雙向拓撲結(jié)構(gòu)中(圖 2),,對每個殘基的計算整合了從殘基上游和下游一直到 N-和 C-端的信息,,覆蓋了整個蛋白質(zhì)。
原論文圖 2:循環(huán)幾何網(wǎng)絡(luò)主要過程,。
第二階段由幾何單元組成,,該幾何單元輸入給定殘基的扭轉(zhuǎn)角和由其上游的幾何單元產(chǎn)生的部分完成的骨干,并輸出由一個殘基延伸的新骨干,,該骨干被輸入至相鄰的下游單元,。最后的單元輸出蛋白質(zhì)的完整 3D 結(jié)構(gòu)。
在模型訓練期間,,第三階段使用基于距離的均方根誤差(dRMSD)度量來計算預測結(jié)構(gòu)和實驗結(jié)構(gòu)之間的誤差,。dRMSD 首先計算預測結(jié)構(gòu)中所有原子和實驗結(jié)構(gòu)中所有原子的成對距離(分別計算),然后計算這些距離集合之間的均方根,。
如上展示了循環(huán)幾何網(wǎng)絡(luò)模型如何計算氨基酸之間鍵的角度以及這些鍵周圍的旋轉(zhuǎn)角,,獲取這兩個信息就可以采集蛋白質(zhì)結(jié)構(gòu)的幾何形狀。動畫:Mohammed AlQuraishi,。
對于每個氨基酸,,模型預測連接其與相鄰氨基酸的化學鍵最可能的角度。它還預測這些鍵周圍的旋轉(zhuǎn)角,,這影響了蛋白質(zhì)的任何局部在幾何上與整個結(jié)構(gòu)的關(guān)系,。
這個過程會重復進行,每次計算都需要使用和提煉所有其它氨基酸的相對位置信息,。一旦整個結(jié)構(gòu)完成,,模型會將預測結(jié)果與蛋白質(zhì)的「標注真值」結(jié)構(gòu)進行比較,以檢查其預測準確率,。
這整個過程在成千上萬種已知的蛋白質(zhì)中重復進行,,模型在每次迭代中學習并提升其準確率。
新的前景
一旦其模型訓練好,,AlQuraishi 會測試它的預測能力,,它們將該模型與近年來蛋白質(zhì)結(jié)構(gòu)預測關(guān)鍵評估(CASP)的其它方法進行了比較。CASP 是一個年度實驗,,它通過已經(jīng)確定但未公開的蛋白質(zhì)結(jié)構(gòu)測試各種預測方法的能力,。
他發(fā)現(xiàn)在沒有預先設(shè)計的模板時,新模型在預測蛋白質(zhì)結(jié)構(gòu)方面遠遠優(yōu)于其它方法,,包括使用協(xié)同演化數(shù)據(jù)的方法,。當預定義模板可用于預測時,新模型還是優(yōu)于最佳方法之外的其它方法,。
雖然提升并不大,,但這種方法表示了一類新的蛋白質(zhì)折疊預測方法,它與現(xiàn)有的方法是互補的關(guān)系。值得注意的是,,新模型的預測速度比現(xiàn)有計算方法快 6 到 7 個數(shù)量級,。訓練模型可能需要數(shù)月,但一旦訓練完成,,預測新蛋白質(zhì)結(jié)構(gòu)可以在幾毫秒內(nèi)完成,。這種加速在于深度網(wǎng)絡(luò)是一種獨立的數(shù)學函數(shù),它只需要幾千行代碼而不是數(shù)百萬行代碼就能完成,。
這種極速使得蛋白質(zhì)預測變得更加簡單,,以前無法想象的應用也都會慢慢冒出來。AlQuraishi 表示:「新模型還沒有立即用于新藥開發(fā)或設(shè)計,,因為它的準確度大約在 6 埃(一億分之一厘米)左右,,與解決蛋白質(zhì)原子結(jié)構(gòu)所需的 1 到 2 埃還有一定距離?!?/p>
但是在深度學習快速發(fā)展的今天,,這種方法將越來越強大,例如如何進一步整合化學和物理知識就值得我們認真探討,。也許以后的新藥開發(fā)成本會越來越低,,醫(yī)療費用也會越來越低。