搜索關(guān)鍵詞「AI、診斷」,,微信上出現(xiàn)一大堆關(guān)于 AI 醫(yī)療的文章,,從失明到肺病再到癌癥,AI 似乎無(wú)所不能,。前不久,,來(lái)自北卡羅來(lái)納大學(xué)埃謝爾曼藥學(xué)院的一個(gè)團(tuán)隊(duì)創(chuàng)造了一種人工智能方法 ReLeaSE,能夠從零開(kāi)始自學(xué)設(shè)計(jì)新型藥物分子,。近日,,該研究已被發(fā)表在 Science Advances 上。
生成具備期望屬性的新型化合物 SMILES 字符串的深度強(qiáng)化學(xué)習(xí)算法工作流程,。(A) 生成 Stack-RNN 的訓(xùn)練步,。(B) 生成 Stack-RNN 的生成器步驟。在訓(xùn)練過(guò)程中,,輸入 token 是一個(gè)當(dāng)前處理的簡(jiǎn)化分子線(xiàn)性輸入系統(tǒng)(SMILES)字符串(來(lái)自訓(xùn)練集)中的一個(gè)字符,。該模型根據(jù)前綴(prefix)輸出下一個(gè)字符的概率向量 pΘ(a_t|s_t ? 1),。參數(shù) Θ 的向量通過(guò)交叉熵?fù)p失函數(shù)最小化進(jìn)行優(yōu)化。在生成器步驟中,,輸入 token 是前一步生成的字符,。然后從分布 pΘ(a_t| s_t ? 1) 中隨機(jī)采樣字符 a_t。(C) 生成新型化合物的強(qiáng)化學(xué)習(xí)系統(tǒng)的一般流程,。(D) 預(yù)測(cè)模型機(jī)制,。該模型將 SMILES 字符串作為輸入,然后提供一個(gè)實(shí)數(shù)(即估計(jì)屬性值)作為輸出,。該模型的參數(shù)使用 l2 平方損失函數(shù)最小化進(jìn)行訓(xùn)練,。Credit: Science Advances (2018). DOI: 10.1126/sciadv.aap7885
北卡羅來(lái)納大學(xué)埃謝爾曼藥學(xué)院(UNC Eshelman School of Pharmacy)創(chuàng)造的人工智能方法能夠從零開(kāi)始自學(xué)設(shè)計(jì)新型藥物分子,這有望大幅加快新型藥物的研發(fā)速度,。
該系統(tǒng)名為「結(jié)構(gòu)進(jìn)化強(qiáng)化學(xué)習(xí)」(Reinforcement Learning for Structural Evolution),,又稱(chēng) ReLeaSE。ReLeaSE 既是一種算法,,也是一種計(jì)算機(jī)程序,,它將兩種神經(jīng)網(wǎng)絡(luò)合二為一,二者可被分別視為老師和學(xué)生,。老師了解大約 170 萬(wàn)種已知生物活性分子化學(xué)結(jié)構(gòu)詞匯背后的句法和語(yǔ)言規(guī)則,。通過(guò)與老師合作,學(xué)生逐漸學(xué)習(xí)并提高自己的能力,,創(chuàng)造有望作為新藥使用的分子,。
ReLeaSE 的創(chuàng)造者 Alexander Tropsha、Olexandr Isayev 和 Mariya Popova 均來(lái)自 UNC 埃謝爾曼藥學(xué)院,。UNC 已經(jīng)為該技術(shù)申請(qǐng)了專(zhuān)利,,該團(tuán)隊(duì)上周在 Science Advances 上發(fā)表了一份概念驗(yàn)證性研究。
「這一過(guò)程可以借鑒語(yǔ)言學(xué)習(xí)過(guò)程來(lái)描述:學(xué)生掌握分子字母表及語(yǔ)言規(guī)則之后,,他們就能自己創(chuàng)造新『詞』(也就是新分子),。」Tropsha 說(shuō),,「如果新分子實(shí)用且達(dá)到預(yù)期效果,,老師就會(huì)批準(zhǔn)。反之,,老師就會(huì)否決,,強(qiáng)制學(xué)生避開(kāi)糟糕的分子并去創(chuàng)造有用的分子?!?/p>
ReLeaSE 是一種強(qiáng)大的藥物虛擬篩選工具,,這種計(jì)算方法已經(jīng)被制藥業(yè)廣泛用于確定可用的候選藥物。虛擬篩選讓科學(xué)家可以評(píng)估現(xiàn)有的大型化學(xué)庫(kù),,但該方法只對(duì)已知的化學(xué)物質(zhì)有效,。而 ReLeaSE 具備獨(dú)特的能力,,可以創(chuàng)建和評(píng)估新型分子。
「使用虛擬篩選的科學(xué)家就像餐館中點(diǎn)菜的顧客那樣,,能點(diǎn)的菜通常僅限于菜單上有的,。」Isayev 說(shuō)道,,「我們想為科學(xué)家提供一個(gè)『雜貨店』和『個(gè)人廚師』,,做出任何他們想要的菜式?!?/p>
該團(tuán)隊(duì)利用 ReLeaSE 生成具有他們指定特性(如生物活性和安全性)的分子,,還可以使用該方法設(shè)計(jì)具有定制物理特性(如熔點(diǎn)、水溶性)的分子,,以及設(shè)計(jì)對(duì)白血病相關(guān)酶具有抑制活性的新型化合物,。
Tropsha 稱(chēng):「對(duì)于一個(gè)需要不斷尋找新方法來(lái)縮短新藥進(jìn)入臨床試驗(yàn)所需時(shí)間的行業(yè)來(lái)說(shuō),該算法極具吸引力,,因?yàn)樗茉O(shè)計(jì)出具有特定生物活性和最佳安全性的新化學(xué)實(shí)體?!?/p>
論文:Deep reinforcement learning for de novo drug design
論文鏈接:http://advances.sciencemag.org/content/4/7/eaap7885/tab-pdf
摘要:我們?cè)O(shè)計(jì)并實(shí)現(xiàn)了一種新的計(jì)算策略,,用于從零開(kāi)始設(shè)計(jì)具有期望屬性的分子,稱(chēng)為ReLeaSE(Reinforcement Learning for Structural Evolution,,結(jié)構(gòu)進(jìn)化強(qiáng)化學(xué)習(xí)),。基于深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)方法,,ReLeaSE集成了兩個(gè)深度神經(jīng)網(wǎng)絡(luò)——生成和預(yù)測(cè)神經(jīng)網(wǎng)絡(luò),,這兩個(gè)神經(jīng)網(wǎng)絡(luò)被單獨(dú)訓(xùn)練,但都用于生成新的目標(biāo)化學(xué)庫(kù),。ReLeaSE僅使用簡(jiǎn)化分子線(xiàn)性輸入系統(tǒng)(SMILES)字符串來(lái)表示分子,。生成模型通過(guò)堆棧增強(qiáng)的記憶網(wǎng)絡(luò)來(lái)訓(xùn)練,以產(chǎn)生化學(xué)上可行的SMILES字符串,,預(yù)測(cè)模型則用來(lái)預(yù)測(cè)新生成化合物的期望屬性,。在該方法的第一階段,使用監(jiān)督學(xué)習(xí)算法分別訓(xùn)練生成模型和預(yù)測(cè)模型,。在第二階段,,兩種模型使用RL方法一起訓(xùn)練,以偏向于產(chǎn)生具有所需物理和/或生物特性的新化學(xué)結(jié)構(gòu),。在該概念驗(yàn)證研究中,,我們使用ReLeaSE方法設(shè)計(jì)化學(xué)庫(kù),該化學(xué)庫(kù)偏向于結(jié)構(gòu)復(fù)雜性,,偏向于具有最大,、最小或特定物理屬性范圍的化合物,,如熔點(diǎn)或疏水性,或者偏向于對(duì)Janus蛋白激酶2具有抑制活性的化合物,。本文提出的方法可用于找到產(chǎn)生對(duì)單一或多個(gè)期望屬性進(jìn)行優(yōu)化了的新化合物的目標(biāo)化學(xué)庫(kù),。