在材料領(lǐng)域,,機(jī)器學(xué)習(xí)技術(shù)經(jīng)常被用于特性預(yù)測(cè),,學(xué)到一個(gè)函數(shù)能繪制出符合選擇特性的分子材料,。而近日哈佛大學(xué)與多倫多大學(xué)的研究者在Science上發(fā)表了一篇關(guān)于新材料設(shè)計(jì)的論文,,該論文將深度生成模型引入反演設(shè)計(jì),從而合成有機(jī)物甚至設(shè)計(jì)新型藥物,。
論文:Inverse molecular design using machine learning: Generative models for matter engineering
論文地址:http://science.sciencemag.org/content/361/6400/360
摘要:新材料的發(fā)現(xiàn)能為社會(huì)與科技發(fā)展帶來(lái)巨大進(jìn)步。當(dāng)今環(huán)境下,,全面探索潛在材料空間在計(jì)算方面非常困難,。在這篇文章中,我們回顧了反演設(shè)計(jì)方法(inverse design)——一種以特定預(yù)期功能為起點(diǎn)發(fā)現(xiàn)專門材料的方法,。近期人工智能領(lǐng)域的快速發(fā)展,,特別是機(jī)器學(xué)習(xí)的子領(lǐng)域深度學(xué)習(xí)的發(fā)展,,帶來(lái)了思維轉(zhuǎn)變,提出了反演分子設(shè)計(jì)的方法且快速得以利用,。其中,,深度生成模型被應(yīng)用到了大量材料類別上:新型藥物的合理設(shè)計(jì)、有機(jī)化合物合成,、太陽(yáng)光電與液流電池優(yōu)化以及多種固態(tài)材料等,。
介紹
從個(gè)性化醫(yī)療到能源生產(chǎn)與存儲(chǔ),21 世紀(jì)的許多挑戰(zhàn)都存在一個(gè)共同主題:材料永遠(yuǎn)是解決方案的一部分,。有時(shí),,這些問(wèn)題的解決方案都受限于材料的物化特性,例如材料帶隙(materials bandgap)關(guān)系對(duì)太陽(yáng)能發(fā)電的限制,。
先前,,重大材料的發(fā)現(xiàn)都是科學(xué)家偶然間或者多次試驗(yàn)得到的。例如,,人們觀察到用硫等添加劑加熱可以提高橡膠的耐用性,,于是在 19 世紀(jì)從其混合物中制造了硫化橡膠。在分子層面,,單個(gè)高分子鏈交叉結(jié)合,,形成的新鏈在宏觀力學(xué)特性上得到增強(qiáng)。其他值得一提的例子像聚四氟乙烯,、麻醉劑,、凡士林、苯胺紫,、盤尼西林也都是通過(guò)這種形式得到的,。此外,這些材料來(lái)自于天然的化學(xué)成分,。其他潛在藥物要么是在化學(xué)實(shí)驗(yàn)室中合成的,,要么是從植物、土壤細(xì)菌或者真菌中提取出來(lái)的,。例如,,直到 2014 年,49% 的小分子抗癌藥物都是天然化合物或者是天然化合物的衍生物,。
未來(lái),,物質(zhì)發(fā)現(xiàn)的爆炸性進(jìn)展來(lái)自于所有可能的分子和固態(tài)化合物集合中未開發(fā)的區(qū)域,即化學(xué)空間,。其中最大的一個(gè)分子集合——化學(xué)空間計(jì)劃——已經(jīng)繪制了 1664 億個(gè)分子,,至多包含 17 個(gè)重原子。其中與藥理學(xué)相關(guān)的小分子,結(jié)構(gòu)數(shù)量據(jù)估計(jì)約為 1060 個(gè),??紤]到從亞納米到微觀到介觀(mesoscopic)的尺度層級(jí),對(duì)化學(xué)空間的探索整體上變得復(fù)雜,。因此,,任何想要覆蓋這一空間的全局策略看起來(lái)都無(wú)法實(shí)現(xiàn)。模擬為在不做實(shí)驗(yàn)的情況下探索這一空間提供了可能,。這些分子的物化特性都由量子力學(xué)掌控,,也就是可通過(guò)薛定諤方程式求解來(lái)達(dá)到精確。但在實(shí)際中,,常通過(guò)損失部分準(zhǔn)確率的近似法來(lái)減少計(jì)算時(shí)間,。
盡管理論上有了巨大進(jìn)步,但如今以常規(guī)方法建模分子,、群集以及含缺陷的周期性固體,,化學(xué)空間依然龐大無(wú)比,且需要智能導(dǎo)航,。有鑒于此,,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)以及人工智能非常有潛力,,因?yàn)樗鼈兊挠?jì)算策略是通過(guò)經(jīng)驗(yàn)自動(dòng)改進(jìn)的,。在材料領(lǐng)域,機(jī)器學(xué)習(xí)技術(shù)經(jīng)常被用于特性預(yù)測(cè),,學(xué)到一個(gè)函數(shù)能繪制出符合選擇特性的分子材料,。深度生成模型是深度學(xué)習(xí)方法的一種,能以非線性的方式建模結(jié)構(gòu)與特征以及與它們相關(guān)的潛在可能性分布,。通過(guò)利用大量數(shù)據(jù)中的模式,,這些模型能提取表現(xiàn)分子特性的平均的、顯著的特征,。
反演設(shè)計(jì)是發(fā)現(xiàn)復(fù)雜材料過(guò)程的一部分,。從在實(shí)驗(yàn)室發(fā)現(xiàn)到形成商業(yè)產(chǎn)品,新技術(shù)的部署周期一般是 15-20 年,。依照慣例,,這一過(guò)程(下圖 1)涉及到以下步驟:(i) 生成全新的或者改進(jìn)材料概念并模擬其潛在適用性;(ii) 合成材料,;(iii) 把材料組合成設(shè)備或者系統(tǒng),; (iv) 表現(xiàn)并測(cè)量其預(yù)期特性。這一周期生成反饋,,不斷重復(fù),、改進(jìn),、精煉,。每個(gè)步驟都可能花費(fèi)數(shù)年,。
圖 1:材料發(fā)現(xiàn)范式的對(duì)比圖解。當(dāng)前范式如左圖所示,,用有機(jī)液流電池作為示例,。閉環(huán)范式如右圖所示。完成這一閉環(huán)需要融合反演設(shè)計(jì),、智能軟件,、AI/ML、嵌入式系統(tǒng)和機(jī)器人,,組成一個(gè)融合的生態(tài)系統(tǒng),。圖:K. HOLOSKI 編輯。
在物質(zhì)工程的時(shí)代,,科學(xué)家們?cè)噲D加速這一閉環(huán),,減少每一步所需要的時(shí)間。最終目標(biāo)是兼顧提出,、創(chuàng)造,、特征化新材料,每部分構(gòu)成都能同時(shí)傳送,、接收數(shù)據(jù),。這一過(guò)程被稱為「閉環(huán)」(closing the loop),且反演設(shè)計(jì)是重要的組成,。
反演設(shè)計(jì)
圖 2:不同分子設(shè)計(jì)方法圖解,。反演設(shè)計(jì)始于期望分子特性,終于化學(xué)空間,,這不同于從化學(xué)空間到分子特性的直接方法,。圖:K. HOLOSKI 編輯。
分子表征
圖 3:應(yīng)用于 AQDS 分子的不同類型分子表征,,這種分子被用于構(gòu)建有機(jī)液流電池,。從最上面順時(shí)針來(lái)看:(1)量化分子環(huán)境的出現(xiàn)和缺失的指紋向量;(2)使用簡(jiǎn)化文本編碼來(lái)描述化學(xué)空間結(jié)構(gòu)的 SMILES 字符串,;(3)可建模模型相互作用或?qū)ΨQ性的勢(shì)能函數(shù),;(4)包含原子和鍵權(quán)重的圖;(5)庫(kù)侖矩陣,;(6)分子鍵和分子碎片的集合,;(7)原子及原子電荷的 3D 幾何圖形;(8)電子密度,。圖:K. HOLOSKI 編輯,。
圖 4:生成模型中幾種架構(gòu)的示意圖,。RNN 用于序列生成。VAE 展示的是半監(jiān)督變體,,由分子(x)和屬性(y)聯(lián)合訓(xùn)練,。Z 表示潛在空間,z 表示潛在向量,。在 GAN 設(shè)定中,,噪聲最終通過(guò)對(duì)抗訓(xùn)練轉(zhuǎn)換成分子結(jié)構(gòu)。強(qiáng)化學(xué)習(xí)(RL)展示了 MTCS 在 SMILES 補(bǔ)全任務(wù)時(shí)獲得任意獎(jiǎng)勵(lì)的策略梯度,。圖的右下方是混合結(jié)構(gòu)(如 AAE,,對(duì)抗自編碼器)及 ORGAN,表示 GAN 和 RL,。圖:K. HOLOSKI 編輯,。
展望
反演設(shè)計(jì)是加速設(shè)計(jì)物質(zhì)所需的復(fù)雜框架的重要組成。反演設(shè)計(jì)的工具(尤其是那些從機(jī)器學(xué)習(xí)領(lǐng)域發(fā)展而來(lái)的工具)近年來(lái)發(fā)展迅速,,并成功將化學(xué)空間納入概率數(shù)據(jù)驅(qū)動(dòng)模型中,。生成模型可以生成大量的候選分子,并且這些候選分子的物理實(shí)現(xiàn)將需要自動(dòng)化的高吞吐量工程來(lái)驗(yàn)證生成方法,。社區(qū)目前并沒(méi)有開發(fā)出足夠多的成功的物質(zhì)設(shè)計(jì)閉環(huán)方法,。理論和實(shí)驗(yàn)之間壁壘的倒塌將為我們帶來(lái) AI 驅(qū)動(dòng)的自動(dòng)化實(shí)驗(yàn)設(shè)備。
反演設(shè)計(jì)工具與主動(dòng)學(xué)習(xí)方法(例如貝葉斯優(yōu)化)的結(jié)合可以讓模型在探索化學(xué)空間時(shí)實(shí)現(xiàn)自適應(yīng),,這將使得在高度不確定性的區(qū)域擴(kuò)展模型成為可能,,并允許發(fā)現(xiàn)包含所需特性的分子空間區(qū)域(作為組成的函數(shù))。目標(biāo)函數(shù)空間的主動(dòng)學(xué)習(xí)也許能幫助我們更好地理解在開展機(jī)器學(xué)習(xí)過(guò)程中對(duì)最佳獎(jiǎng)勵(lì)的搜索,。
如我們所見,,機(jī)器學(xué)習(xí)方法論的核心是分子的表征;編碼相關(guān)物理過(guò)程的表征將具有更好的泛化能力,。盡管我們?nèi)〉昧丝捎^的進(jìn)展,,但仍存在很多需要完成的工作。分子的圖和分層表征還需要進(jìn)一步研究,。
將機(jī)器學(xué)習(xí)作為一種新的知識(shí)支柱集成到化學(xué),、生化、醫(yī)學(xué)和材料科學(xué)領(lǐng)域中,,研究者們就能更迅速地采用本研究中總結(jié)出的方法,。