《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 可編程邏輯 > 業(yè)界動(dòng)態(tài) > 前沿 | GAN用于材料設(shè)計(jì):哈佛大學(xué)新研究登上Science

前沿 | GAN用于材料設(shè)計(jì):哈佛大學(xué)新研究登上Science

2018-08-09

在材料領(lǐng)域,,機(jī)器學(xué)習(xí)技術(shù)經(jīng)常被用于特性預(yù)測(cè),,學(xué)到一個(gè)函數(shù)能繪制出符合選擇特性的分子材料,。而近日哈佛大學(xué)與多倫多大學(xué)的研究者在Science上發(fā)表了一篇關(guān)于新材料設(shè)計(jì)的論文,,該論文將深度生成模型引入反演設(shè)計(jì),從而合成有機(jī)物甚至設(shè)計(jì)新型藥物,。


論文:Inverse molecular design using machine learning: Generative models for matter engineering

微信圖片_20180809213620.jpg


論文地址:http://science.sciencemag.org/content/361/6400/360


摘要:新材料的發(fā)現(xiàn)能為社會(huì)與科技發(fā)展帶來(lái)巨大進(jìn)步。當(dāng)今環(huán)境下,,全面探索潛在材料空間在計(jì)算方面非常困難,。在這篇文章中,我們回顧了反演設(shè)計(jì)方法(inverse design)——一種以特定預(yù)期功能為起點(diǎn)發(fā)現(xiàn)專門材料的方法,。近期人工智能領(lǐng)域的快速發(fā)展,,特別是機(jī)器學(xué)習(xí)的子領(lǐng)域深度學(xué)習(xí)的發(fā)展,,帶來(lái)了思維轉(zhuǎn)變,提出了反演分子設(shè)計(jì)的方法且快速得以利用,。其中,,深度生成模型被應(yīng)用到了大量材料類別上:新型藥物的合理設(shè)計(jì)、有機(jī)化合物合成,、太陽(yáng)光電與液流電池優(yōu)化以及多種固態(tài)材料等,。


介紹


個(gè)性化醫(yī)療到能源生產(chǎn)與存儲(chǔ),21 世紀(jì)的許多挑戰(zhàn)都存在一個(gè)共同主題:材料永遠(yuǎn)是解決方案的一部分,。有時(shí),,這些問(wèn)題的解決方案都受限于材料的物化特性,例如材料帶隙(materials bandgap)關(guān)系對(duì)太陽(yáng)能發(fā)電的限制,。


先前,,重大材料的發(fā)現(xiàn)都是科學(xué)家偶然間或者多次試驗(yàn)得到的。例如,,人們觀察到用硫等添加劑加熱可以提高橡膠的耐用性,,于是在 19 世紀(jì)從其混合物中制造了硫化橡膠。在分子層面,,單個(gè)高分子鏈交叉結(jié)合,,形成的新鏈在宏觀力學(xué)特性上得到增強(qiáng)。其他值得一提的例子像聚四氟乙烯,、麻醉劑,、凡士林、苯胺紫,、盤尼西林也都是通過(guò)這種形式得到的,。此外,這些材料來(lái)自于天然的化學(xué)成分,。其他潛在藥物要么是在化學(xué)實(shí)驗(yàn)室中合成的,,要么是從植物、土壤細(xì)菌或者真菌中提取出來(lái)的,。例如,,直到 2014 年,49% 的小分子抗癌藥物都是天然化合物或者是天然化合物的衍生物,。


未來(lái),,物質(zhì)發(fā)現(xiàn)的爆炸性進(jìn)展來(lái)自于所有可能的分子和固態(tài)化合物集合中未開發(fā)的區(qū)域,即化學(xué)空間,。其中最大的一個(gè)分子集合——化學(xué)空間計(jì)劃——已經(jīng)繪制了 1664 億個(gè)分子,,至多包含 17 個(gè)重原子。其中與藥理學(xué)相關(guān)的小分子,結(jié)構(gòu)數(shù)量據(jù)估計(jì)約為 1060 個(gè),??紤]到從亞納米到微觀到介觀(mesoscopic)的尺度層級(jí),對(duì)化學(xué)空間的探索整體上變得復(fù)雜,。因此,,任何想要覆蓋這一空間的全局策略看起來(lái)都無(wú)法實(shí)現(xiàn)。模擬為在不做實(shí)驗(yàn)的情況下探索這一空間提供了可能,。這些分子的物化特性都由量子力學(xué)掌控,,也就是可通過(guò)薛定諤方程式求解來(lái)達(dá)到精確。但在實(shí)際中,,常通過(guò)損失部分準(zhǔn)確率的近似法來(lái)減少計(jì)算時(shí)間,。


盡管理論上有了巨大進(jìn)步,但如今以常規(guī)方法建模分子,、群集以及含缺陷的周期性固體,,化學(xué)空間依然龐大無(wú)比,且需要智能導(dǎo)航,。有鑒于此,,機(jī)器學(xué)習(xí)、深度學(xué)習(xí)以及人工智能非常有潛力,,因?yàn)樗鼈兊挠?jì)算策略是通過(guò)經(jīng)驗(yàn)自動(dòng)改進(jìn)的,。在材料領(lǐng)域,機(jī)器學(xué)習(xí)技術(shù)經(jīng)常被用于特性預(yù)測(cè),,學(xué)到一個(gè)函數(shù)能繪制出符合選擇特性的分子材料,。深度生成模型是深度學(xué)習(xí)方法的一種,能以非線性的方式建模結(jié)構(gòu)與特征以及與它們相關(guān)的潛在可能性分布,。通過(guò)利用大量數(shù)據(jù)中的模式,,這些模型能提取表現(xiàn)分子特性的平均的、顯著的特征,。


反演設(shè)計(jì)是發(fā)現(xiàn)復(fù)雜材料過(guò)程的一部分,。從在實(shí)驗(yàn)室發(fā)現(xiàn)到形成商業(yè)產(chǎn)品,新技術(shù)的部署周期一般是 15-20 年,。依照慣例,,這一過(guò)程(下圖 1)涉及到以下步驟:(i) 生成全新的或者改進(jìn)材料概念并模擬其潛在適用性;(ii) 合成材料,;(iii) 把材料組合成設(shè)備或者系統(tǒng),; (iv) 表現(xiàn)并測(cè)量其預(yù)期特性。這一周期生成反饋,,不斷重復(fù),、改進(jìn),、精煉,。每個(gè)步驟都可能花費(fèi)數(shù)年,。

微信圖片_20180809213647.jpg

圖 1:材料發(fā)現(xiàn)范式的對(duì)比圖解。當(dāng)前范式如左圖所示,,用有機(jī)液流電池作為示例,。閉環(huán)范式如右圖所示。完成這一閉環(huán)需要融合反演設(shè)計(jì),、智能軟件,、AI/ML、嵌入式系統(tǒng)和機(jī)器人,,組成一個(gè)融合的生態(tài)系統(tǒng),。圖:K. HOLOSKI 編輯。


在物質(zhì)工程的時(shí)代,,科學(xué)家們?cè)噲D加速這一閉環(huán),,減少每一步所需要的時(shí)間。最終目標(biāo)是兼顧提出,、創(chuàng)造,、特征化新材料,每部分構(gòu)成都能同時(shí)傳送,、接收數(shù)據(jù),。這一過(guò)程被稱為「閉環(huán)」(closing the loop),且反演設(shè)計(jì)是重要的組成,。


反演設(shè)計(jì)

微信圖片_20180809213720.jpg

圖 2:不同分子設(shè)計(jì)方法圖解,。反演設(shè)計(jì)始于期望分子特性,終于化學(xué)空間,,這不同于從化學(xué)空間到分子特性的直接方法,。圖:K. HOLOSKI 編輯。


分子表征

微信圖片_20180809213742.jpg

圖 3:應(yīng)用于 AQDS 分子的不同類型分子表征,,這種分子被用于構(gòu)建有機(jī)液流電池,。從最上面順時(shí)針來(lái)看:(1)量化分子環(huán)境的出現(xiàn)和缺失的指紋向量;(2)使用簡(jiǎn)化文本編碼來(lái)描述化學(xué)空間結(jié)構(gòu)的 SMILES 字符串,;(3)可建模模型相互作用或?qū)ΨQ性的勢(shì)能函數(shù),;(4)包含原子和鍵權(quán)重的圖;(5)庫(kù)侖矩陣,;(6)分子鍵和分子碎片的集合,;(7)原子及原子電荷的 3D 幾何圖形;(8)電子密度,。圖:K. HOLOSKI 編輯,。

微信圖片_20180809213822.jpg

圖 4:生成模型中幾種架構(gòu)的示意圖,。RNN 用于序列生成。VAE 展示的是半監(jiān)督變體,,由分子(x)和屬性(y)聯(lián)合訓(xùn)練,。Z 表示潛在空間,z 表示潛在向量,。在 GAN 設(shè)定中,,噪聲最終通過(guò)對(duì)抗訓(xùn)練轉(zhuǎn)換成分子結(jié)構(gòu)。強(qiáng)化學(xué)習(xí)(RL)展示了 MTCS 在 SMILES 補(bǔ)全任務(wù)時(shí)獲得任意獎(jiǎng)勵(lì)的策略梯度,。圖的右下方是混合結(jié)構(gòu)(如 AAE,,對(duì)抗自編碼器)及 ORGAN,表示 GAN 和 RL,。圖:K. HOLOSKI 編輯,。


展望


反演設(shè)計(jì)是加速設(shè)計(jì)物質(zhì)所需的復(fù)雜框架的重要組成。反演設(shè)計(jì)的工具(尤其是那些從機(jī)器學(xué)習(xí)領(lǐng)域發(fā)展而來(lái)的工具)近年來(lái)發(fā)展迅速,,并成功將化學(xué)空間納入概率數(shù)據(jù)驅(qū)動(dòng)模型中,。生成模型可以生成大量的候選分子,并且這些候選分子的物理實(shí)現(xiàn)將需要自動(dòng)化的高吞吐量工程來(lái)驗(yàn)證生成方法,。社區(qū)目前并沒(méi)有開發(fā)出足夠多的成功的物質(zhì)設(shè)計(jì)閉環(huán)方法,。理論和實(shí)驗(yàn)之間壁壘的倒塌將為我們帶來(lái) AI 驅(qū)動(dòng)的自動(dòng)化實(shí)驗(yàn)設(shè)備。


反演設(shè)計(jì)工具與主動(dòng)學(xué)習(xí)方法(例如貝葉斯優(yōu)化)的結(jié)合可以讓模型在探索化學(xué)空間時(shí)實(shí)現(xiàn)自適應(yīng),,這將使得在高度不確定性的區(qū)域擴(kuò)展模型成為可能,,并允許發(fā)現(xiàn)包含所需特性的分子空間區(qū)域(作為組成的函數(shù))。目標(biāo)函數(shù)空間的主動(dòng)學(xué)習(xí)也許能幫助我們更好地理解在開展機(jī)器學(xué)習(xí)過(guò)程中對(duì)最佳獎(jiǎng)勵(lì)的搜索,。


如我們所見,,機(jī)器學(xué)習(xí)方法論的核心是分子的表征;編碼相關(guān)物理過(guò)程的表征將具有更好的泛化能力,。盡管我們?nèi)〉昧丝捎^的進(jìn)展,,但仍存在很多需要完成的工作。分子的圖和分層表征還需要進(jìn)一步研究,。


將機(jī)器學(xué)習(xí)作為一種新的知識(shí)支柱集成到化學(xué),、生化、醫(yī)學(xué)和材料科學(xué)領(lǐng)域中,,研究者們就能更迅速地采用本研究中總結(jié)出的方法,。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點(diǎn),。轉(zhuǎn)載的所有的文章、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected]