NVIDIA Clara Discovery 旨在為研究人員提供所需工具,,以加速藥物發(fā)現(xiàn)
NVIDIA 攜手生物制藥公司阿斯利康( AstraZeneca )和佛羅里達(dá)大學(xué)的學(xué)術(shù)健康中心和佛羅里達(dá)大學(xué)健康學(xué)院,,利用突破性的Transformer神經(jīng)網(wǎng)絡(luò)開展新的 AI 研究項(xiàng)目,。
近些年來新提出的基于Transformer的神經(jīng)網(wǎng)絡(luò)架構(gòu),,讓研究人員可以利用自監(jiān)督訓(xùn)練方法使用批量數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,無需手動(dòng)標(biāo)注數(shù)據(jù),。這些模型可以像學(xué)習(xí)語言語法一樣,學(xué)習(xí)句法規(guī)則來描述化學(xué),,并應(yīng)用于跨研究領(lǐng)域和模式,。
NVIDIA 正與阿斯利康合作開發(fā)一種基于Transformer的生成式 AI 模型,用于藥物研發(fā)的化學(xué)結(jié)構(gòu)生成,,這將是首個(gè)在 Cambridge-1上運(yùn)行的項(xiàng)目,,并且Cambridge-1將會(huì)成為英國最強(qiáng)大的超級(jí)計(jì)算機(jī)。這種模型會(huì)開源,,在 NVIDIA NGC 軟件目錄中供研究人員和開發(fā)者使用,,并且可部署在 NVIDIA Clara Discovery 計(jì)算藥物研發(fā)平臺(tái)上。
另外,,佛羅里達(dá)大學(xué)健康學(xué)院正在利用NVIDIA最新的Megatron框架和NGC上的BioMegatron預(yù)訓(xùn)練模型來開發(fā)GatorTron,,這是迄今為止最大的臨床語言模型。
新 NGC 應(yīng)用程序包括 AtacWorks,,一種深度學(xué)習(xí)模型,,用于識(shí)別可獲取的 DNA 區(qū)域,;以及 MELD,一種從稀疏,、模糊或噪聲數(shù)據(jù)中推斷生物分子結(jié)構(gòu)的工具,。
用于分子分析的 Megatron 模型
由 NVIDIA 和阿斯利康開發(fā)的藥物研發(fā)模型 MegaMolBART 計(jì)劃用于反應(yīng)預(yù)測、分子優(yōu)化和分子生成,。此模型基于阿斯利康的 MolBART Transformer 模型,,并在 ZINC 化合物數(shù)據(jù)庫上進(jìn)行訓(xùn)練 —— 利用 NVIDIA 的 Megatron 框架在超算基礎(chǔ)設(shè)施上進(jìn)行大規(guī)模擴(kuò)展訓(xùn)練。
大型 ZINC 數(shù)據(jù)庫允許研究人員預(yù)訓(xùn)練模型來理解化學(xué)結(jié)構(gòu),,無需手動(dòng)標(biāo)記數(shù)據(jù),。憑借對(duì)化學(xué)的統(tǒng)計(jì)理解,該模型將用于完成一系列下游任務(wù),,包括預(yù)測化學(xué)物質(zhì)之間的相互作用,,以及生成新的分子結(jié)構(gòu)。
阿斯利康分子 AI,、發(fā)現(xiàn)科學(xué)和研發(fā)部門主管 Ola Engkvist 表示:“正如 AI 語言模型可以學(xué)習(xí)句子中詞語之間的關(guān)系一樣,,我們的目標(biāo)是通過分子結(jié)構(gòu)數(shù)據(jù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)將能夠?qū)W習(xí)現(xiàn)實(shí)世界分子中原子之間的關(guān)系。開發(fā)完成后,,NLP 模型將成為開源模型,,為科學(xué)界提供一個(gè)加速藥物研發(fā)的強(qiáng)大工具?!?/p>
該模型使用 NVIDIA DGX SuperPOD訓(xùn)練,,幫研究人員發(fā)現(xiàn)數(shù)據(jù)庫中不存在但可能是潛在候選藥物的分子。稱為 in-silico 技術(shù)的計(jì)算方法,,讓藥物開發(fā)人員在進(jìn)行昂貴且耗時(shí)的實(shí)驗(yàn)室測試前,,可以在廣闊的化學(xué)空間中搜索更多內(nèi)容并優(yōu)化藥理特性。
此次合作將使用由 NVIDIA DGX A100 賦能的 Cambridge-1 和 Selene 超級(jí)計(jì)算機(jī)大規(guī)模地運(yùn)行大型工作負(fù)載,。Cambridge-1 是英國最大的超級(jí)計(jì)算機(jī),,在 Green500 位列第三,在全球性能最強(qiáng)大的系統(tǒng) TOP500 榜單中排名第 29 位,。NVIDIA 的 Selene 超級(jí)計(jì)算機(jī)排在最新的 Green500 榜首,,位列 TOP500 第五。
語言模型加速醫(yī)療創(chuàng)新
佛羅里達(dá)大學(xué)健康學(xué)院的 GatorTron 模型使用 200 萬名患者的超過 5,000 萬次互動(dòng)記錄進(jìn)行訓(xùn)練,,這是一個(gè)突破,,可以幫助確定需要進(jìn)行臨床試驗(yàn)的患者,預(yù)測并向健康團(tuán)隊(duì)提醒危及生命的情況,,并為醫(yī)生提供臨床決策支持,。
佛羅里達(dá)大學(xué)教務(wù)長 Joseph Glover 表示:“GatorTron 利用十多年的電子病歷來開發(fā)最先進(jìn)的模型。該校最近使用 NVIDIA DGX SuperPOD 提升了超級(jí)計(jì)算設(shè)施。這種規(guī)模的工具能幫助醫(yī)療健康研究人員獲取見解,,并根據(jù)臨床筆記記錄判斷先前無法獲取的醫(yī)療趨勢,。”
除臨床醫(yī)學(xué)外,,該模型還可以快速創(chuàng)建患者群組進(jìn)行臨床試驗(yàn),,以及研究特定藥物、治療或疫苗的效果,,來加速藥物研發(fā),。
該模型利用 BioMegatron(有史以來訓(xùn)練規(guī)模最大的生物醫(yī)學(xué) Transformer 模型)構(gòu)建,BioMegatron是 NVIDIA 應(yīng)用深度學(xué)習(xí)研究團(tuán)隊(duì)使用 PubMed 語料庫數(shù)據(jù)開發(fā)的,。BioMegatron 可以從NGC上的 Clara NLP獲?。–lara NLP是用生物醫(yī)學(xué)和臨床文本進(jìn)行預(yù)訓(xùn)練的 NVIDIA Clara Discovery 模型集合)。
佛羅里達(dá)大學(xué)健康事務(wù)部副主席兼佛羅里達(dá)健康學(xué)院主席 David R.Nelson 博士表示:“GatorTron 項(xiàng)目是一個(gè)學(xué)術(shù)界和業(yè)界專家使用前沿人工智能和世界一流計(jì)算資源進(jìn)行協(xié)作的杰出范例,。我們與 NVIDIA 的合作,,對(duì)于佛羅里達(dá)大學(xué)成為人工智能專業(yè)知識(shí)和開發(fā)中心至關(guān)重要?!?/p>
為藥物研發(fā)平臺(tái)賦能
計(jì)算藥物研發(fā)平臺(tái)也采用了 NVIDIA Clara Discovery 庫和 NVIDIA DGX 系統(tǒng),,從而推動(dòng)藥物研究。
Schr?dinger 化學(xué)模擬軟件開發(fā)領(lǐng)導(dǎo)者,,今天宣布與 NVIDIA 建立戰(zhàn)略合作伙伴關(guān)系,,包括科學(xué)計(jì)算和機(jī)器學(xué)習(xí)研究、NVIDIA 平臺(tái)上的 Schr?dinger 應(yīng)用程序優(yōu)化,,以及圍繞 NVIDIA DGX SuperPOD 的聯(lián)合解決方案,,在數(shù)分鐘內(nèi)評(píng)估數(shù)十億種潛在藥物化合物。
生物技術(shù)公司 Recursion 已安裝了 BioHive-1,,這是一款基于 NVIDIA DGX SuperPOD 參考架構(gòu)的超級(jí)計(jì)算機(jī),,截至 1 月,該超級(jí)計(jì)算機(jī)在全球頂尖計(jì)算機(jī)系統(tǒng) TOP500 榜單中排名第 58 位,。BioHive-1 讓 Recursion 能夠在一天內(nèi)運(yùn)行深度學(xué)習(xí)項(xiàng)目,,而之前使用他們已有的集群完成該項(xiàng)目需要一周時(shí)間。
Insilico Medicine是 NVIDIA Inception 初創(chuàng)加速計(jì)劃的合作伙伴,,近日宣布發(fā)現(xiàn)了一種用于治療特發(fā)性肺纖維化的新臨床前候選藥物——這是首個(gè)針對(duì)新疾病靶標(biāo)進(jìn)行AI 分子設(shè)計(jì),并用于臨床試驗(yàn)的示例,。由 NVIDIA Tensor Core GPU 驅(qū)動(dòng)的系統(tǒng)生成化合物,,從目標(biāo)假設(shè)到臨床前候選人選擇,僅用時(shí)不足 18 個(gè)月,,花費(fèi)不到 200 萬美元,。
作為 NVIDIA Inception初創(chuàng)加速計(jì)劃的一員,Vyasa Analytics使用 Clara NLP 和 NVIDIA DGX 系統(tǒng),讓用戶獲得用于生物醫(yī)學(xué)研究的預(yù)訓(xùn)練模型,。該公司 GPU 加速的 Vyasa Layar Data Fabric 為多機(jī)構(gòu)癌癥研究,、臨床試驗(yàn)分析和生物醫(yī)學(xué)數(shù)據(jù)協(xié)調(diào)解決方案提供動(dòng)力支持。
歡迎免費(fèi)注冊觀看NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛的主題演講,。參加本周的 GTC詳細(xì)了解 NVIDIA 在醫(yī)療健康行業(yè)方面的進(jìn)展,,醫(yī)療健康分論壇包括 16 場在線研討會(huì)、18 場特別活動(dòng)以及 100 多場演講,。