1月24日,,Meta發(fā)布博文介紹正在建設(shè)的AI超級計算機AI Research SuperCluster(RSC),。Meta表示,,這是目前世界上最快的AI超級計算機之一,每秒可進行50億次運算,,它將加速Meta的AI研究并幫助Meta構(gòu)建元宇宙,。 RSC目前已完成第一階段建設(shè),開始運用于訓練具有數(shù)十億參數(shù)的大型AI模型,。RSC可以幫助Meta的AI研究人員構(gòu)建更好的AI模型,,可以從數(shù)萬億個示例中學習;跨數(shù)百種不同語言工作,;無縫分析文本,、圖像和視頻;開發(fā)新的增強現(xiàn)實工具等,。借助RSC,,Meta可以更快地訓練使用多模態(tài)信號的模型來確定動作、聲音或圖像是有害還是良性,。
這項研究將為Meta的元宇宙計劃奠定基礎(chǔ),。 人工智能超級計算機是通過將多個GPU組合成計算節(jié)點來構(gòu)建的,然后通過高性能網(wǎng)絡(luò)結(jié)構(gòu)連接這些節(jié)點,,以實現(xiàn)這些GPU之間的快速通信,。
目前,,RSC共有760個NVIDIA DGX A100系統(tǒng)作為其計算節(jié)點,總共有6,,080個GPU,。Meta聲稱這應(yīng)該可以與勞倫斯伯克利國家實驗室的Perlmutter競爭。根據(jù)排名網(wǎng)站Top 500的數(shù)據(jù),,Perlmutter是目前運行中的第五強大的超級計算機,。目前排名第一的是日本的Fugaku。隨著Meta繼續(xù)構(gòu)建和升級系統(tǒng),, RSC的威力預(yù)計將提高三倍左右,,理論上這將使RSC可以在未來爭奪排名第三。
Meta長期以來一直是人工智能研究領(lǐng)域的雄心勃勃的參與者,。該公司認為人工智能在元宇宙的發(fā)展中發(fā)揮著重要作用,。“我們希望RSC能夠幫助我們構(gòu)建全新的AI系統(tǒng),,例如,,可以為一大群人提供實時語音翻譯,每個人都說不同的語言,,這樣他們就可以在研究項目上無縫協(xié)作或玩AR游戲一起,,”Meta AI研究人員Kevin Lee和Shubho Sengupta在一篇博文中寫道?!白罱K,,RSC所做的工作將為構(gòu)建下一個主要計算平臺的技術(shù)鋪平道路——元宇宙,人工智能驅(qū)動的應(yīng)用程序和產(chǎn)品將在其中發(fā)揮重要作用,?!?Meta的研究人員解釋說,公司最近在自我監(jiān)督學習(Self-Supervised Learning)領(lǐng)域取得了長足的進步,,這是算法從大量未標記示例中學習的領(lǐng)域,。
它還引領(lǐng)了基于轉(zhuǎn)換器的模型(Transformers)的進步,這使得人工智能可以通過專注于其輸入的某些領(lǐng)域來更有效地推理,。Meta總結(jié)說,為了實現(xiàn)自我監(jiān)督學習和基于轉(zhuǎn)換器的模型的全部好處,,它需要訓練越來越復(fù)雜和適應(yīng)性更強的AI模型,,這意味著它需要處理大量的數(shù)據(jù)。例如,,要開發(fā)更高級的計算機視覺模型,,需要以更高的數(shù)據(jù)采樣率處理更大、更長的視頻,。
同時,,語音識別需要在具有大量背景噪音的最具挑戰(zhàn)性的場景中工作,,自然語言處理必須理解不同的語言、口音和方言,。所以Meta決定它需要一臺比目前可用的更強大的計算機,。 “與Meta的傳統(tǒng)生產(chǎn)和研究基礎(chǔ)設(shè)施相比,RSC的早期基準測試表明,,它運行計算機視覺工作流程的速度高達20倍,,運行Nvidia NCCL Collectives的速度超過9倍,訓練大規(guī)模NLP模型快三倍,,”Meta AI的研究人員說,。“這意味著一個擁有數(shù)百億參數(shù)的模型可以在三周內(nèi)完成訓練,,而之前是九周,。”
除了專注于速度和功率之外,,RSC的構(gòu)建還考慮到了安全性,。“RSC的設(shè)計從一開始就考慮到了隱私和安全性,,因此Meta的研究人員可以使用加密的用戶生成數(shù)據(jù)安全地訓練模型,,這些數(shù)據(jù)直到訓練前才被解密,”Lee和Sengupta寫道,。這些保護措施包括確保RSC與公共互聯(lián)網(wǎng)隔離,,沒有直接的入站或出站連接。同時,,從 Meta 的存儲系統(tǒng)到GPU的整個路徑都是加密的,,只有在使用之前,在GPU端點,,內(nèi)存中的數(shù)據(jù)才被解密,。 Meta透露,RSC的第二階段建設(shè)將在2022年底之前完成,,性能將有大幅的提升,。RSC將成為世界上最快的AI超級計算機,其混合精度計算性能接近5 exaflops,。
到2022年,,GPU的數(shù)量將從6,080個增加到16,,000個,,這將使AI訓練性能提高2.5倍以上。InfiniBand結(jié)構(gòu)將擴展為支持16,000個端口,,采用兩層拓撲結(jié)構(gòu),,不會出現(xiàn)超額訂閱。該存儲系統(tǒng)將具16TB/s的目標交付帶寬和EB級容量,,以滿足不斷增長的需求,。 Meta表示,“我們預(yù)計計算能力的這種階躍函數(shù)變化不僅使我們能夠為我們現(xiàn)有的服務(wù)創(chuàng)建更準確的人工智能模型,,而且還能夠?qū)崿F(xiàn)全新的用戶體驗,,尤其是在元宇宙中?!薄拔覀冊谧晕冶O(jiān)督學習和使用RSC構(gòu)建下一代AI基礎(chǔ)設(shè)施方面的長期投資正在幫助我們創(chuàng)建基礎(chǔ)技術(shù),,這些技術(shù)將為元界提供動力并推動更廣泛的AI社區(qū)發(fā)展?!?/p>