美國加利福尼亞州圣何塞 —— GTC —— 太平洋時間 2024 年 3 月 18 日 —— NVIDIA 于今日發(fā)布新一代 AI 超級計算機 —— 搭載 NVIDIA GB200 Grace Blackwell 超級芯片的 NVIDIA DGX SuperPOD?,。這臺 AI 超級計算機可以用于處理萬億參數(shù)模型,能夠保證超大規(guī)模生成式 AI 訓(xùn)練和推理工作負(fù)載的持續(xù)運行。
全新 DGX SuperPOD 采用新型高效液冷機架級擴(kuò)展架構(gòu),,基于 NVIDIA DGX? GB200 系統(tǒng)構(gòu)建而成,,在 FP4 精度下可提供 11.5 exaflops 的 AI 超級計算性能和 240 TB 的快速顯存,,且可通過增加機架來擴(kuò)展性能,。
每個 DGX GB200 系統(tǒng)搭載 36 個 NVIDIA GB200 超級芯片,共包含 36 個 NVIDIA Grace CPU 和 72 個 NVIDIA Blackwell GPU,。這些超級芯片通過第五代 NVIDIA NVLink? 連接成一臺超級計算機,。與 NVIDIA H100 Tensor Core GPU 相比,GB200 超級芯片在大語言模型推理工作負(fù)載方面的性能提升了高達(dá) 30 倍,。
NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛表示: “NVIDIA DGX AI 超級計算機是推進(jìn) AI 產(chǎn)業(yè)變革的工廠,。新一代 DGX SuperPOD 集 NVIDIA 加速計算、網(wǎng)絡(luò)和軟件方面的最新進(jìn)展于一體,,能夠幫助每一個企業(yè),、行業(yè)和國家完善并生成自己的 AI?!?/p>
Grace Blackwell 架構(gòu)的 DGX SuperPOD 由 8 個或以上的 DGX GB200 系統(tǒng)構(gòu)建而成,,這些系統(tǒng)通過 NVIDIA Quantum InfiniBand 網(wǎng)絡(luò)連接,可擴(kuò)展到數(shù)萬個 GB200 超級芯片,。用戶可通過 NVLink 連接 8 個 DGX GB200 系統(tǒng)中的 576 塊 Blackwell GPU,,從而獲得海量共享顯存空間,來賦能下一代 AI 模型,。
面向生成式 AI 時代的全新機架級擴(kuò)展的 DGX SuperPOD 架構(gòu)
采用 DGX GB200 系統(tǒng)構(gòu)建而成的全新 DGX SuperPOD 采用了統(tǒng)一的計算網(wǎng)絡(luò),。除第五代 NVIDIA NVLink 網(wǎng)絡(luò)外,還包括 NVIDIA BlueField?-3 DPU,,并將支持同為今日發(fā)布的 NVIDIA Quantum-X800 InfiniBand 網(wǎng)絡(luò)。這個架構(gòu)可為計算平臺中的每塊 GPU 提供高達(dá)每秒 1800 GB 的帶寬,。
另外,,第四代 NVIDIA 可擴(kuò)展分層聚合和規(guī)約協(xié)議(SHARP)?技術(shù)可提供 14.4 teraflops 的網(wǎng)絡(luò)計算能力,與上一代產(chǎn)品相比,,新一代 DGX SuperPOD 架構(gòu)的網(wǎng)絡(luò)計算能力提高了 4 倍,。
統(tǒng)包式架構(gòu)搭配先進(jìn)的軟件,實現(xiàn)前所未有的正常運行時間
全新 DGX SuperPOD 是一臺完整的數(shù)據(jù)中心級 AI 超級計算機,,在與 NVIDIA 認(rèn)證合作伙伴提供的高性能存儲集成后,,能夠滿足生成式 AI 工作負(fù)載的需求,。每臺超級計算機都在出廠前完成了搭建、布線和測試,,從而大大加快了在用戶數(shù)據(jù)中心的部署速度,。
Grace Blackwell 架構(gòu)的 DGX SuperPOD 具有智能預(yù)測管理功能,能夠持續(xù)監(jiān)控軟硬件中的數(shù)千個數(shù)據(jù)點,,通過預(yù)測并攔截導(dǎo)致停機和低效的根源以節(jié)省時間,、能耗和計算成本。
即使沒有系統(tǒng)管理員在場,,該軟件也能識別需要重點關(guān)注的領(lǐng)域并制定維護(hù)計劃,,靈活調(diào)整計算資源,通過自動保存和恢復(fù)作業(yè)來防止停機,。
如果軟件檢測到需要更換組件,,該集群將激活備用容量以確保工作能夠及時完成。為任何必要的硬件更換做好安排,,以免出現(xiàn)計劃之外的停機,。
NVIDIA DGX B200 系統(tǒng)推動各行各業(yè) AI 超級計算發(fā)展
NVIDIA 還發(fā)布了一款統(tǒng)一用于 AI 模型訓(xùn)練、微調(diào)和推理的通用 AI 超級計算平臺 NVIDIA DGX B200 系統(tǒng),。
采用風(fēng)冷傳統(tǒng)機架式設(shè)計的 DGX 已被全球各行各業(yè)數(shù)千家企業(yè)廣泛采用,,DGX B200 是 DGX 系列的第六代產(chǎn)品。采用 Blackwell 架構(gòu)的全新 DGX B200 系統(tǒng)包含 8 個 NVIDIA B200 Tensor Core GPU 和 2 個第五代英特爾?至強?處理器,。用戶還可以使用 DGX B200 系統(tǒng)構(gòu)建 DGX SuperPOD,,打造能夠幫助大型開發(fā)團(tuán)隊運行多種不同作業(yè)的 AI 卓越中心。
DGX B200 系統(tǒng)憑借全新 Blackwell 架構(gòu)中的 FP4 精度特性,,可提供高達(dá) 144 petaflops 的 AI 性能,、1.4TB 海量的 GPU 顯存和 64TB/s 的顯存帶寬,從而使得該系統(tǒng)的萬億參數(shù)模型實時推理速度比上一代產(chǎn)品提升了 15 倍,。
DGX B200 系統(tǒng)包含帶有 8 個 NVIDIA ConnectX?-7 網(wǎng)卡和 2 個 BlueField-3 DPU 的高性能網(wǎng)絡(luò),,每個連接的帶寬高達(dá) 400 Gb/s,可通過 NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum?-X 以太網(wǎng)網(wǎng)絡(luò)平臺支持更高的 AI 性能,。
軟件和專家為擴(kuò)大生產(chǎn)級 AI 的規(guī)模提供支持
所有 NVIDIA DGX 平臺均包含用于企業(yè)級開發(fā)和部署的 NVIDIA AI Enterprise 軟件,。DGX 用戶可以通過使用該軟件平臺中的預(yù)訓(xùn)練的 NVIDIA 基礎(chǔ)模型、框架,、工具套件和全新 NVIDIA NIM 微服務(wù)來加速他們的工作,。
NVIDIA DGX 專家與部分獲得 NVIDIA DGX 平臺支持認(rèn)證的合作伙伴將在每個部署環(huán)節(jié)為用戶提供幫助,以便其迅速實現(xiàn) AI 投產(chǎn),。在系統(tǒng)投入運行后,,DGX 專家還將繼續(xù)協(xié)助用戶優(yōu)化其 AI 管線和基礎(chǔ)設(shè)施。
供應(yīng)情況
NVIDIA 全球合作伙伴預(yù)計將在今年晚些時候提供基于 DGX GB200 和 DGX B200 系統(tǒng)構(gòu)建而成的 NVIDIA DGX SuperPOD,。
更多信息,,請觀看 GTC 主題演講回放或在 3 月 21 日前參加由 NVIDIA 和行業(yè)領(lǐng)導(dǎo)者帶來的會議,。
關(guān)于 NVIDIA
自 1993 年成立以來,NVIDIA (NASDAQ: NVDA) 一直是加速計算領(lǐng)域的先驅(qū),。NVIDIA 1999 年發(fā)明的 GPU 驅(qū)動了 PC 游戲市場的增長,,并重新定義了現(xiàn)代計算機圖形,開啟了現(xiàn)代 AI 時代,,正在推動跨市場的工業(yè)數(shù)字化,。NVIDIA 現(xiàn)在是一家全棧計算基礎(chǔ)設(shè)施公司,其數(shù)據(jù)中心規(guī)模的解決方案正在重塑整個行業(yè),。更多信息,,請訪問https://nvidianews.nvidia.com/。
# # #