AMD 發(fā)布 Instinct MI100 加速器,它使用最新 Matrix Core 技術(shù),,是面向 HPC 和 AI 的新型加速系統(tǒng),。AMD 表示這是全球最快的 HPC GPU,也是首個超越 10 teraflops (FP64) 性能障礙的 x86 服務(wù)器 GPU,。
當(dāng)前,,GPU 已經(jīng)成為深度學(xué)習(xí)訓(xùn)練的標(biāo)配,而針對深度學(xué)習(xí)中的 Tensor 操作,,各大廠商在設(shè)計軟硬件時都會做特別優(yōu)化,,其中知名的就是英偉達(dá)的 Tensor Core。
今日,,對標(biāo)英偉達(dá) Tensor core,一直發(fā)展迅猛的 AMD 也推出了類似功能單元 Matrix Core,。同時,,基于 Matrix Core 技術(shù),AMD 發(fā)布了新型 AMD Instinct MI100 加速器,,據(jù)稱是全球最快的 HPC GPU 和首個超越 10 teraflops (FP64) 性能障礙的 x86 服務(wù)器 GPU,。
據(jù) AMD 官方介紹,AMD Instinct MI100 GPU 配備了全新 AMD CDNA 架構(gòu),,使用第二代 AMD EPYC 處理器,,是面向 HPC 和 AI 的新型加速系統(tǒng)。
在性能上,,MI100 為 HPC 提供了高達(dá) 11.5 TFLOPS 的 FP64 峰值性能,,為 AI 和機(jī)器學(xué)習(xí)提供了高達(dá) 46.1 TFLOPS 的 FP32 Matrix 峰值性能。
與 AMD 的上一代加速器相比,,MI100 憑借新的 AMD Matrix Core 技術(shù),,為 AI 訓(xùn)練提供了近 7 倍的 FP16 理論峰值浮點(diǎn)性能提升。
AMD Instinct MI100 為 HPC 和 AI 提供優(yōu)秀的性能(圖源:https://www.amd.com/zh-hans/products/server-accelerators/instinct-mi100)
MI100 的具體規(guī)格參見下表:
AMD 數(shù)據(jù)中心 GPU 和加速處理公司副總裁 Brad McCredie 表示:「AMD Instinct MI100 的推出,,標(biāo)志著 AMD 朝著百億億級計算邁出了重要的一步,。這款新型加速器專為科學(xué)計算中重要的工作負(fù)載打造,,結(jié)合 AMD ROCm 開放軟件平臺后,能夠?yàn)榭茖W(xué)家和研究人員在 HPC 中的工作提供堅實(shí)的基礎(chǔ),?!?/p>
此外,AMD 還推出了 ROCm 4.0,。ROCm 開發(fā)者軟件平臺旨在為百億億級計算提供基礎(chǔ),,包括編譯器、編程 API 和庫,。此次推出的 ROCm 4.0 針對基于 MI100 的系統(tǒng)進(jìn)行了優(yōu)化,,將編譯器升級為開源版本,并支持 OpenMP 5.0 和 HIP,。經(jīng)過 ROCm 4.0 優(yōu)化,,PyTorch 和 Tensorflow 框架可以基于 MI100 實(shí)現(xiàn)更高的性能。
AMD Instinct MI100 加速器的特性
以下是 AMD Instinct MI100 加速器的關(guān)鍵能力和特性:
AMD Instinct MI100 的關(guān)鍵特性一覽表(圖源:https://www.amd.com/system/files/documents/instinct-mi100-brochure.pdf)
全新的 AMD CDNA 架構(gòu):該架構(gòu)專為 AMD GPU 適應(yīng)百億億級計算時代而打造,,是 MI100 加速器的核心,,能夠提供卓越的性能和能效。
適應(yīng) HPC 工作負(fù)載的 FP64 和 FP32 頂尖性能:峰值 FP64 和峰值 FP32 的性能分別達(dá)到 11.5 TFLOPS 和 23.1 TFLOPS,,行業(yè)領(lǐng)先,。
全新的 Matrix Core 技術(shù):適合多種單精度和混合精度矩陣運(yùn)算(如 FP32、FP16,、bFloat16,、Int8 和 Int4)的超強(qiáng)性能,從而提升 HPC 和 AI 的收斂性能,。
第二代 AMD Infinity Fabric 技術(shù):Instinct MI100 提供大約二倍的 PCIe 4.0 接口 P2P 峰值 I/O 帶寬,,每塊 GPU 配置三條 AMD Infinity Fabric 總線,總帶寬高達(dá) 340 GB/s,。在服務(wù)器上,,MI100 GPU 可以配置兩個全連接 quad GPU hive,每個提供高達(dá) 552 GB/s 的 P2P I/O 帶寬,,從而實(shí)現(xiàn)快速數(shù)據(jù)共享,。
超快 HBM2 內(nèi)存:32GB 高帶寬 HBM2 內(nèi)存,時鐘速率為 1.2 GHz,,可以提供超高的 1.23 TB/s 內(nèi)存帶寬,,以支持大型數(shù)據(jù)集,并消除數(shù)據(jù)進(jìn)出內(nèi)存的瓶頸,。
支持業(yè)內(nèi)最新的 PCIe Gen 4.0:支持最新的 PCIe Gen 4.0 技術(shù),,提供高達(dá) 64GB/s 的 CPU 到 GPU 理論數(shù)據(jù)傳輸帶寬。
原文鏈接:https://ir.amd.com/news-events/press-releases/detail/981/amd-announces-worlds-fastest-hpc-accelerator-for
Amazon SageMaker 1000元大禮包
ML訓(xùn)練成本降90%,,被全球上萬家公司使用,,Amazon SageMaker是全托管機(jī)器學(xué)習(xí)平臺,,支持絕大多數(shù)機(jī)器學(xué)習(xí)框架與算法,并且用 IDE 寫代碼,、可視化,、Debug一氣呵成。
現(xiàn)在,,我們準(zhǔn)備了1000元的免費(fèi)額度,,開發(fā)者可以親自上手體驗(yàn),讓開發(fā)高質(zhì)量模型變得更加輕松,。