近十年來, GPGPU(通用計(jì)算 GPU,,用 GPU 處理運(yùn)算任務(wù))的浪潮完全由英偉達(dá)帶領(lǐng),把他們的 GPU 定位于 AI 和神經(jīng)網(wǎng)絡(luò)開發(fā)的首選運(yùn)算平臺(tái)。英偉達(dá)甚至已開始轉(zhuǎn)型,,把自己定位于 AI 計(jì)算公司,而不僅僅是 PC 用戶眼中的游戲顯卡開發(fā)商,。
英偉達(dá)在 AI 計(jì)算的強(qiáng)勢(shì),,使英特爾感到強(qiáng)烈壓力——它一方面在憋大招,將在 2017 年把深度學(xué)習(xí)推理加速器和 72 核至強(qiáng) Xeon Phi 芯片推向市場(chǎng),,構(gòu)成英特爾 AI 產(chǎn)品線的“絕代雙驕”,。另一方面,在 GPU 專利技術(shù)上,,轉(zhuǎn)向與老對(duì)手 AMD 合作,,頗有那么點(diǎn)“聯(lián)蜀抗曹”的意思——似乎英偉達(dá)才是公司長(zhǎng)遠(yuǎn)發(fā)展的頭號(hào)對(duì)手。
反觀 AMD 這邊,,不但手握新 CPU 架構(gòu) Zen(“禪”),、號(hào)稱明年要在 PC 和服務(wù)器市場(chǎng)讓英特爾難堪;同時(shí)還在緊鑼密鼓地籌備新 GPU 架構(gòu) Vega (“織女星”),,準(zhǔn)備明年打破英偉達(dá)對(duì)高端顯卡市場(chǎng)的壟斷,。然而,準(zhǔn)備翻身的“農(nóng)企”并不滿足在 CPU 和游戲顯卡這兩個(gè)傳統(tǒng)領(lǐng)域和老對(duì)手們較量,,而是追著他們的腳后跟進(jìn)入 AI 運(yùn)算領(lǐng)域,。
傳統(tǒng)芯片巨頭紅、藍(lán),、綠廠將在新戰(zhàn)場(chǎng)開啟三國殺,。
12 月 9 日,AMD 召集行業(yè)人士秘密進(jìn)行了一場(chǎng)關(guān)于 Vega 的產(chǎn)品說明會(huì)?,F(xiàn)在,,該會(huì)議的部分內(nèi)容終于曝光——AMD 發(fā)布全新 AI 計(jì)算子品牌 “Radeon Instinct”,以及隸屬該品牌的兩大產(chǎn)品線:硬件加速器產(chǎn)品,,和 ROCm 軟件平臺(tái),。AMD 將利用它們?yōu)槌憧蛻籼峁┸洝⒂布Y(jié)合的解決方案,。
Radeon Instinct 旗下兩大產(chǎn)品:硬件加速器和軟件 ROCm
三款硬件加速器
在硬件方面,,AMD 共有三款產(chǎn)品發(fā)布——分別是基于 Polaris (“北極星”)、Fiji(“斐濟(jì)”)和 Vega 的深度學(xué)習(xí)加速器 MI6,、MI8 以及 MI25,。其中,,運(yùn)算能力最強(qiáng)的 MI25 是 AI 訓(xùn)練加速器,前兩者是推理加速器,。
MI6 采用降頻的 Polaris 10 核心(RX 480 的核心),,但顯存增加至 16 GB ,并采取無風(fēng)扇的被動(dòng)散熱(但利用服務(wù)器的散熱系統(tǒng)),,浮點(diǎn)計(jì)算能力每秒 5.7 萬億次,。
MI8 體積小巧一些,這是因?yàn)樗?Fiji 架構(gòu)的 R9 Fury Nano 顯卡,。它采用和 Nano 一致的頻率,,同樣的 4 GB 顯存,這是因?yàn)?Nano 搭載的初代 HBM 顯存最多只能支持 4GB,。雷鋒網(wǎng)獲悉,,已有外媒提出質(zhì)疑,但目前還不清楚這是否會(huì)為深度學(xué)習(xí)應(yīng)用帶來運(yùn)算瓶頸,。它浮點(diǎn)計(jì)算能力為每秒 8.2 萬億次
基于下代 Vega 架構(gòu)的 MI25 吸引了全球媒體的目光,。但遺憾的是,AMD 并沒有給出多少信息,,只表示它采用了 Vega 10 核心,,與會(huì)媒體推斷它的浮點(diǎn)運(yùn)算能力約為每秒 12.5 萬億次。但也有人猜測(cè)這是一個(gè)雙 GPU 核心的加速器卡,,就好比 Pro Duo,。這樣就能解釋它的命名為什么是 MI25 :兩個(gè)核心相加得 25 TFLOPS。這也解釋了高達(dá) 300W 的熱功耗,。雷鋒網(wǎng)提醒各位讀者,,對(duì)于這些傳言審慎看待。
MI6 和 MI8 預(yù)計(jì)在明年上半年發(fā)貨,,而 MI25 可能會(huì)更遲,。另外,與游戲顯卡交給 OEM 廠商(藍(lán)寶石,、XFX,、華碩等)生產(chǎn)的做法不同,Radeon Instinct 旗下的深度學(xué)習(xí)硬件將由 AMD 自家生產(chǎn)和進(jìn)行售后維護(hù),。這效仿了英偉達(dá)的做法,,目的是加強(qiáng)與業(yè)界的聯(lián)系和對(duì)產(chǎn)品、品牌的控制力,。
對(duì)于不太了解 AMD 顯卡產(chǎn)品線的讀者,,F(xiàn)iji 是上一代GPU 架構(gòu),Polaris 是當(dāng)前 RX 480/470/460 所采用的架構(gòu),而 Vega 是極有可能應(yīng)用于 RX 490,、新 Fury,,或者是 RX 5 系的下一代架構(gòu)。Vega 又分為 Vega 10 和 Vega 11 兩種規(guī)格,,目前已確定 Vega 10 是采用 HBM2(第二代 HBM 顯存) 的高端核心,。據(jù)悉,傳說中即將發(fā)布的 RX 490 或者新 Fury 將采用 Vega 10,。
AMD 的 GPU 路線圖:從 28 納米工藝到 Polaris 再到 Vega
軟件平臺(tái) ROCm
在深度學(xué)習(xí)計(jì)算軟件方面,,AMD 發(fā)布了 ROCm。 它全稱為“Radeon Open Compute platform”(“Radeon 開源計(jì)算平臺(tái)”),, 如同它的名字,,是 AMD 為超算和超大規(guī)模運(yùn)算開發(fā)的開源 GPU 運(yùn)算平臺(tái),它獨(dú)立于程序設(shè)計(jì)語言,。AMD 表示:ROCm 是他們把 UNIX 哲學(xué)中的選擇、極簡(jiǎn)主義和模塊化軟件開發(fā)帶到 GPU 計(jì)算的結(jié)果,。新的 ROCm 允許開發(fā)者選擇工具和語言運(yùn)行時(shí)( language run time ),,甚至進(jìn)行開發(fā)。
如同所有合理的機(jī)器學(xué)習(xí)市場(chǎng)項(xiàng)目,, ROCm 能支持多個(gè) GPU,,包括同個(gè)系統(tǒng)內(nèi)的 GPU 和多服務(wù)器場(chǎng)景。它能利用 RDMA peer-sync 技術(shù)簡(jiǎn)化多 GPU“交火”,。ROCm 的設(shè)計(jì)不但考慮了大規(guī)模服務(wù)器擴(kuò)展,,還內(nèi)置了編譯器(compilers)、語言運(yùn)行時(shí)和對(duì) CUDA 應(yīng)用的支持,。
另外,,AMD 還為深度學(xué)習(xí)開發(fā)了 MIOpen 庫,以充分利用 GCN 架構(gòu),。MIOpen 與 C++ STL,, NCCL 處在同個(gè)層級(jí),它的功能是連接程序設(shè)計(jì)語言和 ROCm 平臺(tái),,成為類似 Caffe 和 TensorFlow 的通用架構(gòu),。
MIOpen 的定位,最下層是 ROCm,。中間是 MIOpen,、 C++ 、STL,、NCCL 等,,最上層是 Caffe 和 TensorFlow 等框架
AMD 宣稱,有了 MIOpen, MI8 加速器的性能相當(dāng)于英偉達(dá)泰坦 X (Titan X Pascal),, 而 MI25 更是超出后者 30% 之多,。
左: MIOpen 與基于 GEMM 的卷積對(duì)比。右: 兩代泰坦與 MI8,、MI25 在 MIOpen 下性能對(duì)比,。
看來,這次 AMD 進(jìn)軍機(jī)器學(xué)習(xí)計(jì)算市場(chǎng)是認(rèn)真的,。未來,,AMD 的愿景應(yīng)該是,MI 系列硬件加速器,、ROCm 軟件平臺(tái)和基于 Zen 的 32 核以及 64 核服務(wù)器 CPU 三者合力,,為超算客戶提供一整套基于 AMD 產(chǎn)品線的解決方案。但相比在 AI 領(lǐng)域經(jīng)營(yíng)已久的藍(lán),、綠兩廠,,AMD 根基薄弱、資源有限,,而且入場(chǎng)時(shí)間已經(jīng)極大落后,。