隨著GPU在數(shù)據(jù)中心當(dāng)中的應(yīng)用越來(lái)越普及,原本用于CPU的MCM(多芯片封裝模塊)開(kāi)始向GPU領(lǐng)域滲透,特別是在高性能計(jì)算領(lǐng)域,,在業(yè)界受到了越來(lái)越多的關(guān)注,。
近日,在AMD第二季度財(cái)報(bào)中,,該公司確認(rèn)了其具有第二代 CDNA 架構(gòu)的下一代 Instinct MI200加速器的初始出貨量,。據(jù)悉,MI200配置了Aldebaran GPU,,這是一個(gè)雙芯片處理器,,采用了MCM封裝。該GPU開(kāi)始出貨,,標(biāo)志著AMD成為第一家向客戶(hù)交付采用MCM技術(shù)的GPU公司,,領(lǐng)先于競(jìng)爭(zhēng)對(duì)手英特爾和英偉達(dá)(NVIDIA)。
何為MCM,?
MCM是由同一器件中的多個(gè)Die(兩個(gè)或更多)組成的電子封裝系統(tǒng),。它安裝在基板上,襯底上的管芯由導(dǎo)線連接,。
與傳統(tǒng)架構(gòu)(如用于GPU的SLI和CrossFire)相比,,MCM可提供更高的性能,并減小組件的尺寸,。通過(guò)MCM封裝系統(tǒng),,器件或模塊可以克服重量和尺寸限制,并提供超過(guò)30%的效率,。
MCM的優(yōu)點(diǎn)可以概括如下:更高的可靠性,;更靈活地集成不同的半導(dǎo)體技術(shù);通過(guò)減少陣列之間互連的長(zhǎng)度來(lái)提高性能,;尺寸更?。划a(chǎn)品可快速上市,;降低了復(fù)雜性并簡(jiǎn)化了設(shè)計(jì),。
通常,MCM模塊有3種類(lèi)型,,具體取決于基板技術(shù):MCM層壓 ( MCM-L ),、沉積 ( MCM-D ) 和陶瓷 ( MCM-C )。
以前,,MCM主要用于CPU,,最近逐步進(jìn)入GPU領(lǐng)域。
MCM用于GPU的優(yōu)勢(shì)和挑戰(zhàn)
MCM GPU與傳統(tǒng)帶有多個(gè)GPU的顯卡之間的最大區(qū)別在于,前者是一個(gè)單獨(dú)的封裝,,后者是一個(gè)PCB板卡,,前者的板載橋接器取代了兩個(gè)獨(dú)立顯卡之間的Crossfire或SLI橋接器。
傳統(tǒng)的SLI 和 CrossFire需要 PCIe 總線來(lái)交換數(shù)據(jù),、紋理,、同步等。由于GPU之間的渲染時(shí)間會(huì)產(chǎn)生同步問(wèn)題,,因此在許多情況下,,傳統(tǒng)的雙GPU顯卡,即單個(gè)PCB上的兩個(gè)芯片由它互連,,每個(gè)芯片都有自己的VRAM,。SLI或CrossFire的能耗很大,冷卻也是一個(gè)挑戰(zhàn),,這些在很長(zhǎng)一段時(shí)間內(nèi)都困擾著工程師,。
MCM GPU就是為了解決以上問(wèn)題而出現(xiàn)的。不過(guò),,MCM GPU并不完美,,它同樣面對(duì)著諸多技術(shù)挑戰(zhàn)和難題。
在進(jìn)行MCM GPU設(shè)計(jì)之前,,需要解決封裝和互連方面的軟件問(wèn)題,,因?yàn)閮蓚€(gè)或更多GPU,無(wú)論多么緊密地連接在一起,,要想在一起協(xié)同工作,,并不是一件容易的事。MCM作為能夠用于并行處理的組件,,其GPU之間使用不同的內(nèi)存訪問(wèn),,設(shè)計(jì)的復(fù)雜性會(huì)成倍增加。這需要開(kāi)發(fā)人員在軟件方面進(jìn)行大量“修補(bǔ)”,。在消費(fèi)級(jí)的PC應(yīng)用方面,,很少有游戲玩家實(shí)際運(yùn)行多GPU設(shè)置,因?yàn)槠浠貓?bào)很少,,因此沒(méi)有人愿意做這么多的軟件工作,。不過(guò),如果應(yīng)用于數(shù)據(jù)中心和云計(jì)算,,情況就不同了,,這樣的高性能計(jì)算應(yīng)用對(duì)GPU提出了更高的要求。雖然多芯片GPU系統(tǒng)還是新生事物,,許多圖形工作負(fù)載不能很好地?cái)U(kuò)展(有些甚至根本不能擴(kuò)展),,但每臺(tái)服務(wù)器有多個(gè)GPU,,由于具有超級(jí)計(jì)算和數(shù)據(jù)中心的并行化性質(zhì),這就可以很好地?cái)U(kuò)展工作量,。
而如果能解決MCM GPU的瓶頸問(wèn)題,,回報(bào)將是誘人的。這也正是MCM GPU首先出現(xiàn)在數(shù)據(jù)中心應(yīng)用領(lǐng)域的主要原因,,今后,,隨著技術(shù)的不斷成熟,,以及PC應(yīng)用性能的提升,,其在消費(fèi)電子領(lǐng)域的應(yīng)用也將會(huì)出現(xiàn)。
三強(qiáng)爭(zhēng)霸
在企業(yè)界,,最早應(yīng)用MCM技術(shù)的是IBM,,那是在上世紀(jì)70年代和80年代之間,主要用于該公司的POWER架構(gòu)CPU,。而將MCM發(fā)揚(yáng)光大的是英特爾,,自然也是用于CPU。2013年,,該公司的22nm制程處理器Haswell就用到了該技術(shù),。2014年,14nm制程的Broadwell 架構(gòu)問(wèn)世,,這是一個(gè)SoC平臺(tái),,它使用了“堆疊”基板架構(gòu),也就是MCM,,將多個(gè)陣列垂直堆疊在了一起,。
最近幾年,英特爾開(kāi)始研發(fā)獨(dú)立的GPU,,也就是其Xe架構(gòu)產(chǎn)品,,為了順應(yīng)技術(shù)發(fā)展和應(yīng)用需求,該公司開(kāi)始將MCM應(yīng)用于其最新的GPU產(chǎn)品,,據(jù)悉是基于Xe HPC架構(gòu)的Ponte Vecchio加速器,,但具體問(wèn)世時(shí)間還未確定。
AMD則快人一步,。2020年,,該公司把游戲卡與專(zhuān)業(yè)卡的GPU架構(gòu)分家了,游戲卡的架構(gòu)是RDNA,,而專(zhuān)業(yè)卡的架構(gòu)叫做CDNA,,首款產(chǎn)品是Instinct MI100系列。今年6月,,AMD首席執(zhí)行官蘇姿豐博士提到了CDNA 2架構(gòu)及其產(chǎn)品,,表示會(huì)在年內(nèi)推出,,不久前發(fā)布的Q2財(cái)報(bào)則確認(rèn)CDNA 2 GPU已經(jīng)向客戶(hù)發(fā)貨了。CDNA 2基于CDNA架構(gòu),,是專(zhuān)為數(shù)據(jù)中心設(shè)計(jì)的,。
近日,AMD更新了CDNA 2的說(shuō)明,,其GPU核心代號(hào)是Aldebaran,,它會(huì)成為AMD第一款采用MCM多芯片封裝的產(chǎn)品,也就是Instinct MI200,。Aldebaran是AMD的第一款MCM GPU,,但它是為數(shù)據(jù)中心準(zhǔn)備的。在PC方面,,2022年引入下一代RDNA 3架構(gòu)后,,基于MCM的消費(fèi)級(jí)Radeon GPU也會(huì)出現(xiàn)。
據(jù)悉,,采用MCM封裝的CDNA 2內(nèi)部將整合兩個(gè)Die,,每個(gè)芯片上有128組CU單元,如果每組CU還是128個(gè)流處理器的話(huà),,預(yù)計(jì)會(huì)擁有16384個(gè)流處理器,,預(yù)計(jì)還會(huì)搭載128GB的HBM2e顯存,而目前的Instinct MI100只有7680個(gè)流處理器,,搭載32GB的HBM2顯存,。
制造多芯片計(jì)算 GPU 類(lèi)似于制造多核 MCM CPU,例如Ryzen 5000或Threadripper處理器,。首先,,將芯片靠得更近可以提高計(jì)算效率。AMD 的 Infinity 架構(gòu)確保了高性能互連,,有望使兩個(gè)芯片的效率接近一個(gè)的,。其次,使用先進(jìn)的工藝技術(shù)批量生產(chǎn)多個(gè)小芯片比大芯片更容易,,因?yàn)樾⌒酒ǔH毕葺^少,,因此比大芯片的產(chǎn)量更好。
AMD 的合作伙伴HPE證實(shí),,即將推出的 Frontier 超級(jí)計(jì)算機(jī)將使用 AMD 代號(hào)為 Trento CPU(最有可能是具有額外緩存或其他增強(qiáng)功能的 Milan 版本)和 Instinct MI200 加速器,,成為世界上最快的超級(jí)計(jì)算機(jī),峰值性能為 1.5 ExaFLOPS,。
除了AMD和英特爾,,另一大GPU廠商英偉達(dá)也在摩拳擦掌,很可能緊隨AMD之后推出其首款MCM GPU產(chǎn)品Hopper,。
據(jù)悉,,Hopper GPU架構(gòu)是為數(shù)據(jù)中心應(yīng)用專(zhuān)門(mén)設(shè)計(jì)的,,與英偉達(dá)的Ampere架構(gòu)產(chǎn)品不同,后者同時(shí)服務(wù)于 GPGPU(數(shù)據(jù)中心/工作站)和游戲市場(chǎng),。
早期的爆料稱(chēng),,Hopper由兩個(gè)稱(chēng)為GPM 的GPU 模組構(gòu)成,每個(gè)模組有144 個(gè)SM 單元,,同時(shí)Hopper 由于是專(zhuān)為運(yùn)算所規(guī)劃的架構(gòu),,相較Ampere 應(yīng)該會(huì)取消用于光線追蹤加速的RT Core ,并強(qiáng)化包括FP64 ,、 FP16 與Tensor Core 等運(yùn)算與AI 技術(shù)會(huì)使用到的單元,。
據(jù)悉,Hopper GPU 將采用臺(tái)積電的5nm制程工藝,,性能比 Ampere 提高 3 倍,。這是一個(gè)很大的提升,具體情況如何,,還要看今后爆出的更多關(guān)于Hopper的信息。
有報(bào)道稱(chēng),,Hopper GPU很快就會(huì)流片,。
據(jù)悉,推出Hopper GPU之后,,英偉達(dá)還將推出Ampere Next 和 Ampere Next Next,,它們將采用MCM封裝。Ampere Next GPU 預(yù)計(jì)在 2022 年推出,,而 Ampere Next Next 將在 2024 年推出,。
結(jié)語(yǔ)
MCM的自身特點(diǎn)使其在高性能計(jì)算領(lǐng)域如魚(yú)得水,不只是是CPU,,如今在GPU領(lǐng)域也得到了拓展,,而隨著數(shù)據(jù)中心、邊緣云,、物聯(lián)網(wǎng)的發(fā)展,,以及CPU、GPU,、DPU等產(chǎn)品形態(tài)的日益增多和復(fù)雜,,留給MCM的發(fā)展空間可能會(huì)越來(lái)越大。
新技術(shù)產(chǎn)品和應(yīng)用的發(fā)展給以MCM為代表的芯片封裝,、整合技術(shù)提供了更多的想象空間,。