隨著近幾年天河2號(hào)和神威太湖之光相繼在全球超級(jí)計(jì)算機(jī)公布的TOP500刷榜。在超級(jí)計(jì)算方面異構(gòu)計(jì)算已經(jīng)基本取代了同構(gòu)計(jì)算,,而且隨著Intel著力發(fā)展CPU+FPGA,,AMD大力研發(fā)CPU+GPU,異構(gòu)計(jì)算也將越來(lái)越多的進(jìn)入人們的視野,。在國(guó)外公司積極布局異構(gòu)計(jì)算的同時(shí),,國(guó)內(nèi)公司也不甘落后,。日前,,中國(guó)華夏芯公司宣布,,其異構(gòu)計(jì)算處理器IP核已經(jīng)在硅片上成功實(shí)現(xiàn),并已通過(guò)HSA(異構(gòu)系統(tǒng)架構(gòu))一致性測(cè)試,。公司還宣布了新的機(jī)器學(xué)習(xí)和深層神經(jīng)網(wǎng)絡(luò)的開(kāi)源項(xiàng)目,,旨在進(jìn)一步推動(dòng)HSA異構(gòu)計(jì)算的發(fā)展。
目前,,在HSA協(xié)會(huì)的推動(dòng)下,,異構(gòu)計(jì)算有向越來(lái)越多的領(lǐng)域侵蝕的趨勢(shì)。那么,,什么是異構(gòu)計(jì)算,?發(fā)展前景究竟如何?中國(guó)首個(gè)異構(gòu)計(jì)算處理器又憑什么在業(yè)界處于領(lǐng)先地位呢,?
什么是異構(gòu)計(jì)算
同構(gòu)計(jì)算是使用相同類(lèi)型指令集和體系架構(gòu)的計(jì)算單元組成系統(tǒng)的計(jì)算方式,。而異構(gòu)計(jì)算主要是指使用不同類(lèi)型指令集和體系架構(gòu)的計(jì)算單元組成系統(tǒng)的計(jì)算方式,常見(jiàn)的計(jì)算單元類(lèi)別包括CPU,、GPU,、DSP,、ASIC,、FPGA等。異構(gòu)計(jì)算用簡(jiǎn)單的公式可以表示為“CPU+XXX”,。舉例來(lái)說(shuō),,AMD著力發(fā)展的APU就屬于異構(gòu)計(jì)算,用公式表示就是CPU+GPU,。
由于術(shù)業(yè)有專(zhuān)攻,,CPU、GPU,、DSP,、ASIC、FPGA各有所長(zhǎng),,在一些場(chǎng)景下,,引入特定計(jì)算單元,,讓計(jì)算系統(tǒng)變成混合結(jié)構(gòu),就能讓CPU,、GPU,、DSP、FPGA執(zhí)行自己最擅長(zhǎng)的任務(wù),。如果能做到無(wú)縫地將運(yùn)行于CPU之上的通用計(jì)算,、運(yùn)行于GPU之上的并行計(jì)算、運(yùn)行于DSP之上或者ASIC/FPGA之上的優(yōu)化計(jì)算整合在一起,,就能獲得更好的應(yīng)用性能,,更低的功耗等特性,相對(duì)于同構(gòu)計(jì)算而言也可能有一定性能優(yōu)勢(shì),。
以天河2號(hào)的一個(gè)計(jì)算節(jié)點(diǎn)為例,。Xeon E5的滿(mǎn)載功耗達(dá)145W,雙精浮點(diǎn)為0.21T Flops,,而Xeon PHI功耗300W,,雙精浮點(diǎn)達(dá)1T Flops。
天河2號(hào)一個(gè)計(jì)算節(jié)點(diǎn)由2片Xeon E5和3片Xeon PHI,,理論雙精浮點(diǎn)性能為3.42T Flops,,功耗為1190W,理論雙精浮點(diǎn)性能與功耗的比值為2.87GFlops/W,。相同功耗下使用8片Xeon E5只能獲得1696Gflops的理論雙精浮點(diǎn)性能,,理論雙精浮點(diǎn)性能與功耗的比值為1.42GFlops/W。從數(shù)據(jù)可以看出,,在同等功耗下,,在使用Xeon PHI加速后,理論雙精浮點(diǎn)性能是只使用Xeon E5的2倍,。
正是因?yàn)楫悩?gòu)計(jì)算在理論上有著諸多的優(yōu)勢(shì),,一些媒體將“CPU+XXX”稱(chēng)為下一代處理器。
在超算上應(yīng)用廣泛
事實(shí)上,,最近幾年曾經(jīng)在TOP500刷榜,,或者排名靠前的超算都采用了異構(gòu)計(jì)算——中國(guó)神威太湖之光、美國(guó)超算泰坦,、中國(guó)天河1號(hào)和天河2號(hào),。
泰坦有18688個(gè)運(yùn)算節(jié)點(diǎn),每個(gè)運(yùn)算節(jié)點(diǎn)由1個(gè)16核心AMD Opteron 6274處理器和1個(gè)NVIDIA Tesla K20加速器組成,,共計(jì)299008個(gè)運(yùn)算核心,,屬于CPU+GPU。
天河1號(hào)使用了14336片Intel Xeon X5670處理器和7168片NVIDIA Tesla M2050高性能計(jì)算卡,,屬于CPU+GPU,。
天河2號(hào)有16000個(gè)計(jì)算節(jié)點(diǎn),,每個(gè)節(jié)點(diǎn)由2片Intel的E5 2692和3片Xeon PHI組成,共使用了32000片Intel的E5 2692和48000片Xeon PHI,,屬于CPU+眾核芯片,。正在升級(jí)的天河2號(hào)則將美國(guó)的Xeon PHI換成了自主研發(fā)的矩陣2000,屬于CPU+DSP,。
中國(guó)首個(gè)異構(gòu)計(jì)算處理器屬于自主研發(fā)
近年來(lái),,國(guó)家對(duì)集成電路產(chǎn)業(yè)發(fā)展高度重視,在龍芯,、申威等老牌設(shè)計(jì)單位取得累累碩果的同時(shí),,又成立了擁有1200億元人民幣的集成電路大基金扶持產(chǎn)業(yè)發(fā)展,先后與IBM,、VIA,、高通、AMD合資/合作成立兆芯,、宏芯,、華芯通等公司,并大力扶持展訊,、海思,、聯(lián)芯等ARM陣營(yíng)IC設(shè)計(jì)公司茁壯成長(zhǎng)。
不過(guò),,在上述公司中,,除了龍芯和申威之外,大多都對(duì)境外技術(shù)有一定依賴(lài),,有的還成為境外公司的馬甲,,既不具備造血能力,又只能依賴(lài)政府經(jīng)費(fèi)生存,??梢哉f(shuō),當(dāng)今開(kāi)發(fā)處理器的公司中魚(yú)龍混雜,,真正能做到自主研發(fā),、自主可控的少之又少,。
就是在業(yè)界普遍購(gòu)買(mǎi)國(guó)外技術(shù)授權(quán),,開(kāi)發(fā)所謂“國(guó)產(chǎn)”處理器的大背景下,華夏芯選擇了最為艱難的自主研發(fā)道路——其處理器的指令集和IP都屬于自主研發(fā),。
也許很多人從來(lái)沒(méi)有聽(tīng)說(shuō)過(guò)華夏芯這樣一家公司,,但該公司確實(shí)是中國(guó)第一家從事異構(gòu)計(jì)算處理器IP核設(shè)計(jì)的集成電路企業(yè)——華夏芯公司是一個(gè)定位于全球市場(chǎng)的中國(guó)公司,研發(fā)團(tuán)隊(duì)的來(lái)源也是全球化,,但是從技術(shù)到人才都掌握在華夏芯手中,,比如華夏芯的3合1“ Unity”體系架構(gòu)是其獨(dú)創(chuàng)技術(shù),,在同行業(yè)中也處于領(lǐng)先地位。
更難得的是,,華夏芯并沒(méi)有像一些商業(yè)公司那樣購(gòu)買(mǎi)ARM指令集,,而是公司自主開(kāi)發(fā)的指令集、微結(jié)構(gòu)和工具鏈,。因此,,在自主創(chuàng)新能力上,和一些購(gòu)買(mǎi)ARM 的IP授權(quán)開(kāi)發(fā)所謂“國(guó)產(chǎn)”CPU的國(guó)內(nèi)廠(chǎng)商有著本質(zhì)上的區(qū)別,。
華夏芯公司最近發(fā)布了一系列新的IP授權(quán)產(chǎn)品,,在全球范圍授權(quán)IP,為客戶(hù)提供一流的處理器設(shè)計(jì)技術(shù),。所有華夏芯的處理器均支持HSA,。對(duì)此,華夏芯的董事長(zhǎng)李科奕表示,,“我們很高興地看到華夏芯的新IP核通過(guò)了PRM HSA一致性測(cè)試,,面向工業(yè)、物聯(lián)網(wǎng),、高級(jí)駕駛輔助系統(tǒng)(ADAS)和嵌入式系統(tǒng),,該IP核對(duì)功耗進(jìn)行了優(yōu)化并向全球提供許可”。
據(jù)了解,,華夏芯還是中國(guó)唯二的可以對(duì)外授權(quán)IP的處理器公司(另一家是龍芯),,在中國(guó)大多數(shù)CPU公司還處于購(gòu)買(mǎi)國(guó)外IP做集成的時(shí)代,華夏芯能夠自己開(kāi)發(fā)IP并且能夠?qū)ν馐跈?quán)就顯得尤為難得,。目前,,華夏芯的CPU核可以通過(guò)IP授權(quán)的方式提供給客戶(hù),第一款CPU已經(jīng)在臺(tái)積電使用28nm HPC制成工藝流片,,2016年第3季度提供給潛在客戶(hù)作為評(píng)估或開(kāi)發(fā)之用,。
相對(duì)于國(guó)外大廠(chǎng)有何獨(dú)門(mén)絕技
中國(guó)首個(gè)異構(gòu)處理器相對(duì)于國(guó)外產(chǎn)品最大的特色就是3合1“ Unity”體系架構(gòu),。本次在硅片上實(shí)現(xiàn)的IP核是華夏芯3合1“ Unity”體系架構(gòu)的首次實(shí)現(xiàn),。Unity具有包括圖像和視頻處理在內(nèi)的多維信號(hào)處理能力。華夏芯美國(guó)研發(fā)中心的CTO Mayan Moudgill博士表示,,“矢量處理長(zhǎng)度可依據(jù)矢量計(jì)算的需求動(dòng)態(tài)設(shè)置,,最大配置達(dá)到64KB,滿(mǎn)足各種智能化應(yīng)用和高性能計(jì)算對(duì)并行計(jì)算的要求,,保證了指令架構(gòu)的穩(wěn)健性和軟件代碼的移植性,。變長(zhǎng)矢量處理單元(VPU)在進(jìn)行大量數(shù)據(jù)處理的同時(shí),結(jié)合了低功耗,、亂序執(zhí)行流水線(xiàn)等多項(xiàng)先進(jìn)技術(shù),,從而使多個(gè)控制線(xiàn)程高效地執(zhí)行”,。
值得關(guān)注的是,在華夏芯面向全球發(fā)布上述消息2天之后,,ARM也發(fā)布了與其類(lèi)似的V8-A的矢量擴(kuò)展架構(gòu)(SVE),,其技術(shù)特征與華夏芯推出的VPU單元極為相似。這說(shuō)明,,真正從事自主創(chuàng)新的國(guó)產(chǎn)處理器設(shè)計(jì)公司完全可以在核心技術(shù)上達(dá)到國(guó)際領(lǐng)先水平,,其創(chuàng)新能力要遠(yuǎn)遠(yuǎn)優(yōu)于那些通過(guò)IP授權(quán)設(shè)計(jì)CPU的公司,畢竟后者在自主創(chuàng)新的空間上受到授權(quán)許可方極其嚴(yán)苛的各種限制,。
另外,,市場(chǎng)上有很多SOC也集成了CPU、GPU,、DSP等計(jì)算單元,,比如像高通驍龍芯片、華為海思麒麟芯片都集成了CPU,、GPU和DSP,。那么,華夏芯3合1“ Unity”體系架構(gòu)和市面上普遍存在的SOC有哪些優(yōu)勢(shì)呢,?
之前提到的SOC的CPU,、GPU、DSP的指令架構(gòu)不同,,微架構(gòu)不同,,工具鏈不同,是基于多核集成做出來(lái)的異構(gòu)多核芯片,,它們往往采用操作系統(tǒng)完成多核,、多任務(wù)之間的同步與協(xié)調(diào),因而會(huì)影響效率,。在這里特別強(qiáng)調(diào)一下,,傳統(tǒng)的SOC多核編程非常難,雖然在物理上實(shí)現(xiàn)了單芯片多核集成,,但是在開(kāi)發(fā)習(xí)慣和流程上與傳統(tǒng)的板上集成系統(tǒng)沒(méi)有太大的不同,,即性能不高、功耗不小,、多套工具,、多個(gè)團(tuán)隊(duì)、開(kāi)發(fā)困難,、優(yōu)化更難,。
相比之下,基于華夏芯Unity架構(gòu)的芯片單核已經(jīng)具備CPU,、IVP(image and video processor),、DSP的處理能力,而且是一套指令架構(gòu),,一套微架構(gòu),,一套工具鏈。在做多核擴(kuò)展,、硬件加速器和FPGA的整合工作時(shí),,華夏芯的Utility體系架構(gòu)將完全遵循HSA的規(guī)范,可以重用HSA的軟件生態(tài)系統(tǒng),。因此,,華夏芯的3合1做法在功耗、成本,、性能,、軟件開(kāi)發(fā)門(mén)檻、團(tuán)隊(duì)規(guī)模等方面都有巨大的優(yōu)勢(shì),。
異構(gòu)計(jì)算市場(chǎng)前景如何
異構(gòu)計(jì)算在理論上相對(duì)于同構(gòu)計(jì)算擁有很多優(yōu)勢(shì)——HSA能夠簡(jiǎn)化芯片結(jié)構(gòu)設(shè)計(jì),、降低應(yīng)用編程門(mén)檻、縮短項(xiàng)目研發(fā)周期,、顯著提升芯片性能,、廣泛共享軟件生態(tài)。有廠(chǎng)家甚至宣傳異構(gòu)計(jì)算可以實(shí)現(xiàn)任何程序都不必費(fèi)心考慮不同處理器內(nèi)核之間的存儲(chǔ)差異,。但在現(xiàn)階段,,異構(gòu)計(jì)算除了在超算上取得了明顯成績(jī),在其他領(lǐng)域優(yōu)勢(shì)并不大,。
即便異構(gòu)計(jì)算目前還存在這樣或那樣的一些問(wèn)題,,但卻是非常具有發(fā)展?jié)摿Φ募夹g(shù)。隨著技術(shù)的進(jìn)步,,電子消費(fèi)品市場(chǎng)對(duì)于高性能并行計(jì)算的需求正在爆發(fā)性增長(zhǎng),,特別是在機(jī)器視覺(jué)、人工智能,、云計(jì)算,、AR/VR、軟件定義無(wú)線(xiàn)電以及其他新興領(lǐng)域,,都對(duì)異構(gòu)計(jì)算系統(tǒng)有著非常大的需求,。而HSA在系統(tǒng)編程方式上的邁進(jìn)使得一個(gè)復(fù)雜片上系統(tǒng)能夠協(xié)調(diào)在并行計(jì)算上比CPU更高效、更低功耗的GPU,、DSP以及硬件加速器等計(jì)算單元承擔(dān)大部分繁重的計(jì)算工作任務(wù),,在上述新興領(lǐng)域能發(fā)揮較理想的作用。
也正是因此,Parmance公司計(jì)劃與華夏芯在ML-HSA項(xiàng)目上進(jìn)行合作——該項(xiàng)目面向機(jī)器學(xué)習(xí)和深層神經(jīng)網(wǎng)絡(luò),,并針對(duì)華夏芯此前發(fā)起的開(kāi)源gccbrig項(xiàng)目進(jìn)行優(yōu)化,,gccbrig項(xiàng)目為任何支持GCC的平臺(tái)提供編譯(終結(jié)轉(zhuǎn)換)功能。
國(guó)外巨頭也一直著力發(fā)展異構(gòu)計(jì)算系統(tǒng)——Intel在去年以167億美元收購(gòu)阿爾特拉,,發(fā)展CPU+FPGA,,AMD著力發(fā)展的APU也屬于異構(gòu)計(jì)算,像Imagination,、MTK等一些廠(chǎng)商也在異構(gòu)計(jì)算領(lǐng)域積極布局,。可以說(shuō),,異構(gòu)計(jì)算的市場(chǎng)前景還是值得期待的,。
結(jié)語(yǔ)
雖然在CPU、GPU,、DSP等傳統(tǒng)芯片上,,中國(guó)與西方還有這比較大的差距,但在異構(gòu)計(jì)算處理器上,,中國(guó)與國(guó)際先進(jìn)水平差距小,,局部甚至還處于領(lǐng)先地位,可以說(shuō),,本次華夏芯成功研發(fā)的異構(gòu)計(jì)算處理器則是中國(guó)在該領(lǐng)域的有益嘗試,。