日前,,中國華夏芯公司宣布,,其異構(gòu)計(jì)算處理器IP核已經(jīng)在硅片上成功實(shí)現(xiàn),,并已通過HSA(異構(gòu)系統(tǒng)架構(gòu))一致性測試。公司還宣布了新的機(jī)器學(xué)習(xí)和 深層神經(jīng)網(wǎng)絡(luò)的開源項(xiàng)目,,旨在進(jìn)一步推動HSA異構(gòu)計(jì)算的發(fā)展,。本次華夏芯推出的產(chǎn)品則是國內(nèi)企業(yè)在異構(gòu)計(jì)算上的技術(shù)突破,并有望在人工智能,、機(jī)器視覺、 工業(yè)4.0,、移動通信,、無人機(jī)等領(lǐng)域推廣應(yīng)用。
什么是異構(gòu)計(jì)算
同構(gòu)計(jì)算是使用相同類型指令集和體系架構(gòu)的計(jì)算單元組成系統(tǒng)的計(jì)算方式,。而異構(gòu)計(jì)算主要是指使用不同類型指令集和體系架構(gòu)的計(jì)算單元組成系統(tǒng)的計(jì)算方 式,,常見的計(jì)算單元類別包括CPU、GPU,、DSP,、ASIC、FPGA等,。異構(gòu)計(jì)算用簡單的公式可以表示為“CPU+XXX”,,究其本質(zhì)而言Cpu+本 質(zhì)上指的是單核與多核能力的提升。舉例來說,,AMD著力發(fā)展的APU就屬于異構(gòu)計(jì)算,,用公式表示就是CPU+GPU。
由于術(shù)業(yè)有專 攻,,CPU,、GPU、DSP,、ASIC,、FPGA各有所長,在一些場景下,引入特定計(jì)算單元,,讓計(jì)算系統(tǒng)變成混合結(jié)構(gòu),,就能讓CPU、GPU,、DSP,、 FPGA執(zhí)行自己最擅長的任務(wù)。如果能做到無縫地將運(yùn)行于CPU之上的通用計(jì)算,、運(yùn)行于GPU之上的并行計(jì)算,、運(yùn)行于DSP之上或者ASIC/FPGA之 上的優(yōu)化計(jì)算整合在一起,就能獲得更好的應(yīng)用性能,,更低的功耗等特性,,相對于同構(gòu)計(jì)算而言也可能有一定性能優(yōu)勢。
在超算上已經(jīng)得到廣泛應(yīng)用
其實(shí),,異構(gòu)計(jì)算對大家而言并不陌生,,在TOP500刷榜的天河2號和神威太湖之光都采用了異構(gòu)計(jì)算。其原因就在于異構(gòu)計(jì)算能帶來很高的性能和性能功耗比,,以天河2號的一個(gè)計(jì)算節(jié)點(diǎn)為例,。
Xeon E5的滿載功耗達(dá)145W,雙精浮點(diǎn)為0.21T Flops,,而Xeon PHI功耗300W,,雙精浮點(diǎn)達(dá)1T Flops。
天河2號一個(gè)計(jì)算節(jié)點(diǎn)由2片Xeon E5和3片Xeon PHI,,理論雙精浮點(diǎn)性能為3.42T Flops,,功耗為1190W,理論雙精浮點(diǎn)性能與功耗的比值為2.87GFlops/W,。相同功耗下使用8片Xeon E5只能獲得1696Gflops的理論雙精浮點(diǎn)性能,,理論雙精浮點(diǎn)性能與功耗的比值為1.42GFlops/W。從數(shù)據(jù)可以看出,,在同等功耗下,,在使用 Xeon PHI加速后,理論雙精浮點(diǎn)性能與是只使用Xeon E5的2倍,。
正是因?yàn)楫悩?gòu)計(jì)算在理論上有著諸多的優(yōu)勢,,一些媒體將“CPU+XXX”稱為下一代處理器。
指令集自主開發(fā)
HSA協(xié)會正在推動異構(gòu)計(jì)算向各個(gè)方面普及,,而華夏芯則是其中的一份子,,共同推動異構(gòu)計(jì)算向越來越多的領(lǐng)域普及。
也許很多人從來沒有聽說過華夏芯這樣一家公司,,但該公司確實(shí)是中國第一家從事異構(gòu)計(jì)算處理器IP核設(shè)計(jì)的集成電路企業(yè)——華夏芯公司是一個(gè)定位于全球市場的中國公司,,研發(fā)團(tuán)隊(duì)的來源也是全球化,,但是從技術(shù)到人才都掌握在華夏芯手中,比如華夏芯的3合1“ Unity”體系架構(gòu)是其獨(dú)創(chuàng)技術(shù),,在同行業(yè)中也處于領(lǐng)先地位,。
更難得的是,華夏芯并沒有像一些商業(yè)公司那樣購買ARM指令集,,而是公司自主開發(fā)的指令集,、微結(jié)構(gòu)和工具鏈。因此,,在自主創(chuàng)新能力上,,和一些購買ARM IP授權(quán)開發(fā)所謂“國產(chǎn)”CPU的國內(nèi)廠商有著本質(zhì)上的區(qū)別。
可以對外授權(quán)IP
華夏芯公司最近發(fā)布了一系列新的IP授權(quán)產(chǎn)品,,在全球范圍授權(quán)IP,,為客戶提供一流的處理器設(shè)計(jì)技術(shù)。所有華夏芯的處理器均支持HSA,。對此,,華夏芯的 董事長李科奕表示,“我們很高興地看到華夏芯的新IP核通過了PRM HSA一致性測試,,面向工業(yè),、物聯(lián)網(wǎng)、高級駕駛輔助系統(tǒng)(ADAS)和嵌入式系統(tǒng),,該IP核對功耗進(jìn)行了優(yōu)化并向全球提供許可”,。
據(jù)了 解,華夏芯還是中國唯二的可以對外授權(quán)IP的處理器公司(另一家是龍芯),,在中國大多數(shù)CPU公司還處于購買國外IP做集成的時(shí)代,,華夏芯能夠自己開發(fā) IP并且能夠?qū)ν馐跈?quán)就顯得尤為難得,。目前,,華夏芯的CPU核可以通過IP授權(quán)的方式提供給客戶,第一款CPU已經(jīng)在臺積電使用28nm HPC制成工藝流片,,2016年第3季度提供給潛在客戶作為評估或開發(fā)之用,。
在技術(shù)創(chuàng)新上可圈可點(diǎn)
本次在硅片上實(shí)現(xiàn)的IP核是華夏芯3合1“ Unity”體系架構(gòu)的首次實(shí)現(xiàn)。Unity具有包括圖像和視頻處理在內(nèi)的多維信號處理能力,。華夏芯美國研發(fā)中心的CTO Mayan Moudgill博士表示,,“矢量處理長度可依據(jù)矢量計(jì)算的需求動態(tài)設(shè)置,最大配置達(dá)到64KB,,滿足各種智能化應(yīng)用和高性能計(jì)算對并行計(jì)算的要求,,保證 了指令架構(gòu)的穩(wěn)健性和軟件代碼的移植性。變長矢量處理單元(VPU)在進(jìn)行大量數(shù)據(jù)處理的同時(shí),,結(jié)合了低功耗,、亂序執(zhí)行流水線等多項(xiàng)先進(jìn)技術(shù),從而使多個(gè) 控制線程高效地執(zhí)行”。
值得關(guān)注的是,,在華夏芯面向全球發(fā)布上述消息2天之后,,ARM也發(fā)布了與其類似的V8-A的矢量擴(kuò)展架構(gòu) (SVE),其技術(shù)特征與華夏芯推出的VPU單元極為相似,。這說明,,真正從事自主創(chuàng)新的國產(chǎn)處理器設(shè)計(jì)公司完全可以在核心技術(shù)上達(dá)到國際領(lǐng)先水平,其創(chuàng)新 能力要遠(yuǎn)遠(yuǎn)優(yōu)于那些通過IP授權(quán)設(shè)計(jì)CPU的公司,,畢竟后者在自主創(chuàng)新的空間上受到授權(quán)許可方極其嚴(yán)苛的各種限制和制約,。
和SOC有哪些不同
在市場上有很多SOC也集成了CPU、GPU,、DSP等計(jì)算單元,,比如像高通驍龍芯片、華為海思麒麟芯片都集成了CPU,、GPU和DSP,。那么華夏芯與這些SOC有哪些不同呢?
之前提到的SOC的CPU,、GPU,、DSP的指令架構(gòu)不同,微架構(gòu)不同,,工具鏈不同,,是基于多核集成做出來的異構(gòu)多核芯片,它們往往采用操作系統(tǒng)完成多 核,、多任務(wù)之間的同步與協(xié)調(diào),,因而會影響效率。在這里特別強(qiáng)調(diào)一下,,傳統(tǒng)的SOC多核編程非常難,,雖然在物理上實(shí)現(xiàn)了單芯片多核集成,但是在開發(fā)習(xí)慣和流 程上與傳統(tǒng)的板上集成系統(tǒng)沒有太大的不同,,即性能不高,,功耗不小,多套工具,,多個(gè)團(tuán)隊(duì),,開發(fā)困難,優(yōu)化更難,。
相比之下,,基于華夏芯 Unity架構(gòu)的芯片單核已經(jīng)具備CPU、IVP(image and video processor),、DSP的處理能力,,而且是一套指令架構(gòu),,一套微架構(gòu),一套工具鏈,。在做多核擴(kuò)展,、硬件加速器和FPGA的整合工作時(shí),華夏芯的 Utility體系架構(gòu)將完全遵循HSA的規(guī)范,,可以重用HSA的軟件生態(tài)系統(tǒng),。因此,華夏芯的3合1做法在功耗,、成本,、性能、軟件開發(fā)門檻,、團(tuán)隊(duì)規(guī)模等 方面都有巨大的優(yōu)勢,。
將被用于機(jī)器學(xué)習(xí)
由于機(jī)器學(xué)習(xí)的算法在許多應(yīng)用中被使用,且大多數(shù)算法代理(agent)需要高度并行計(jì)算,,這就導(dǎo)致HSA平臺正是這些算法的理想選擇,,特別是華夏芯 CPU+DSP+IVP的特性使其擁有性能功耗比方面的優(yōu)勢。也正是因此,,Parmance公司計(jì)劃與華夏芯在ML-HSA項(xiàng)目上進(jìn)行合作——該項(xiàng)目面向 機(jī)器學(xué)習(xí)和深層神經(jīng)網(wǎng)絡(luò),,并針對華夏芯此前發(fā)起的開源gccbrig項(xiàng)目進(jìn)行優(yōu)化,gccbrig項(xiàng)目為任何支持GCC的平臺提供編譯(終結(jié)轉(zhuǎn)換)功能,。
至于華夏芯是否會遭遇軟件生態(tài)的掣肘,,HSA協(xié)會主席兼華夏芯美國研發(fā)中心的CEO John Glossner博士認(rèn)為,HSA的成員公司無需單獨(dú)建設(shè)生態(tài)系統(tǒng),,而是由包括全球主要處理器廠商在內(nèi)的HSA聯(lián)盟一起共建生態(tài)系統(tǒng),,在這種情況下,成功 的概率要高很多,?!霸谶^去的四年中,HSA聯(lián)盟已經(jīng)開發(fā)了硬件和軟件基礎(chǔ)架構(gòu)來支持異構(gòu)系統(tǒng),。開發(fā)者生態(tài)系統(tǒng)支持編譯器,、運(yùn)行時(shí)(runtime)等開源 實(shí)現(xiàn),。HSA聯(lián)盟還致力于提供跨HSA平臺的可移植應(yīng)用,。我很高興華夏芯能夠參與HSA開發(fā)者和應(yīng)用編程生態(tài)系統(tǒng)”,John表示,。
結(jié)語
雖然在CPU,、GPU、DSP等傳統(tǒng)芯片上,,中國與西方還有這比較大的差距,,但在異構(gòu)計(jì)算處理器上,,中國與國際先進(jìn)水平差距小,甚至在某些領(lǐng)域還處于領(lǐng) 先,,比如繼天河2號之后,,國產(chǎn)超級計(jì)算機(jī)神威太湖一號再次登頂世界TOP500,成為世界上運(yùn)算速度最快的計(jì)算機(jī),。本次華夏芯成功研發(fā)的異構(gòu)計(jì)算處理器則 是中國在該領(lǐng)域的有益嘗試,。在此,筆者衷心祝愿華夏芯以及龍芯,、申威等從事自主創(chuàng)新的處理器公司能夠在我們這一代人的手上完成國產(chǎn)自主處理器的創(chuàng)新和領(lǐng) 先,,徹底解決國家信息安全受制于人,信息產(chǎn)業(yè)發(fā)展受制于人的困境,。