在全球超算領(lǐng)域,,中美一直在爭(zhēng)奪算力第一的位置,,此外,,日本和歐洲是兩股重要力量,。而在超級(jí)計(jì)算機(jī)的核心——處理器方面,也是八仙過(guò)海,,各顯神通,,特別是在處理器架構(gòu)方面,業(yè)界有著不同的路線:有的采用傳統(tǒng)的x86以及IBM的Power,,有的采用最新的并行異構(gòu)計(jì)算體系,,還有一個(gè)就是ARM服務(wù)器架構(gòu)。
上周,,在Hotchips會(huì)議上,,富士通公司公布了號(hào)稱最強(qiáng)ARM處理器A64FX,其集成了48+4個(gè)核心,,配備32GB HBM 2內(nèi)存,,帶寬1TB/s,浮點(diǎn)性能2.7TFLOPS,,使用7nm工藝生產(chǎn),。該處理器將用于日本新一代代號(hào)為Post-K的百億億次超算,據(jù)悉,,其性能將是現(xiàn)在的京式超算的100倍,,而能耗只有三倍,。
日本現(xiàn)在的超算京(Kyo)是富士通聯(lián)合日本理化研究所開發(fā)的,,使用的處理器是SPARC64架構(gòu),而新一代的百億億次超算將使用全新研發(fā)的處理器A64FX,,與現(xiàn)有的超算相比,,新一代Post-K超算最大的變化就是處理器從SPARC64架構(gòu)全面轉(zhuǎn)向了ARM,,富士通還聯(lián)合ARM推出了SVE(可伸縮矢量擴(kuò)展)指令集,大幅強(qiáng)化浮點(diǎn)性能,。
據(jù)悉,,A64FX處理器使用了ARM的ARMv8.2-A指令集,浮點(diǎn)單元?jiǎng)t是上面提到的SVE,,支持512bit位寬浮點(diǎn)運(yùn)算,。這個(gè)處理器的架構(gòu)設(shè)計(jì)也很特別,有48個(gè)計(jì)算核心及4個(gè)協(xié)助核心組成,,分為四個(gè)CMG單元,,每個(gè)單元13個(gè)核心,28Gbps I/O帶寬,,16條PCIe 3.0通道,。
A64FX處理器將使用7nm FinFET工藝生產(chǎn),87.86億個(gè)晶體管,,性能可達(dá)2.7TFLOPS,,是前代的SPARC V9處理器1.1TFLOPS的2.5倍左右。
根據(jù)富士通公布的信息,,目前A64FX處理器已經(jīng)完成原型開發(fā),,新一代超算已經(jīng)進(jìn)入功能測(cè)試階段。
富士通這一處理器產(chǎn)品的推出,,特別是該公司將原有的超算處理器架構(gòu)由原來(lái)的SPARC64全面轉(zhuǎn)向了ARM,,無(wú)疑是給當(dāng)下的ARM服務(wù)器市場(chǎng)打了一針強(qiáng)心劑。
全球服務(wù)器市場(chǎng)的ARM元素
在當(dāng)今的服務(wù)器CPU架構(gòu)領(lǐng)域,,ARM明顯處于弱勢(shì)地位,,市場(chǎng)主要由x86主導(dǎo),另外還有Power,。在美國(guó),,ARM服務(wù)器CPU聲勢(shì)越來(lái)越弱,高通,、AMD等大廠紛紛裁撤在該方面的投入,。
ARM服務(wù)器CPU主要應(yīng)用包括商用和超算等,下面就以超算應(yīng)用為例,,因?yàn)樗€是比較有代表性的,。
今年6月,美國(guó)能源部與IBM,、英偉達(dá)合作打造出了新一代超級(jí)計(jì)算機(jī),,名為Summit。其峰值運(yùn)算性能達(dá)到200PFlops,,也就是每秒執(zhí)行20億億次浮點(diǎn)運(yùn)算,,是迄今為止性能最強(qiáng)的超級(jí)計(jì)算機(jī),,也標(biāo)志著自2012年以來(lái)美國(guó)超算超越中國(guó),再次奪冠,。Summit基于IBM的Power Systems AC922做節(jié)點(diǎn),,每個(gè)節(jié)點(diǎn)搭載2個(gè)Power9處理器和6個(gè)NVIDIA Tesla V100 GPU顯卡,總共設(shè)計(jì)約4600個(gè)節(jié)點(diǎn),。
可見,,美國(guó)的超算更看好CPU+GPU的發(fā)展路線。
而全球超算兩強(qiáng)之一的中國(guó),,在處理器架構(gòu)方面,,則呈現(xiàn)百花齊放,并行發(fā)展的態(tài)勢(shì),。
中國(guó)現(xiàn)在同時(shí)啟動(dòng)了三大百億億次超算研發(fā)項(xiàng)目,,分別是國(guó)防科大/天津超算中心的“天河三號(hào)”、中科曙光的E級(jí)超算以及江南所/濟(jì)南超算中心的“神威”E級(jí),。以上三套百億億次超算中,,核心處理器都將是國(guó)產(chǎn)的。
其中,,“天河三號(hào)”采取的技術(shù)路線則是基于ARM構(gòu)架處理器,,中科曙光則選擇了類似于美國(guó)主流超算的CPU+GPU技術(shù)路線,“神威”采用的是眾核異構(gòu)體系——國(guó)產(chǎn)申威SW26010處理器,。
此外,,歐盟預(yù)計(jì)于2022~2023年交付首臺(tái)E級(jí)超算,使用的是美國(guó),、歐盟處理器,,架構(gòu)有可能類似ARM。
以上主要給出全球超算市場(chǎng)的處理器架構(gòu)情況,,而在商用服務(wù)器市場(chǎng),,ARM處理器應(yīng)用情況與超算沒有太大的差別??梢?,ARM架構(gòu)在全球服務(wù)器市場(chǎng)是處于弱勢(shì)地位的。
但隨著中國(guó)在ARM服務(wù)器研發(fā)上的發(fā)力,,以及日本的代表企業(yè)富士通將超算處理器架構(gòu)由SPARC64全面轉(zhuǎn)向了ARM,,特別是本次推出了強(qiáng)悍的新一代ARM處理器A64FX,讓人感覺眼前一亮,。這些,,是否預(yù)示著ARM服務(wù)器在市場(chǎng)洗牌之后,進(jìn)入了新一輪的博弈呢?答案還要由市場(chǎng)和時(shí)間給出,。
中國(guó)ARM服務(wù)器CPU陣營(yíng)
中國(guó)的ARM服務(wù)器CPU有三強(qiáng),分別是飛騰,,華芯通和華為,。
“天河三號(hào)”原型機(jī)采用的就是飛騰的ARM處理器,是一款百億億次的超算產(chǎn)品,,綜合運(yùn)算能力是“天河一號(hào)”的200倍,,“天河二號(hào)”的30倍(“天河一號(hào)”、“天河二號(hào)”用的都是Intel的Xeon處理器),?!疤旌尤?hào)”原型機(jī)于今年6月部署在天津超算中心,年底將正式上線投入使用,。據(jù)悉,,原型機(jī)的作用是為了驗(yàn)證‘天河三號(hào)’的技術(shù)路線。
在“天河一號(hào)”,、“天河二號(hào)”階段,,飛騰處理器就有應(yīng)用,但當(dāng)時(shí)采用的不是ARM架構(gòu),,而是Ultra SPARC,,基于此架構(gòu)的8核64線程的FT-1000被用在天河一號(hào)的節(jié)點(diǎn)網(wǎng)絡(luò)上,之后,,同樣基于SPARC架構(gòu)的FT-1500,,用在了天河二號(hào)超算上,用于節(jié)點(diǎn)前端處理器,。
之后的FT-1500A,,其架構(gòu)則由SPARC轉(zhuǎn)變成了ARM 64位,這與富士通的發(fā)展路線非常相似,。不過(guò)飛騰這一轉(zhuǎn)變還有另外一層因素,,就是避免被Intel的Xeon處理器“卡脖子”。
之后,,飛騰在2016年發(fā)布了基于ARM架構(gòu)的FT-2000,,最新產(chǎn)品是尚未對(duì)外發(fā)布的升級(jí)版——FT-2000 Plus。
FT-2000采用28nm制造工藝,,可被用于超算計(jì)算節(jié)點(diǎn)和高性能服務(wù)器,。集成了64個(gè)FTC661處理器核。工作主頻1.5GHz—2.0GHz,。支持16個(gè)DDR3-1600存儲(chǔ)控制器,,可提供204.8GB/s訪存帶寬。最大功耗100W,。
據(jù)悉,,在ARMv8指令集兼容的現(xiàn)有產(chǎn)品中,,F(xiàn)T-2000在單核計(jì)算能力、單芯片并行性能,、單芯片cache一致性規(guī)模,、訪存帶寬等指標(biāo)上處于國(guó)際先進(jìn)水平。其自定義的擴(kuò)展接口不但可以用來(lái)擴(kuò)展緩存容量和存儲(chǔ)能力,,還可以用來(lái)外接FPGA等加速器類專用芯片,,實(shí)現(xiàn)異構(gòu)計(jì)算。
雖然沒有公開,,但業(yè)界普遍認(rèn)為,,“天河三號(hào)”采用的處理器應(yīng)該就是FT-2000 Plus。這款CPU是FT-2000的后繼產(chǎn)品,。有信息顯示,,F(xiàn)T-2000 Plus采用16nm制程。
相對(duì)于FT-2000,,F(xiàn)T-2000 Plus首要任務(wù)就是提升集成度,,以便于整機(jī)設(shè)計(jì),其由支持可擴(kuò)展DDR3存儲(chǔ)控制器改為片內(nèi)集成DDR4內(nèi)存控制器,,再加上使用了臺(tái)積電16nm制造工藝,,主頻最高可穩(wěn)定在2.4GHz,使FT-2000 Plus相對(duì)于FT-2000還是有不小的性能提升,,能夠滿足高端服務(wù)器和超算主控CPU的性能要求,。雖然FT-2000 Plus在單核性能上和Intel還存在一定差距,但在多核性能上,,已經(jīng)達(dá)到Intel服務(wù)器CPU E5 主流產(chǎn)品的水平,。
華芯通
今年5月,華芯通在數(shù)博會(huì)的“Arm服務(wù)器產(chǎn)業(yè)生態(tài)高峰論壇”上正式發(fā)布了其高性能服務(wù)器CPU品牌“昇龍”,。華芯通首款“昇龍”處理器采用10nm制程工藝,,最多48核,ARM V8架構(gòu),,內(nèi)置國(guó)密密碼模塊和芯片級(jí)的安全基礎(chǔ)架構(gòu),。
據(jù)悉,昇龍?zhí)幚砥髁髌貋?lái)的實(shí)測(cè)性能已達(dá)到兩顆英特爾最新主流CPU水平,,其能耗卻低了50%以上,。如果情況果真如此的話,那么其性能還是比較強(qiáng)勁的,,至少?gòu)乃懔ι鲜强梢赃M(jìn)入主流云服務(wù)市場(chǎng)的,,可以與x86架構(gòu)產(chǎn)品爭(zhēng)一爭(zhēng),但短期內(nèi)還難以形成規(guī)模,發(fā)展道阻且長(zhǎng),,市場(chǎng)前景還要看華芯通的運(yùn)營(yíng)能力,,以及主要合作和技術(shù)提供方——高通的支持力度。
華為
2016年,,華為推出了第一款A(yù)RM架構(gòu)服務(wù)器CPU“泰山”(Taishan)1612,,采用的是ARM Cortex A57,這款處理器采用了臺(tái)積電16nm制程工藝,,兼容ARM v8-A指令集,,是華為在國(guó)內(nèi)主推的第一款多核服務(wù)器CPU,。
據(jù)悉,,1612是核高基1號(hào)專項(xiàng)項(xiàng)目,用來(lái)做互聯(lián)網(wǎng)冷卻儲(chǔ)存的生態(tài)系統(tǒng)驗(yàn)證,,并未進(jìn)行推廣和量產(chǎn),。據(jù)說(shuō),經(jīng)過(guò)幾年攻堅(jiān),,華為已經(jīng)攻克多項(xiàng)技術(shù)難題,,2017年成功開發(fā)出第一款自研的、基于ARM架構(gòu)的CPU,,能效是x86的x倍,、領(lǐng)先市場(chǎng)上的同類ARM架構(gòu)CPU。從華為的一次會(huì)議上獲悉,,華為海思圖靈業(yè)務(wù)部開發(fā)的泰山自研64 位CPU已經(jīng)成功商用,。
最近有消息傳出,2019年華為將研制出性能堪比x86主流中端產(chǎn)品的ARM架構(gòu)服務(wù)器芯片,,并將正式量產(chǎn),,進(jìn)行公開商用推廣。
華為在研發(fā)處理器方面一向都非常謹(jǐn)慎,,而在ARM架構(gòu)服務(wù)器芯片方面更是低調(diào)至極,,鮮有公開信息??梢钥隙ǖ氖?,在ARM服務(wù)器CPU研發(fā)方面,華為內(nèi)部一定是在緊鑼密鼓地進(jìn)行著,,就看這個(gè)憋了很久的大招何時(shí)能夠放出吧,。
結(jié)語(yǔ)
ARM在手機(jī)和嵌入式應(yīng)用當(dāng)中順風(fēng)順?biāo)麸L(fēng)喚雨,,在此基礎(chǔ)上,,有了足夠的底氣和資本,從而想在服務(wù)器領(lǐng)域與傳統(tǒng)的x86陣營(yíng)掰一掰手腕,要想在堅(jiān)固的x86生態(tài)中分得更多蛋糕,,確實(shí)困難重重,,需要付出的努力和投入將是巨大的。
而日本及中國(guó)ARM服務(wù)器CPU陣營(yíng)的堅(jiān)持與投入無(wú)疑為其發(fā)展增加了砝碼,,而如何運(yùn)用這些砝碼來(lái)建設(shè)新生態(tài),,突破固有格局,走上良性的商用之路,,是擺在ARM服務(wù)器陣營(yíng)面前的大課題,,前途如何,將由時(shí)間來(lái)檢驗(yàn),。