《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 電子元件 > 業(yè)界動(dòng)態(tài) > ?如果沒有英偉達(dá),Arm在數(shù)據(jù)中心市場(chǎng)能混出頭嗎,?

?如果沒有英偉達(dá),,Arm在數(shù)據(jù)中心市場(chǎng)能混出頭嗎,?

2021-04-22
來源: 電子工程專輯

  前不久的GTC 2021之上,,老黃宣布英偉達(dá)很快將推出應(yīng)用于HPC AI的中央處理器Grace——基于Arm架構(gòu),。這在數(shù)據(jù)中心/服務(wù)器/基礎(chǔ)設(shè)施行業(yè)是個(gè)大新聞,。

  雖然去年到今年是Arm在各行各業(yè)大獲全勝的兩年,,數(shù)據(jù)中心也頻繁出現(xiàn)Arm的身影——比如亞馬遜自研的Graviton2處理器基于Arm,,富士通面向HPC的A64FX處理器基于Arm——這些在《Arm的十年P(guān)C征程,,和微軟的“曖昧”》一文中就有所提及。

2.png

  但英偉達(dá)在數(shù)據(jù)中心的分量,,幾乎將Arm推到了最前線,,多少有點(diǎn)兒很快就能把根植于該市場(chǎng)的x86拉下馬的意思。有關(guān)英偉達(dá)的Grace,,很快我們會(huì)發(fā)表另一篇文章做單獨(dú)評(píng)論,,即便個(gè)人認(rèn)為Grace著力的市場(chǎng)具有相當(dāng)強(qiáng)的針對(duì)性。本文嘗試呈現(xiàn),,拋開Grace不談,,Arm如今在服務(wù)器市場(chǎng),究竟已經(jīng)發(fā)展到了何種程度,。

  Arm第一次認(rèn)真對(duì)待服務(wù)器市場(chǎng)

  Arm一直以來就有突破移動(dòng)與嵌入式市場(chǎng)的野心,,只不過就像Arm在PC之上的10年征程那樣,這個(gè)過程是需要不斷試錯(cuò)的,。英偉達(dá)探索高性能CPU/SoC也不是今天才開始的,,在10多年前英偉達(dá)就曾宣布過一個(gè)叫做Project Denver的項(xiàng)目,旨在與Arm合作面向HPC(高性能計(jì)算)市場(chǎng)推CPU產(chǎn)品,。

  不止是英偉達(dá),,高通也曾推出基于Arm架構(gòu)的Centriq處理器,面向企業(yè)和服務(wù)器市場(chǎng),;Cavium的ThunderX此前也算是知名的Arm服務(wù)器芯片,;還有博通的Vulcan,AMD的Opteron A1100……雖然它們中的大部分都失敗了,。感覺從這些項(xiàng)目初期展示的PPT來看,,Intel早就應(yīng)該縮在墻角顫抖了。但事實(shí)上,,Arm在這一領(lǐng)域始終沒能真正走入主流視野(雖然Arm一直宣稱自己是“基礎(chǔ)設(shè)施(infrastructure)”設(shè)備中市場(chǎng)份額最高的,,包含路由器、交換機(jī),、基站,、服務(wù)器等)。

  3.png

  到近代鯤鵬920這類服務(wù)器芯片面世,,以及如今相當(dāng)活躍的Ampere Computing也在推基于Arm的服務(wù)器處理器,,Arm才真正在這一領(lǐng)域逐漸像樣起來,。今年的GTC主題演講上,黃仁勛也宣布,,英偉達(dá)的GPU開始和Ampere Computing,、亞馬遜、聯(lián)發(fā)科等合作伙伴的CPU/SoC搭配,,從云到邊緣到消費(fèi)終端,。雖然在接受采訪時(shí),黃仁勛說Grace并不會(huì)多大程度影響到現(xiàn)有客戶,,但這明擺著就有拆AMD/Intel墻角的意思,。

  Arm在服務(wù)器、基礎(chǔ)設(shè)施,,或者說數(shù)據(jù)中心產(chǎn)品的試錯(cuò)歷史就不多做回顧了,。事實(shí)上,Arm過去雖然也一直有試探服務(wù)器市場(chǎng)的意思,,但他們始終都沒有面向這些數(shù)據(jù)中心的基礎(chǔ)設(shè)施,,推過專門的IP——Arm在該市場(chǎng)的IP,基本與面向消費(fèi)市場(chǎng)的IP共享,。

  這一點(diǎn)其實(shí)是無可厚非的,,大部分芯片制造商的同代核心IP,面向不同市場(chǎng)都會(huì)做較大程度的共享,。但這也表現(xiàn)出Arm此前針對(duì)基礎(chǔ)設(shè)施設(shè)備并沒有明晰、像樣的市場(chǎng)規(guī)劃,,這對(duì)生態(tài)構(gòu)建本來就是不利的,。

  4.png

  轉(zhuǎn)機(jī)出現(xiàn)在2018年,這一年10月份的TechCon上,,Arm正式宣布推出Neoverse系列IP,,面向服務(wù)器市場(chǎng),從云到邊緣,。與此同時(shí)還公開了未來3年的產(chǎn)品路線圖,,如上圖所示。Arm Neoverse可以理解為服務(wù)器版的Arm Cortex,。

  這張圖列出了一年一迭代的Neoverse版本,,比如2019年代號(hào)為Ares的處理器核心IP,也就是Neoverse N1,。Arm最早的時(shí)候宣布,,未來每年迭代都將實(shí)現(xiàn)30%的性能提升——聽起來比旁邊的Cortex系列平均增速要快些,也比競(jìng)爭(zhēng)對(duì)手更快,。后來的發(fā)布會(huì)上,,Arm又宣布N1性能提升,,實(shí)際相比2018年的Cosmos高出了60%(不過Cosmos據(jù)說并不指代一個(gè)專門的架構(gòu)),是原目標(biāo)的2倍提升——基于SPEC2017整形測(cè)試(SPECspeed2017_int_base),。到今年發(fā)布的N2,,提升速度似乎又超預(yù)期了,后文還將探討更具體的微架構(gòu)變化,。

 5.png

  2019年2月份,,Arm正式宣布推出Neoverse N1與E1平臺(tái)——這應(yīng)該是Arm對(duì)服務(wù)器市場(chǎng)改朝換代的開始。

  當(dāng)然光換個(gè)名字肯定是沒用的,,此前多篇探討Arm發(fā)展史的文章中,,我們都談到了近代Arm的核心IP,在保持低功耗特性的前提下,,在高性能方面也有了突破,。即便一般的芯片制造商無法做到蘋果M1那種程度,高通驍龍8cx也已經(jīng)有了應(yīng)用于PC的可行性,。起碼如今這個(gè)時(shí)代,,和10年前英偉達(dá)Project Denver時(shí)代(Cortex-A15時(shí)代)還是有根本差別的。

  2018年這一年,,Arm向市場(chǎng)推出Cortex A76核心IP,,這應(yīng)該是眾所周知的了——高通面向PC所推的驍龍8cx就應(yīng)用了Cortex A76微架構(gòu)。次年問世的Neoverse N1實(shí)際上就屬于Cortex A76微架構(gòu)的變體,,或者說基于Cortex A76,。

  Austin家族微架構(gòu)(選讀)

  這兩者都來自Arm奧斯汀設(shè)計(jì)中心,都屬于Austin家族微架構(gòu),,基于ARMv8指令集,。事實(shí)上Cortex與Neoverse后續(xù)更新版本,包括Cortex A78,、Neoverse V1應(yīng)當(dāng)都屬于Austin家族,,今年預(yù)計(jì)要推向市場(chǎng)的新一代Neoverse Poseidon才會(huì)采用全新的微架構(gòu)。

  6.png

  Neoverse V1和Cortex A76一樣都采用4-wide取指/解碼,,11級(jí)管線深度,,可在需要時(shí)縮減至9級(jí)。前端,、后端的區(qū)別都不大,。

  兩者區(qū)別比較大的部分主要在存儲(chǔ)、連接方面——作為服務(wù)器處理器,,這也是必然的,。L1-I cache做到硬件級(jí)別的完全一致性(coherency),這屬于面向虛擬環(huán)境性能的改進(jìn)。L2新增1MB可選大?。ˋ76是512KB),,針對(duì)存儲(chǔ)敏感型應(yīng)用。

 7.png

  存儲(chǔ)層級(jí)結(jié)構(gòu)發(fā)生了比較大的變化,。N1 CPU是連接到mesh網(wǎng)絡(luò)之上的,,即CMN-600(CMN-600是Arm最早于2016年發(fā)布的SoC互聯(lián)IP,全稱叫coherent mesh network;如上圖所示,,連接中間經(jīng)過了CAL以及mesh網(wǎng)絡(luò)的XP交叉點(diǎn),;每個(gè)CAL層至多連接2個(gè)N1——即兩核為一簇)。在Arm的參考設(shè)計(jì)中,,后續(xù)再連接到系統(tǒng)級(jí)緩存——SLC(system level cache)slice,,每簇2MB,參考設(shè)計(jì)64核N1總共64MB SLC,。

  8.png

  這張圖來自Wikichip,,結(jié)構(gòu)描繪上更為清晰

  N1去掉了L3和DSU(DynamIQ Shared Unit)的監(jiān)聽過濾(snoop-filter)邏輯,CPU核心直接連接到CMN的CHI接口,。這樣一來內(nèi)存控制器和CPU核心之間的通訊,,只需要經(jīng)過mesh網(wǎng)絡(luò)。這好像也屬于服務(wù)器CPU的標(biāo)配,。

  7nm工藝也是與上述設(shè)計(jì)內(nèi)容配套的,,核心面積整體上還是很小。另外,,Neoverse N1一個(gè)比較大的變化是最高頻率往上提了,,發(fā)布時(shí)是說達(dá)到3.1GHz,電壓也需相應(yīng)提高,,提供更高的單線程性能——頻率提高19%,,實(shí)際上需要44%的功耗為代價(jià),這也很能表現(xiàn)Arm在頻率與功耗的關(guān)系上,,并沒有什么魔法。亞馬遜Graviton2就是基于Neoverse N1的芯片,,CPU核心頻率只選擇了2.5GHz,。

  基于消費(fèi)級(jí)產(chǎn)品提升頻率,和Intel,、AMD這種傳統(tǒng)服務(wù)器CPU供應(yīng)商的思路就不同了:x86市場(chǎng)的這兩名玩家,,其服務(wù)器CPU微架構(gòu)也與消費(fèi)CPU共享,但服務(wù)器CPU卻是拉低核心頻率的,。這與雙方在消費(fèi)市場(chǎng)的定位還是有很大關(guān)系的,。

  不過即便是這樣,功耗還是有優(yōu)勢(shì),Arm此前宣稱64核的N1參考設(shè)計(jì)總功耗大約為105W;Arm公開其64核參考設(shè)計(jì)SPECint_rate2006吞吐測(cè)試得分1310分,,整數(shù)延遲得分(SPECint2006)37分,,還是能夠表現(xiàn)Arm能效方面的優(yōu)勢(shì)的。

  對(duì)于networking和存儲(chǔ)服務(wù)器,,Arm推薦8-32核N1設(shè)計(jì),,TDP 25-65W;類似5G基站邊緣端側(cè)設(shè)備,16-64核目標(biāo)設(shè)計(jì),,TDP 35-105W;對(duì)于超大規(guī)模數(shù)據(jù)中心而言,,N1目標(biāo)設(shè)計(jì)64-128核,TDP >150W,。

  Arm的Neoverse N1平臺(tái)參考設(shè)計(jì)64核心,,外加前面提到的CMN-600 mesh網(wǎng)絡(luò)和64MB SLC緩存。臺(tái)積電7nm工藝制造64核N1參考設(shè)計(jì)的die size已經(jīng)快要接近400mm?了,,Arm也因此推薦chiplet那樣的設(shè)計(jì),,chiplet die之間通過CCIX互聯(lián)來通訊。

  另外Neoverse N1平臺(tái)設(shè)計(jì)中,,可集成SmartNIC——加速網(wǎng)絡(luò)連接還是如今實(shí)現(xiàn)數(shù)據(jù)中心高吞吐的重要因素(看看英偉達(dá)現(xiàn)在都在宣傳些啥),。CMN-600可連一些固定功能加速IP。通過CCIX連接第三方IP,,可實(shí)現(xiàn)存儲(chǔ)一致性,。更多特性不再列舉,屬于服務(wù)器RAS,、安全等相關(guān)的,。

  Arm服務(wù)器CPU的效率現(xiàn)在怎么樣?

  早前的Arm服務(wù)器處理器IP核心不夠主流,,很大程度上在于性能和效率都不怎么樣,。硬件層面的性能和功耗表現(xiàn),是爭(zhēng)奪這塊市場(chǎng)的基本要求,。

  能了解服務(wù)器CPU性能的渠道不多,,像亞馬遜Graviton2這種芯片都還是亞馬遜自用的。不過隨Arm這兩年在服務(wù)器市場(chǎng)的活躍,,像AnandTech這樣的外媒也開始把性能測(cè)試觸及到了服務(wù)器,、基礎(chǔ)設(shè)施處理器產(chǎn)品之上。

  事實(shí)上,,2018年Cavium的ThunderX2被AnandTech認(rèn)為是這一領(lǐng)域,,Arm平臺(tái)首次可與Intel、AMD相提并論的處理器產(chǎn)品,。此后亞馬遜Graviton處理器的出現(xiàn)也表明,,Arm處理器是可以成為服務(wù)器領(lǐng)域的主流的,。

 9.png

  除了亞馬遜Graviton2,在Neoverse N1實(shí)施方案中,,比較具有代表性的應(yīng)該是Ampere Computing最新的 Altra產(chǎn)品線,。去年的Altra Q80-33就是用來對(duì)標(biāo)Intel、AMD在服務(wù)器市場(chǎng)的高端產(chǎn)品的,。

  Altra Q80-33主頻最高3.3GHz,,80核心;CMN-600 mesh互聯(lián),,每核心L2選配1MB,,以及32MB SLC——每核心分配到的SLC可能少了點(diǎn)。I/O以及更高的系統(tǒng)層面就不做介紹了,,Ampere打造的Mount Jade,,2-socket 2U機(jī)架服務(wù)器,有興趣的可以去查一查外圍的配置,。

  值得一提的是,,這顆處理器的TDP標(biāo)250W,實(shí)際上它并不是指常規(guī)負(fù)載的平均功耗,,而是峰值狀態(tài)下的平均功耗,。其實(shí)際功耗大部分情況下低于250W,AnandTech認(rèn)為按照Intel,、AMD的標(biāo)法,,Altra Q80-33的TDP應(yīng)該在200W左右。

  與之對(duì)應(yīng),,Intel前不久剛剛發(fā)布的Ice Lake-SP至強(qiáng)處理器,,高配型號(hào)的TDP 270W(最高配8380為40核心,十代酷睿的Sunny Cove架構(gòu)),;AMD上個(gè)月推代號(hào)Milan的EPYC處理器,,TDP 280W(最高配64核心,Zen 3架構(gòu)),。如果光從高配版處理器的售價(jià)來看,,Ampere Altra的性價(jià)比還是高出了一大截的。

  10.png

11.png

  AnandTech最近剛剛測(cè)試了Ice Lake-SP,,參測(cè)的還包括AMD Milan,、Ampere Altra,以及亞馬遜Graviton2,。測(cè)試項(xiàng)分成多線程性能(SPECint2017/SPECfp2017 Base Rate-N)、單線程性能(SPEC2017 Rate-1),、每核心性能(針對(duì)per core licensing),、JAVA性能(SPECjbb MultiJVM)、LLVM編譯、NAMD性能,。有興趣的可前往了解,,這里就不列出具體的成績了(因?yàn)槠颍蠄D只列出了整數(shù)多線程性能/單線程性能),。

  單看x86平臺(tái),,自從AMD Zen 2問世以來,Intel至強(qiáng)處理器在性能上表現(xiàn)出了全方位的乏力,。上一代AMD EPYC和Intel至強(qiáng),,在性能上拉開了比較大的差距。這一代Intel稍稍趕上了一些,,但在旗艦產(chǎn)品上,,整體仍然存在差距。Intel現(xiàn)在愈發(fā)強(qiáng)調(diào)系統(tǒng)性能,,從自身包括存儲(chǔ),、軟件優(yōu)化等方面的優(yōu)勢(shì),彌補(bǔ)CPU本身的弱勢(shì),,所以AnandTech的測(cè)試可能仍然是比較片面的,。而且今年下半年規(guī)劃中的Sapphire Rapids會(huì)很快上線。這是題外話了,。

  基于Arm Neoverse N1的Ampere Altra是能夠和AMD上一代Rome架構(gòu)64核的EPYC打得有來有回的,。Neoverse在每核性能上還是與x86平臺(tái)有差距;此外Altra在存儲(chǔ)敏感型測(cè)試中的表現(xiàn)并不怎么樣,,與其cache配置相關(guān)(以及可能與mesh互聯(lián)有關(guān)),;另外Ampere在整體系統(tǒng)方案上,雙socket擴(kuò)展還是不能和Intel/AMD比,。不過偏算力的負(fù)載場(chǎng)景下,,Altra更多的核心則有優(yōu)勢(shì);能效方面,,如前所述相比x86平臺(tái)有功耗方面的顯著優(yōu)勢(shì),。

  特別值得一提的是,Arm平臺(tái)的服務(wù)器處理器還存在價(jià)格上的顯著優(yōu)勢(shì),。與此同時(shí),,Ampere今年還計(jì)劃推一款A(yù)ltra-Max,采用128個(gè)Neoverse-N1核心,,屬于Arm設(shè)計(jì)目標(biāo)頂配,。

  12.png

  雖說以Ampere Altra為代表的Arm處理器仍在性能表現(xiàn)的某些方面不及x86(主要是AMD),但已經(jīng)真正意義上對(duì)x86的服務(wù)器市場(chǎng)構(gòu)成相當(dāng)嚴(yán)肅的威脅了,。

  需要指出的是,,加強(qiáng)生態(tài)構(gòu)建是Arm的當(dāng)務(wù)之急,,不管是與軟硬件合作伙伴加強(qiáng)合作,還是制定規(guī)范,。在前兩年發(fā)布Neoverse之時(shí),,Arm還發(fā)布了ServerReady合規(guī)認(rèn)證計(jì)劃,幫助用戶做Arm服務(wù)器系統(tǒng)的安全,、合規(guī)部署,。

  Neoverse N2與V1的發(fā)布

  GTC大會(huì)上,英偉達(dá)表示Grace CPU會(huì)采用新一代的Neoverse架構(gòu),,但沒說具體是什么架構(gòu),。按照計(jì)劃表,去年9月份,,Arm發(fā)布了新一代的Neoverse架構(gòu),。除了N1迭代N2,這次新加了一個(gè)V系列:代號(hào)Zeus的Neoverse V1,。

  13.png

  Neoverse V1是基于Cortex X1的性能向微架構(gòu),。和Cortex X1一樣,在PPA三者的指針上,,Neoverse V1也更偏向性能,,部分犧牲了功耗和面積。所以其設(shè)計(jì)方向和N系列是存在差別的,。因此V1有著更大的cache,、核心結(jié)構(gòu)。Arm的數(shù)據(jù)提到,,V1相比N1有著50%的IPC提升,,在這個(gè)時(shí)代下還是相當(dāng)巨量的,實(shí)際產(chǎn)品提頻過后要在每核性能上擊敗x86應(yīng)該已經(jīng)不是問題了,。

  另外V1會(huì)成為首個(gè)支持SVE(Scalable Vector Extension)的Arm核心,。此前富士通的A64FX已經(jīng)率先做出這方面的支持,V1的SIMD單元寬度是A64FX的一半,。除此之外,,V1也引入了Bfloat16格式支持。

  而N1迭代款的N2則持續(xù)專注于PPA均衡發(fā)展,,與Neoverse N2對(duì)應(yīng)的Cortex家族微架構(gòu)還未發(fā)布,,N2代號(hào)為Perseus。據(jù)說去年年底Arm就開始做N2架構(gòu)的授權(quán)了,。N2的目標(biāo)設(shè)計(jì)最高攝心術(shù)已經(jīng)達(dá)到了192W,,且TDP增至350W。這應(yīng)該是也是堆料的突破,,英偉達(dá)的Grace CPU是極有可能應(yīng)用N2這個(gè)方案的,。

  AnandTech猜測(cè),,Neoverse N2可能會(huì)應(yīng)用ARMv9指令集+SVE2支持。另外,,原本規(guī)劃中今年要推出的代號(hào)為Poseidon的5nm芯片預(yù)計(jì)會(huì)延后至明年。如今Neoverse的規(guī)劃已經(jīng)在有序推進(jìn)了,。即便沒有英偉達(dá),,Arm玩轉(zhuǎn)數(shù)據(jù)中心市場(chǎng)似乎也是早有預(yù)謀的,而英偉達(dá)顯然會(huì)成為這一行動(dòng)的助推器,。



本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn),。轉(zhuǎn)載的所有的文章,、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問題,,請(qǐng)及時(shí)通過電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected]