近年來(lái),,因?yàn)轱w騰,、Ampere、Marvell和華為等廠商的投入,,Arm服務(wù)器芯片的熱潮又被再度燃起,。但其實(shí)這并不是Arm在服務(wù)器芯片的第一次嘗試,而是一個(gè)從2008年就開(kāi)始的規(guī)劃,。
下面,,我們來(lái)跟隨作者的筆觸,來(lái)回顧Arm服務(wù)器芯片的發(fā)展歷程,。
Arm服務(wù)器的第一波浪潮,,是一家叫Calexda開(kāi)始,也是由它結(jié)束的,。雖然我覺(jué)得2011的官宣Armv8架構(gòu),,就是32bit 服務(wù)器的終結(jié)。但是第一波的浪潮的起伏,,并不僅僅是32bit,,64bit 那么簡(jiǎn)單,還有一個(gè)詞Microserver,,微服務(wù)器,。也是當(dāng)時(shí)產(chǎn)業(yè)界,包括x86陣營(yíng)的共同探索,。技術(shù)上,,商業(yè)邏輯上,,都不錯(cuò)的產(chǎn)品,在市場(chǎng)上,,沒(méi)有成功,。
我個(gè)人得到的一個(gè)觀察:服務(wù)器市場(chǎng)是個(gè)求穩(wěn)的保守的市場(chǎng),相對(duì)于活躍的終端市場(chǎng),。
啟程 2008
2008年,,Arm內(nèi)部開(kāi)始醞釀服務(wù)器計(jì)劃。心動(dòng)就行動(dòng),,Arm參與投資了一家當(dāng)時(shí)叫Smooth Stone,,后來(lái)改名為Calxeda的startup公司。當(dāng)時(shí)的第一輪總投資金額是$48M,。
Calxeda的一開(kāi)始目標(biāo)就是降低數(shù)據(jù)中心的耗能,,并且提高相同空間的計(jì)算力密度。請(qǐng)記住這兩個(gè)目標(biāo),,此時(shí)此刻,,我們的初心依舊。
那一年市面上還是Cortex-A8的產(chǎn)品,,而基于第一款多核Ccortex-A9的產(chǎn)品要到3年后才上市,。(好懷念那個(gè)2,3年才發(fā)布一款產(chǎn)品的慢速時(shí)代),。
那時(shí)Intel的Xeon還是4個(gè)核,,當(dāng)然主頻已經(jīng)3.xGhz了,而AMD的45nm Opteron CPU也剛剛上市,。
那一年IBM剛剛宣布Power產(chǎn)品線,,而且上來(lái)就高山仰止的高達(dá)64個(gè)核。
蘋果發(fā)布了iPhone 3G,,就是iPhone2,。(對(duì),那時(shí)還是3G時(shí)代,。)
TSMC 的主流工藝是40nm,,年收入$10B。
我還在一家叫EZchip的公司做NP3,,此處NP不是Neural Processor而是Network Processor,。那是一個(gè)網(wǎng)絡(luò)處理器大繁榮的時(shí)代,我能說(shuō)出一長(zhǎng)串名字,,可惜現(xiàn)在都湮滅了,。低調(diào)的炫耀一下,其實(shí)我最擅長(zhǎng)的部分是TM-Traffic Manager 而不僅僅是處理器部分,,這也是這家100多人的以色列公司(年?duì)I收大約$60M)最突出的特色,。此處省略若干文字,,真講起來(lái),我能一個(gè)人講一周的培訓(xùn),,收美金的那種,。
Calxeda 2011
2010年Smooth Stone正式改名字為Calxeda,把總部搬到了Austin,。
2011年 Calxeda發(fā)布它的芯片基于A9的芯片EnergyCore ECX-1000,。
圖2.1CalexdaEnergyCore架構(gòu)
這其實(shí)是一個(gè)值得細(xì)看的一款設(shè)計(jì),4核cortex-a9組成的處理器模塊,,比較中規(guī)中矩,,I/O controllers部分也是常規(guī)接口(常規(guī)接口并不容易,一個(gè)好產(chǎn)品的核心是常規(guī)部分做到業(yè)界一流),。但是管理引擎(management engine)和交換引擎(Fabric Switch)部分就是技術(shù)非常創(chuàng)新之舉,。
EnergyCore Fabric是一個(gè)集成的L2 switch支持mesh, butterfly tree,, 2D Torus拓?fù)?,虛擬端口之間的帶寬可以按1 Gb/sec, 2.5Gb/sec, 5 Gb/sec, 核10 Gb/sec的不同規(guī)格分配。通過(guò)它,,服務(wù)器節(jié)點(diǎn)可以自己自主成網(wǎng),,不必通過(guò)on top switch,,因此Calexda的一塊板塊上有4個(gè)芯片,,也就是16個(gè)核心。因此才有可以高達(dá)480個(gè)核的服務(wù)器系統(tǒng),。
這個(gè)設(shè)計(jì)理念是合理的,,如果你設(shè)計(jì)一塊非常低成本的服務(wù)器芯片,但是配套的網(wǎng)絡(luò)仍然是昂貴的話,,高密度的設(shè)計(jì),,只會(huì)增加成本。這個(gè)fabric可以將1024個(gè)系統(tǒng)板,,也就是4096個(gè)芯片用10G網(wǎng)絡(luò)接口,,集聯(lián)為系統(tǒng)。
EnergyCore ManagementEngine是一個(gè)集成BMC,,支持IMP2.0和DCMI,,還支持遠(yuǎn)程調(diào)試SoL協(xié)議。管理引擎最強(qiáng)的地方在于功耗管理,,Calexda這款服務(wù)器芯片的功耗可以從4w到1w動(dòng)態(tài)調(diào)整,。
每個(gè)節(jié)點(diǎn)的制造成本大約是$28。
圖2.2 4個(gè)節(jié)點(diǎn)的Calexda系統(tǒng)板
2011年,,我加入Arm網(wǎng)絡(luò)市場(chǎng)部,。那時(shí)我關(guān)注的是還在設(shè)計(jì)階段的LSI Axxia AXM5500 16-core ARMCortex-A15,, Freescale 的QorIQ Layerscape 系列,TI的KeyStone,,還有海思的hixxxx系列,,那真是一個(gè)Arm在網(wǎng)絡(luò)市場(chǎng)大爆發(fā)的時(shí)代。但是很快,,一年后,,我跟著當(dāng)時(shí)的老板,一位有電影明星氣質(zhì)的印度裔資深美女,,從網(wǎng)絡(luò)市場(chǎng)轉(zhuǎn)為服務(wù)器市場(chǎng),,從那時(shí)到現(xiàn)在,全心全意的投入服務(wù)器市場(chǎng)與生態(tài)建設(shè),。
Computex 2012
2012年,,Ian Ferguson在臺(tái)北Computex上的公開(kāi)演講,大約是Arm第一次向公眾介紹服務(wù)器方面的努力,。和他一起站臺(tái)的是Ubuntu的Mark(軟件生態(tài)是個(gè)大話題,,本文主要集中在芯片方面,系統(tǒng)硬件設(shè)計(jì)和軟件話題另外開(kāi)文再說(shuō)),。他引用了Facebook的 Frank說(shuō)的performance per watt per dollar的價(jià)值觀,。
提到Arm服務(wù)器,Ian Ferguson必須有姓名(他教我了一句做市場(chǎng)工作的最基本的一句話,,“你是打算report news,,還是make news?”,,現(xiàn)在我也愿意和小伙伴一起說(shuō),,來(lái)來(lái)來(lái),我們一起搞事情,。)如他在大會(huì)上的發(fā)言,,從Arm打算考慮服務(wù)器市場(chǎng)的第一天起,整個(gè)業(yè)界都充滿了懷疑的論調(diào),。不僅僅懷疑是否能成功,,甚至從根上,懷疑動(dòng)機(jī),。
這些問(wèn)題,,我并不著急回答,如果你有耐心讀到最后,,一切都自有答案,。
Marvell Armada XP 2013
在第一波服務(wù)器浪潮中,Marvell Armada XP 四核系列,也是要提到的,。而且這里的core,,不是A9,也不是A15,,是Marvell的custom Core,。
也是因?yàn)锳rmada,我把什么叫架構(gòu)授權(quán),,回答得滾瓜爛熟,。
圖2.3 MarvellArmada XP
這款集成度很高,功耗低的SoC非常適合存儲(chǔ)應(yīng)用,。Dell以此為核心,,出了“Copper”的arm服務(wù)器系統(tǒng)。百度也曾經(jīng)使用過(guò),。這是Arm服務(wù)器在互聯(lián)網(wǎng)公司的第一個(gè)案例,。
Calxeda 倒閉 2013
如果Calxeda能籌集的第三輪投資,那么按照下面的路標(biāo),,有一款A(yù)15的芯片馬上量產(chǎn),,2款A(yù)rmv8的芯片在計(jì)劃中。但是很不幸,,募資工作不成功,。 Calxeda從2008年成立,到2013,,總投資$103M ($48m in 2010 & $55m in 2012 ), 一共130員工,。
它的結(jié)業(yè)郵件中說(shuō),因?yàn)锳rm服務(wù)器的出現(xiàn),,“the industry will be transformed forever”,。從現(xiàn)在看,是的,。
圖2.4 Calxeda 路標(biāo)
Insight 64 的分析師說(shuō),他們?cè)?2bit Arm服務(wù)器上花了太多錢,。是的,,2011年Arm宣布了64bit的Armv8,Applied Micro公布了X-gene的計(jì)劃,,其實(shí)第二輪Armv8 的服務(wù)器的浪潮就已經(jīng)展開(kāi),。
而Calxeda的倒閉,標(biāo)志著第一輪的結(jié)束,。
第二波 Armv8.0 (2011-2018)
雖然頂著編年史這種文藝的名字,,我是想把它寫成一個(gè)技術(shù)分析文章,重點(diǎn)在Arm服務(wù)器芯片的特點(diǎn)與演進(jìn),,不是解釋為什么這個(gè)公司成功,,那個(gè)公司不成功,。其實(shí)一個(gè)產(chǎn)品分析好做,一個(gè)公司的成敗,,偶然因素真的影響很大,。
第二波的三個(gè)關(guān)鍵詞是自研核心(custom core),主流性能,,標(biāo)準(zhǔn)設(shè)計(jì),。在Arm服務(wù)器的初始?xì)q月里,芯片設(shè)計(jì)公司來(lái)自各個(gè)不同的領(lǐng)域,,帶著自己對(duì)服務(wù)器CPU芯片的理解,,各自交出了自己的產(chǎn)品。我把重點(diǎn)放在APM的X-gene,,Cavium的ThunderX與高通的Centriq 2400上,。同時(shí)也努力把所有的其它芯片都給一個(gè)線索,供有興趣的人,,自己深入,。
我做了一個(gè)excel表格,努力的比對(duì)所有的服務(wù)器SoC,,包括公司規(guī)模,,投資與花費(fèi)的人力資源。有緣線下做交流,。
再說(shuō)一段,,因?yàn)樵谶@一段歷史中自研核占了多數(shù),而且關(guān)于架構(gòu),,ISA的爭(zhēng)論一直不斷,,我不想展開(kāi)說(shuō),因?yàn)闀?huì)偏題,。在一個(gè)做私有云的大牛那里學(xué)到一個(gè)詞,,“累計(jì)優(yōu)勢(shì)”,做CPU,,做ISA,,做芯片,其實(shí)也在一個(gè)緩慢的累計(jì)優(yōu)勢(shì),。這些年,,我有帶著客戶的需求,案例,,測(cè)試數(shù)據(jù),,信心滿滿地前往公司總部找架構(gòu)師或者產(chǎn)品經(jīng)理,要求改設(shè)計(jì),增加指令的時(shí)候(是的,,我還管這事),,結(jié)果么?我不能說(shuō)我一次也沒(méi)有成功,,但是我家架構(gòu)師和產(chǎn)品經(jīng)理,,都是狠角色,在對(duì)拼數(shù)據(jù)和應(yīng)用案例方面,,鮮有敗績(jī),。
另外,Hock Tan一定要提一下,,這人簡(jiǎn)直就是Arm服務(wù)器的發(fā)展道路和我職業(yè)生涯中的荊棘,,一個(gè)拿了double kill 雙殺的男人。他先收購(gòu)Broadcom,,賣掉服務(wù)器芯片項(xiàng)目,,然后提出收購(gòu) Qualcomm,高通的管理層為了自保,,提出每年消減1B的開(kāi)銷,,因此自我了斷所有長(zhǎng)期投資項(xiàng)目,運(yùn)作良好的服務(wù)器項(xiàng)目就這樣躺槍了,。
AppliedMicro – X-gene (2011)
2011年10月,,在Arm第一次宣布ARMv8架構(gòu)的同時(shí),Applied Micro公布了它們的自架構(gòu)x-gene計(jì)劃(大新聞都是和關(guān)鍵客戶一起發(fā)布的),。
如果你在那個(gè)時(shí)代讀新聞,,你會(huì)留意到SoC這個(gè)概念,當(dāng)然現(xiàn)在,,SoC這個(gè)概念不用解釋了,。那個(gè)時(shí)候,還是需要強(qiáng)調(diào) SoC等于chip + chipset的集成設(shè)計(jì),。
X-gene的第一代是8個(gè)自研核心-Storm,,兩個(gè)核共享256KB的L2 cache,這跟Arm的4個(gè)核一個(gè)cluster不同,。下一章講的AMD的代號(hào)Seattle的Opteron A1100 processor,,也沒(méi)有用4個(gè)Cortex-A57的一個(gè)cluster,兩個(gè)cluster的設(shè)計(jì),,而是2個(gè)A57,4個(gè)cluster的設(shè)計(jì),。AMD的A1100的兩個(gè)A57,,共享1MB的L2 cache,比X-gene大4倍。但是X-gene的自研核Storm是4 issue的,, A57仍然在3 issue的能效比的甜蜜點(diǎn)上,。
圖3.1 APM的X-Gene spec
圖3.2 APM的X-Gene產(chǎn)品路標(biāo)
現(xiàn)在,連手機(jī)CPU都奔著6 issue去了,,從這點(diǎn)上看,,自研核,還是展現(xiàn)自己對(duì)業(yè)界發(fā)展洞見(jiàn)的好武器,。
X-gene為8個(gè)核,,配了4個(gè)memory通道,這個(gè)也是在x86陣營(yíng)中少見(jiàn)的CPU:memory比例,。而且集成了2個(gè)10G NIC,,支持RoCE,算是SoC的優(yōu)勢(shì),。
Applied Micro官方資料給出的能耗參數(shù),,滿負(fù)荷狀態(tài),一個(gè)核2瓦,,idle狀態(tài),,僅僅0.5w。
圖3.2 X-Gene的框架圖
我對(duì)X-Gene設(shè)計(jì)印象最深的部分是MSLIM ,,這是4個(gè)A5組成的小處理器cluster,,提供加速功能。我不知道到底有沒(méi)有客戶使用這個(gè)處理器組,,也不知道當(dāng)年的設(shè)計(jì)理念,。
從設(shè)計(jì)到成品,有多少設(shè)計(jì)被客戶忽略,,有多少設(shè)計(jì)到了客戶手里超常發(fā)揮,,我覺(jué)得架構(gòu)師也會(huì)感覺(jué)迷茫,工程的世界里竟然也有許多的不確定性,。
圖3.3 X-Gene die
圖3.4 X-Gene CPU模塊
沒(méi)有整個(gè)die的信息,,不過(guò)有處理器模塊的信息。每個(gè)處理器模塊,,有2個(gè)core,,共享的L2,在40nm的工藝下,,14.8 mm?,,84M transistors。照著這個(gè)尺寸,,我估計(jì)整個(gè)die是300 mm2
Anandtech曾經(jīng)有篇蠻詳細(xì),,也蠻負(fù)面的評(píng)測(cè)報(bào)告,。中心意思就是尚未成熟,性能,,能效比優(yōu)勢(shì)也不明顯,。它測(cè)試的是HPE的moonshot系統(tǒng),HPE的官方文件其實(shí)對(duì)X-gene評(píng)價(jià)頗高,,因?yàn)閄-gene是第一款量產(chǎn)的Arm 64bit 服務(wù)器芯片,,初期的軟件伙伴們,都是用著它家的系統(tǒng)的,。
我知道Applied Micro-APM的時(shí)候,,它還叫AMCC。 AMCC團(tuán)隊(duì)算是硅谷老牌做CPU的不多團(tuán)隊(duì)之一,,不過(guò)是做PowerPC的,。它在多核路上不太順利,所以換了Arm重新開(kāi)始,。大約因?yàn)槭抢吓艭PU設(shè)計(jì)團(tuán)隊(duì),,他們一上手就選了最高難度的架構(gòu)授權(quán),自研核的路線,。我曾經(jīng)為了它和同事?tīng)?zhēng)論到面紅耳赤,,跟他說(shuō),我站起來(lái)是條漢子,,倒下去還是條漢子,。我同事,性別男,,氣笑了,,說(shuō),行,,行,,你是條漢子。
X-gene2大體上是X-gene1的28nm的tick實(shí)現(xiàn),,略,。
eMAG-X-Gene3 2018
我猶豫許久,不知道該把這顆Ampere重新設(shè)計(jì)的eMAG,,歸為第二波尾巴,,還是第三波的開(kāi)頭。按照核心的原設(shè)計(jì)脫胎于X-Gene 3來(lái)說(shuō),,還是第二波尾巴,。
圖3.5 Ampere eMAG
圖3.6 Ampere 產(chǎn)品優(yōu)勢(shì)
32核List price 是 $850,一個(gè)相對(duì)非常有競(jìng)爭(zhēng)力的價(jià)格,??蚣軋D看起來(lái)很熟悉,,不分析了,。
圖3.6 Ampere eMag 框架圖
AMD’s A1100 (2012)
在Armv8架構(gòu)推出一年之后,,Arm發(fā)布了A57和A53兩款 cortex-A5x系列的產(chǎn)品,按照國(guó)際慣例,,一個(gè)重磅的合作伙伴在發(fā)布會(huì)與Arm一起閃亮登場(chǎng),,AMD。
這款內(nèi)部代碼名為Seattle,,屬于Opteron系列,,后面的正式產(chǎn)品名字是A1100的芯片,現(xiàn)在在AMD主線產(chǎn)品歷史上找不到的產(chǎn)品,。
AMD當(dāng)時(shí)花了蠻長(zhǎng)的時(shí)間,,解釋為什么要做Arm服務(wù)器,怎么定位公司內(nèi)部的x86與Arm的產(chǎn)品線,,甚至為了穩(wěn)定外界的懷疑,,推出了僅僅活在新聞中的K12 (2015)。
如果我們回頭看2012年,,有一個(gè)名詞,,不能忽略,“microserver”,,而那個(gè)時(shí)候,,AMD剛買了SeaMicro,一個(gè)圍繞著 Freedom Fabric打造高密度,,低功耗的系統(tǒng)的公司,。這個(gè)Fabric,超高密度(very-high-density),,低功耗,,聽(tīng)起來(lái)耳熟不? Calexda的路數(shù)啊,。下圖是10U的尺寸,,共有768個(gè)CPU,包括了四個(gè)GE交換機(jī)和一個(gè)流量均衡器(a loadbalancer),。
圖3.7 Calexda 10U系統(tǒng)
在這樣的系統(tǒng)設(shè)計(jì)下,,配一顆超低功耗的Arm處理器,合情合理多了吧,?因此選Arm的標(biāo)準(zhǔn)核Cortex-A57,,縮短開(kāi)發(fā)時(shí)間,節(jié)省開(kāi)發(fā)費(fèi)用,,也是順理成章的事情,,都在合理邏輯之內(nèi),。
Cortex-A57的資料滿世界都是,我就不在這里羅列了,。前一章有提,,AMD選了2 core 4 cluster的配置,而不是手機(jī)AP常見(jiàn)的4 core 2 cluster,。好處么,,自己體會(huì)一下。
這顆芯片的list price是$150,,也是很有殺傷力,。
圖3.8 AMD Opteron A1100框架圖
圖3.9 AMD Opteron A1100 Floorplan
某種意義上,AMD這顆Seattle雖然被列入第二波浪潮中,。它的設(shè)計(jì)理論完全是第一波的,。K12才是第二波的。
可是看看K12的設(shè)計(jì)目標(biāo),,在AMD的框架下,,為什么要做Arm,自然是x86啊,。Jim Keller這個(gè)男人本來(lái)是跟K12聯(lián)系在一起的,。但是… … ,這個(gè)風(fēng)一樣不羈的男子啊,。
Intel的對(duì)于此輪浪潮的反應(yīng)是14nm “Xeon-D”,。
Cavium ThunderX 2014
某種程度上, Cavium的48核ThunderX 才是真正開(kāi)啟第二波Arm服務(wù)器浪潮的產(chǎn)品,。它湊齊了一顆主流服務(wù)器芯片應(yīng)有的所有特點(diǎn),,例如雙路和性能。
Cavium做為一家僅僅有AMD1/10大的公司,,很早就有超多核處理器的設(shè)計(jì)能力,,只是之前是MIPS網(wǎng)絡(luò)應(yīng)用處理。
雖然只有2 issue的自研核,,單核性能較弱,。但是整個(gè)SoC的設(shè)計(jì),特別多路設(shè)計(jì),,是出色的,。而且因?yàn)榫W(wǎng)絡(luò)處理器方面的積累,這顆芯片的加速引擎與IO接口非常豐富,。
而且為了降低功耗,,可以有選擇的關(guān)閉加速引擎,變成4種不同的配置: 云計(jì)算版本,,存儲(chǔ)版本,, 運(yùn)營(yíng)商版本,,安全版本。
圖3.10 Cavium ThunderX 框架圖
Anandtech有個(gè)非常不錯(cuò)的性能測(cè)試,,有助于對(duì) Cavium ThunderX的理解,。
BroadcomVulcan ThunderX2
這是很糾結(jié)的一節(jié)。如果說(shuō)Broadcom Vulcan,,那是2016的左右的事情,。如果說(shuō)Cavium的Thunder X2 那是2018年的產(chǎn)品。然后就迅速變成了Marvell的ThunderX2,。本來(lái)是同期規(guī)劃的產(chǎn)品,結(jié)果,,各種曲折離奇的竟然二合一,。有的時(shí)候,我都不相信,,我們這個(gè)產(chǎn)業(yè),,也有這么多戲劇化的故事。
說(shuō)起來(lái),,源自RMI的Broadcom的CPU設(shè)計(jì)團(tuán)隊(duì),,和Cavium的CPU設(shè)計(jì)團(tuán)隊(duì),有好多共同點(diǎn),,都是MIPS系的,,都是做網(wǎng)絡(luò)出身。但是跟Cavium老是做2 issue小核不同,,Broadcom團(tuán)隊(duì)從一開(kāi)始就擅長(zhǎng)做多線程,。因此在規(guī)劃的時(shí)候Vulcan就是逆天的4線程。此時(shí)ARM陣營(yíng)里,,還沒(méi)有多線程的處理器呢,。
Broadcom原先的設(shè)計(jì)目標(biāo)是16nm,die size 600 mm2,,32核,,每核4線程,支持雙P系統(tǒng),。被Cavium收購(gòu)之后,,die size未披露。
最高配的CN9980,,32核,,2.5Ghz,TDP 200W,。2.2Ghz,,180W的CN9980,,價(jià)格在$1795,而16核的CN9960,,1.6 Ghz,,75W售價(jià) $800
而它的目標(biāo)市場(chǎng),或者說(shuō)可見(jiàn)的design win集中在HPC市場(chǎng),。
圖3.11 ThunderX2的框架圖
圖3.12 ThunderX 2 布局
圖3.13 ThunderX2 IO接口
Qualcomm 2017
在2017年高通向市場(chǎng)推出原代號(hào)為“Amberwing”的48核10nm的Centriq 2400的同一周,,高通公司接到了博通公司的$130收購(gòu)要約。
據(jù)估計(jì),,這顆Centriq 2400,,歷時(shí)4年,花費(fèi)在 $100M到 $125M,,幾百名工程師的投入,。期間,高通還做了一款24核的Centric 1200作為測(cè)試原型,。
Centriq 2400有18Btransistors,,398mm2,三星的10nm工藝,,比thunderX2小巧多了,。雖然它是單P處理器,但是對(duì)多年多代服務(wù)器發(fā)展規(guī)律,,這本來(lái)不成問(wèn)題,。
圖3.14 Centriq 2400
圖3.15 Centriq 2400的微架構(gòu)對(duì)比
圖3.16 Centriq2400的框架圖
這顆含著金鑰匙出生的芯片,一路順風(fēng)順?biāo)牡絫ape out,,直到那位叫Hock Tan的黑天鵝的出現(xiàn),。
從價(jià)格功耗表上看,Centriq2400的定價(jià)與ThunderX2基本一致,。
Centriq 2400的CPU核名字為“Falkor”的自研核,。最高2.6Ghz,是高通的第五代自研核,。如果有的話,,下一代核是“Saphira” ,芯片的名字叫“Firetail”,。但是沒(méi)有然后了,,高通取消了服務(wù)器芯片項(xiàng)目,也標(biāo)志著第二輪Arm服務(wù)器的浪潮的尾聲,。
Samsung(2012-2014)
主線寫完,,支線也要寫。
Samsung的Arm 服務(wù)器的故事,在國(guó)內(nèi)知道的人少,,但是上過(guò)華爾街日?qǐng)?bào)的,。Samsung也從來(lái)沒(méi)有官宣過(guò),整個(gè)項(xiàng)目起的時(shí)候,,大家是猜測(cè),,滅的時(shí)候,大家也都是傳聞,。
2007年 Samsung在Austin投資$3.5b建工廠,,2010成立Samsung Austin Research Center,開(kāi)始招芯片設(shè)計(jì)工程師,,然后招了一位AMD的VP做Austin的VP,。大家的猜測(cè)是服務(wù)器芯片也在這個(gè)Austin研究中心的計(jì)劃中。
其實(shí),,Samsung進(jìn)入服務(wù)器SoC設(shè)計(jì)的邏輯可以和高通很接近,,但是當(dāng)時(shí)高通有CEO的支持,還有那樣的黯然收?qǐng)?,而一家韓國(guó)公司的美國(guó)分支部門,想撐起一個(gè)大服務(wù)器芯片的設(shè)計(jì),,有多困難,,可以想象。
Nvidia Project Denver 2011-2014
Nvidia是一個(gè)我非常尊敬的公司,,也是硅谷現(xiàn)存的仍然是創(chuàng)始人做CEO的極少數(shù)公司了,。但是這一章,我寫了幾次,,都寫不下去,。大約是Nvidia仍然是GPU為主線的公司,它的CPU的發(fā)展邏輯,,屬于面向應(yīng)用規(guī)劃的那種放飛型,。
這是一個(gè)從Tegra開(kāi)始,到Carmel,,集成Arm CPU在復(fù)雜功能芯片的路徑,。 其實(shí),看起來(lái)更像是系統(tǒng)公司的芯片規(guī)劃路徑,。因?yàn)楸疚募性谕ㄓ梅?wù)器芯片的分析,,否則Nvidia家的產(chǎn)品路線,絕對(duì)值得一個(gè)完整的大章分析,。
圖3.17 Tegra Arm CPU
圖3.18 Eegra K1
圖3.19 Carmel CPU
Balkal
俄羅斯的第一顆28n芯片BE-M1000,,其實(shí)不應(yīng)該算在服務(wù)器類,不過(guò)它涵蓋了工作站。這個(gè)芯片公司跟日本的Fujitsu,中國(guó)的飛騰,,一樣都是從超算項(xiàng)目中孵化出來(lái),,獨(dú)立運(yùn)作,更注重商業(yè)成功一點(diǎn),。
我當(dāng)年是看過(guò)他們計(jì)劃的超強(qiáng)路標(biāo)的,。但是從路標(biāo)到產(chǎn)品落地,這中間的三五年的時(shí)間,,太多變數(shù),,因此風(fēng)消云散的多了。
說(shuō)到做芯片這事,,這是超算的同志們的傳統(tǒng)強(qiáng)項(xiàng),。前面說(shuō)到的某個(gè)服務(wù)器SoC,其實(shí)也來(lái)自于超算市場(chǎng)的推動(dòng),。后面,,我會(huì)說(shuō)到歐洲,歐洲的同志們也開(kāi)始發(fā)奮圖強(qiáng)要自己動(dòng)手做芯片了,。
圖3.20 Balkal BE-M1000
Phytium
飛騰的芯片的公開(kāi)信息,,來(lái)自hotchips 2015。最新的路標(biāo),,來(lái)自飛騰總經(jīng)理竇強(qiáng)2019年12月19日的公開(kāi)分享,。
恕不展開(kāi)。
HiSilicon 1616
海思的1616是鯤鵬920的前一代,,比較低調(diào)的一代,。華為官網(wǎng)上沒(méi)有介紹。我也就不放任何外網(wǎng)資料,。
關(guān)于海思,,我覺(jué)得可以按照《明朝那些事》的風(fēng)格寫部史詩(shī)級(jí)的著作,再補(bǔ)一個(gè)《海思群雄譜》的人物傳記做后傳,。文科生寫像海思這種公司,,寫不出氣勢(shì),得我這種理工科的文藝青年,。萬(wàn)事俱備,,就差兩件事就可以動(dòng)手,一是海思宣傳部預(yù)付的稿費(fèi),,當(dāng)然網(wǎng)友眾籌也可以考慮,, 二是要等我退休哈。
Socionext
Socionext這顆"SynQuacer?" SC2A11大約是唯一一顆Cortex-A53的24核芯片了吧,?
圖3.21Socionext SC2A11框圖
這顆芯片,,不能光看芯片,要看系統(tǒng)設(shè)計(jì)。
圖3.22Socionext SC2A11服務(wù)器系統(tǒng)
這種小核,,高密度系統(tǒng),,有相似感覺(jué)了吧?那個(gè)時(shí)代的設(shè)計(jì),。
私評(píng)尾聲
2012-2014這幾年,,我飛臺(tái)灣飛到吐血。我在我的硬盤了找到一份當(dāng)時(shí)的資料,。當(dāng)時(shí)臺(tái)灣的業(yè)界有個(gè)說(shuō)法,,ODM Direct模式改寫產(chǎn)業(yè)鏈生態(tài)。ODM Direct 模式確實(shí)立住了,,但是生態(tài)系統(tǒng)中的強(qiáng)者并不是ODM,,是End Users,是那些個(gè)寫著我們可以控制從power grid到gate的Hyperscale們,。
第二波浪潮還是半導(dǎo)體業(yè)界和系統(tǒng)廠商推動(dòng)的,,那么第三波,就是終端用戶自己下海弄潮了,。
第三波 Neoverse
Drew Henry(建議大家去讀讀他在Linkedin上的簡(jiǎn)介,,堪稱高管簡(jiǎn)歷模版)這個(gè)男人也是要在Arm 服務(wù)器歷史上留下名字的。在他加入Arm一年之后,,2018年10月 Arm Tech上,,他宣布Arm在Infrastructure 市場(chǎng)上有了自己的品牌(Neoverse)和冰公布了每年一代,每代提升30%的路線圖,。
這是第三波浪潮的開(kāi)始,只是深水靜流,,那個(gè)時(shí)候,,世界還是靜悄悄的。
而我還記得為了湊齊發(fā)布會(huì)上的那些大廠logo的那些瑣碎工作,,還有伙伴們的給力支持,。
圖4.1 Arm NEOVERSE路標(biāo)
Huawei Kunpeng 920
2019年1月7日,有大徐總之稱的徐文偉發(fā)布了鯤鵬920,。
我只放我覺(jué)得重要的公開(kāi)圖,,怎么解讀,就看各位自己了,。
這是顆世界先進(jìn)級(jí)的產(chǎn)品,,無(wú)論哪個(gè)方面,包括關(guān)注的熱度,。
圖4.2 鯤鵬920的發(fā)布會(huì)圖
圖4.4 鯤鵬920 4P互聯(lián)圖
AWS Graviton2
圖4.5 Graviton1 & Graviton2
即使2018年11月AWS發(fā)布了Graviton,,并且用Neoverse稱呼了這個(gè)16個(gè)cortex A72 的自制芯片。世界并不震驚。現(xiàn)在看,,16核A72 [email protected],,確實(shí)更像是試水。
特別是看看2017年AWS發(fā)布的也是由2015年收購(gòu)的以色列創(chuàng)業(yè)公司Annapurna labs團(tuán)隊(duì)開(kāi)發(fā)的Nitro芯片,。
但是2019年的AWS Graviton 2就是驚艷級(jí)別的產(chǎn)品了,。64核 Neoverse N1,30 Billion transistors,,7nm的工藝,,推測(cè)die size應(yīng)該在 300-350mm?,官宣高于Intel Xeon-based 5th代處理器40%的性能,,還有高達(dá)25 Gbps的網(wǎng)絡(luò)帶寬和18 Gbps of 優(yōu)化EBS的帶寬,。
圖4.6 SPEC cpu 2017
圖4.7 AWS Graviton2支持的EC2
Ampere QuickSilver 2019
Ampere順著AWS的graviton的正面風(fēng)潮,透露了7nm 80核N1 代碼名字為QuickSilver的下一代計(jì)劃,。最亮眼的是新芯片支持2 socket的配置,,這要感謝Arm mesh IP (CMN-600)在CCIX方面的努力。
圖4.8 Ampere產(chǎn)品路標(biāo)
除了讓人覺(jué)得帥到炸裂的80核N1設(shè)計(jì)之外,,QuickSilver擁有128 PCIe4 lanes這樣的豪華配置,。還是Nividia家CUDA-on-ARM的核心伙伴。
這是我2020最期望的一顆芯片,,畢竟能買到啊,,AWS的graviton只能買云服務(wù)。
MarvellThunderX3
接著AWS的熱度,,公布自己下一代計(jì)劃的不僅僅有Ampere,,還有我們的老牌公司Marvell,因此我們知道了ThunderX3 processor的自研核的名字是“Triton”,,還看到了每?jī)赡暌淮?,每代性能翻倍的?qiáng)勁產(chǎn)品路標(biāo)。
圖4.9 ThunderX 路標(biāo)
圖4.10 ThunderX3的增強(qiáng)部分
Fujistu A64FX 2016
最喜歡的要放到最后,。我的同事,,在跟與一位伙伴討論memory選擇的時(shí)候,說(shuō)“高吞吐,,大容量和便宜三者之間,,你只能選兩個(gè)”,這句話非常有哲理了,,如果有三項(xiàng)都可以兼顧的方案,,大家就不糾結(jié)了。有糾結(jié),,肯定是有難選的地方,,我個(gè)人偏好那種“除了貴,,沒(méi)別的毛病”的方案,但是請(qǐng)放心,,給伙伴推薦的時(shí)候,,我絕對(duì)不會(huì)表露這種個(gè)人傾向性的。
富士通的這款A(yù)64FX其實(shí)不是服務(wù)器芯片,,是用來(lái)做超算的,,恰恰就是那種“除了貴,沒(méi)別的毛病”的產(chǎn)品,。
2016年arm宣布了ArmV8的指令集擴(kuò)展SVE- Scalable Vector Extension,,國(guó)際慣例,一個(gè)大客戶會(huì)出來(lái)站臺(tái),,這就是是Fujistu-富士通,,它的Post-K,傳聞中拿了$1.24 billion日本國(guó)家資金的超算項(xiàng)目,,會(huì)采用Arm架構(gòu),,而不是他們以前的SPARC。而且A64FX是第一款支持SVE的Arm處理器,。
圖4.11 A64FX的緩存層級(jí)和速度
2018年富士通在hotchips上公開(kāi)介紹了A64FX這顆芯片,。先看硬參數(shù):8.8 billion transistors (這個(gè)不算多,AWS Graviton2 有30B) ,,7nm,。48個(gè)自研核加上4個(gè)同質(zhì)的管理核,其實(shí)是4個(gè)處理器cluster,,每個(gè)cluster是13個(gè)核,。核間互聯(lián)是自研的第二代TOFU -6D mesh/torus片上網(wǎng)絡(luò)(第一代TOFU的口碑超級(jí)好),配的32GB HBM2 (超豪華配置),,16PCIe 3.0 lanes (這個(gè)不算多,,估計(jì)也不想接什么外設(shè)),1024 GB/s的存儲(chǔ)帶寬,,2.7 TFLOPS @ 64bit,21.6 TFLOPS@8bit 的性能,。Nvidia Tesla P4和P40,,在8bit整數(shù)的時(shí)候,分別是22 TFlops和47TFLOPS,,頗有一拼,。
A64FX的cache層級(jí),吞吐很高,,執(zhí)行流水線,,電源管理,,RAS都很有特色,有興趣可以讀一下hotchips的文檔,。
圖4.12 A64FX的floorplan
圖4.13 Fugaku節(jié)點(diǎn)(液冷的)
A64FX這種強(qiáng)悍的性能,,可以不用和GPU組合,因此Cray在和富士通合作,,把A64FX做進(jìn) CS500 clusters和未來(lái)Shasta系統(tǒng)中,。
其它的新入者
2019年11月,一家叫Nuvia的創(chuàng)業(yè)公司,,在SC會(huì)議期間,,浮出水面。這家公司創(chuàng)始人的背景,,蘋果的訴訟,,立刻登上了頭條。沒(méi)有產(chǎn)品之前,,讓我們記住他們的口號(hào)"deliver industry-leading performance and energyefficiency for the data center" ,。
歐洲的歐洲處理器聯(lián)盟-EPI (https://www.european-processor-initiative.eu/project/epi/)也是一個(gè)以設(shè)計(jì)服務(wù)器級(jí)的CPU為目標(biāo)的努力。不多說(shuō),,看路標(biāo),。
圖4.11 EPI路標(biāo)圖
總結(jié)
我在試圖回答Arm為什么要做服務(wù)器的時(shí)候,我能想到的就是“先進(jìn)生產(chǎn)力”這5個(gè)字,。什么叫先進(jìn)生產(chǎn)力,, Frank Frankovsky,F(xiàn)acebook VP of Hardware Design and Supply Chain Operations 也是個(gè)要有名字的男人,。他提出 the most useful work per watt per dollar,。真正能用上的算力除以買服務(wù)器花費(fèi)與運(yùn)營(yíng)服務(wù)器所花的電費(fèi)就是這個(gè)服務(wù)器的代表的生產(chǎn)力,這個(gè)值標(biāo)志了先進(jìn)性,。
延伸一下,,對(duì)產(chǎn)業(yè)鏈上的人就是the total useful work per total investment,提供有用計(jì)算力除以總投入的資金(時(shí)間,,工程師的智慧與心血),,這就是這個(gè)技術(shù)/方案/ISA/產(chǎn)品的生產(chǎn)力是否先進(jìn)的指標(biāo)。這也是我寫這篇編年史的一條暗線,,多少投入,,第三波浪潮會(huì)帶來(lái)多少產(chǎn)出。
真正的先進(jìn)生產(chǎn)力,,是屬于全世界的,,也是全世界共同努力的結(jié)果。
先進(jìn)的產(chǎn)品是一行行的代碼,,一個(gè)個(gè)wafer累積出來(lái)的,。
祝大家2020萬(wàn)事如意,。