思科系統(tǒng)公司可能仍然是數(shù)據(jù)中心中開(kāi)關(guān)和路由器的最大供應(yīng)商,但是從長(zhǎng)期以來(lái),,它一直在被Broadcom所超越,,因?yàn)?a class="innerlink" href="http://forexkbc.com/tags/博通" target="_blank">博通的芯片除了提供本身的開(kāi)關(guān)功能外,還提供了一點(diǎn)點(diǎn)路由的功能,。
盡管在商用以太網(wǎng)開(kāi)關(guān)芯片市場(chǎng)上有很多競(jìng)爭(zhēng),,當(dāng)中包括Nvidia(Mellanox),Innovium,,Intel(Barefoot Networks),,Marvell,以及少數(shù)其他新貴都在這個(gè)市場(chǎng)中,,并且它們?cè)陂_(kāi)關(guān)中的份額越來(lái)越大,,尤其是那些決定網(wǎng)絡(luò)步伐的超級(jí)擴(kuò)展程序和云構(gòu)建者。
但是,,上述芯片廠商需要擊敗的是開(kāi)關(guān)芯片設(shè)計(jì)商博通,,而不是思科,。因?yàn)闊o(wú)論思科為其Silicon One路由器和現(xiàn)在針對(duì)高端產(chǎn)品的開(kāi)關(guān)芯片制造怎樣的聲勢(shì),并高調(diào)宣布公司進(jìn)入商戶市場(chǎng),。但其實(shí)自2000年代末以來(lái),,思科本來(lái)可以選擇制造商用芯片來(lái)抵御來(lái)自Broadcom的攻擊,但直到去年,,思科才這樣做,。
隨著2020逐漸走向尾聲,Broadcom推出了主要針對(duì)超大規(guī)模產(chǎn)品和大型公共云制造商的“Tomahawk”系列以及旨在實(shí)現(xiàn)企業(yè)轉(zhuǎn)換的“Trident”系列芯片,,針對(duì)思科在十月份公布的六款新的Silicon One芯片,。
Broadcom所做的第一件事是擴(kuò)大了其Tomahawk 4產(chǎn)品線系列,該系列的最早的產(chǎn)品是于去年12月發(fā)布的,,擁有25.6Tb/sec的速度,,可以驅(qū)動(dòng)運(yùn)行速度為400 Gb/sec的64個(gè)端口,現(xiàn)已批量生產(chǎn),。
Broadcom的“Tomahawk”和“Trident”系列產(chǎn)品經(jīng)理Vecchio告訴The Next Platform,。這是博通第二款7納米的開(kāi)關(guān)ASIC(在臺(tái)積電公司生產(chǎn)),第一款是2019年6月推出的Trident 4芯片,。Del Vecchio表示,,這兩種芯片都是單片芯片,Broadcom除非絕對(duì)需要,,否則不會(huì)切換到小芯片設(shè)計(jì),,因?yàn)閷⒍鄠€(gè)芯片塊捆綁在一起會(huì)對(duì)性能產(chǎn)生影響。(其他公司,,例如Barefoot Networks,已在不同的模塊中實(shí)現(xiàn)了SerDes電路和開(kāi)關(guān)引擎,,并使用芯片之間的高速鏈接將它們組裝成一個(gè)封裝,。這增加了復(fù)雜性和封裝成本,但也提高了小芯片的良率,,因此降低了成本封裝中的問(wèn)題,。)
正如我們之前所指出的,Broadcom試圖滿足各種各樣客戶的開(kāi)關(guān)和路由選擇需求,,并且該公司認(rèn)為,,它無(wú)法將所有功能都塞入一個(gè)ASIC并由其完成。他們需要重復(fù)去理解這些不同的市場(chǎng)是什么,,它們的需求是什么,,以及Broadcom芯片能解決哪些問(wèn)題。以下是他們按客戶設(shè)置的細(xì)分:
Del Vecchio認(rèn)為,,企業(yè)通常不會(huì)像服務(wù)提供商和hyperscalers/云構(gòu)建商那樣推動(dòng)帶寬限制,。但是他們?cè)诰W(wǎng)絡(luò)上擁有更多的設(shè)備和多種類(lèi)型的設(shè)備,。此外。由于用戶以服務(wù)器所沒(méi)有的方式來(lái)回移動(dòng),,因此需要對(duì)訪問(wèn)和安全性進(jìn)行更多基于策略的控制,。
相比之下,服務(wù)提供商往往擁有大量的遠(yuǎn)程骨干網(wǎng),,因此他們需要在其開(kāi)關(guān)和路由器中進(jìn)行深度緩沖(deep buffering),,以幫助掩蓋這些骨干網(wǎng)中的延遲。服務(wù)提供商也往往在其網(wǎng)絡(luò)中有更多的超額訂購(gòu),,以減少開(kāi)關(guān)的數(shù)量,,這在一定程度上控制了網(wǎng)絡(luò)預(yù)算。這就是Del Vecchio所謂的“超級(jí)共享”(hyper shared)網(wǎng)絡(luò),,其中的服務(wù)質(zhì)量(包括大型訪問(wèn)控制列表,,開(kāi)關(guān)或路由表之類(lèi)的硬件以及交付該服務(wù)的軟件)是關(guān)鍵。
借助hyperscalers和云構(gòu)建器,,大多數(shù)流量都在數(shù)據(jù)中心內(nèi)的設(shè)備之間(所謂的東西方流量),,并且它們帶寬要求非常高。這樣的話他們能在數(shù)據(jù)中心的100000個(gè)服務(wù)器的許多微服務(wù)鏈接在一起,,已組成其所需的應(yīng)用,。他們需要低延遲,但是在各種各樣的網(wǎng)絡(luò)條件下可預(yù)測(cè)的延遲才是最重要的,,這也是為什么hyperscalers和云構(gòu)建者往往擁有非常超額配置網(wǎng)絡(luò)的原因,。
以下是博通針對(duì)不同客戶群的ASIC映射:
這些不是硬性界限。例如,,Broadcom收購(gòu)Dune Networks獲得的“ Jericho” ASIC具有很深的緩沖區(qū),,但每個(gè)ASIC的總帶寬卻總不如Trident或Tomahawk器件。然而 hyperscalers喜歡在其網(wǎng)絡(luò)的核心和骨干網(wǎng)中使用Jericho開(kāi)關(guān),,也許鏈接區(qū)域或在數(shù)據(jù)中心的區(qū)域內(nèi)科充分利用深層緩沖區(qū),,但在可編程性更為重要的邊緣需要使用Trident ASIC,數(shù)據(jù)中心內(nèi)的主要結(jié)構(gòu)則是Tomahawk芯片最合適的地方,。
重要的是,,所有這些ASIC除了支持Broadcom的SDK和API堆棧以外,還支持由Microsoft創(chuàng)建并由開(kāi)放源代碼社區(qū)采用的Switch Abstraction Interface(SAI),,這樣的話就可以在不同制造商的Switch ASIC上提供API虛擬化層,,為此其網(wǎng)絡(luò)操作系統(tǒng)可以不需要理會(huì)是誰(shuí)的ASIC,也都可以運(yùn)行,。(對(duì)于Microsoft Azure云中的許多用例來(lái)說(shuō),,其SONiC網(wǎng)絡(luò)操作系統(tǒng)也是開(kāi)源的,它在SAI上運(yùn)行,;在其他情況下,,Microsoft使用不同的是NOS,。)
據(jù)我們所知,有十多種網(wǎng)絡(luò)操作系統(tǒng)可用于開(kāi)關(guān)制造商或開(kāi)源社區(qū),,其中還有由 hyperscaler 或云構(gòu)建者在內(nèi)部開(kāi)發(fā)并保持專有的系統(tǒng),。在過(guò)去的幾年中,這些NOS有了很大的發(fā)展,,但是從長(zhǎng)遠(yuǎn)來(lái)看,,市場(chǎng)是否會(huì)接受如此多的選擇還有待觀察。反正在服務(wù)器市場(chǎng)是肯定不可能,。在剛開(kāi)始的時(shí)候,,世界范圍內(nèi)的公司數(shù)據(jù)中心中可能有兩打服務(wù)器架構(gòu)和三到四打操作系統(tǒng),但現(xiàn)在,,我們基本上可以在大多數(shù)情況下使用Linux或Windows Server,。
我們認(rèn)為hyperscalers和云構(gòu)建者不會(huì)停止構(gòu)建自己的NOS,這比他們停止構(gòu)建自己的Linux發(fā)行版可能性更高,,因?yàn)檫@兩者對(duì)于其龐大平臺(tái)的性能和安全性至關(guān)重要,。但是我們確實(shí)認(rèn)為便攜式操作系統(tǒng)很重要,而Arrcus的ArcOS很有可能它將以跨平臺(tái)NOS的形式出現(xiàn)后,。
我們還認(rèn)為Nvidia將竭盡全力擴(kuò)展Cumulus Networks通過(guò)其同名平臺(tái)所做的工作,,并將其與Mellanox的多個(gè)平臺(tái)融合在一起。Arista將其EOS和來(lái)自Big Switch Networks的SDN堆棧相結(jié)合的方式還有待觀察,。在許多具有IOS和NX-OS的數(shù)據(jù)中心中,,Cicso是默認(rèn)的選擇。因?yàn)樗麄兊能浖畋銛y,,能提供最高性能,,并可以涵蓋最多場(chǎng)景。這就像Broadcom通過(guò)為特定用例提供精確的ASIC贏得了商用芯片市場(chǎng)一樣,。
通過(guò)介紹上述背景,,我們可以了解Broadcom現(xiàn)在發(fā)布的新品的邏輯。
正如我們上文所述,,將近一年前宣布的“Tomahawk 4 ” ASIC于2020年初開(kāi)始提供樣品,如今在宣布后不到一年的時(shí)間就開(kāi)始批量供貨,。對(duì)于開(kāi)關(guān)ASIC來(lái)說(shuō),,這非常快,。Tomahawk 4 ASIC擁有更多的內(nèi)存,,但擁有和Trident 3上的相同“ Blackhawk” SerDes,該SerDes在25.8 GHz上運(yùn)行,,但是因?yàn)檫x擇了PAM-4調(diào)制(每個(gè)信號(hào)可以做兩位)的方式,,其每個(gè)SerDes通道可以提供50 Gb /秒的有效的帶寬,。最大的Tomahawk 4-50G芯片在其邊緣蝕刻了512枚Blackhawk SerDes,總開(kāi)關(guān)帶寬為25.6 Tb / sec,。此設(shè)備上支持的最密集的開(kāi)關(guān)配置為以400 Gb /秒運(yùn)行的64個(gè)端口,。
但是現(xiàn)在,Tomahawk 4系列正在擴(kuò)展有兩個(gè)新成員:
第一個(gè)是Tomahawk 4-100G,,它擁有與Blackhawk 相同SerDes,,但將時(shí)鐘頻率提高到51.6 GHz,并向其添加了相同的PAM-4調(diào)制,,以使每條通道可以達(dá)到100 Gb/秒的速度,。然而,由于考慮到散熱問(wèn)題,,這個(gè)芯片上只集成了256個(gè)SerDes,。但是,由于熱量隨時(shí)鐘速度呈指數(shù)級(jí)增長(zhǎng),,即使其SerDes為T(mén)omahawk 4-50G的一半,,Tomahawk 4-100G的運(yùn)行功率也略高于350瓦,約為400瓦,。
Tomahawk 4系列中的第二個(gè)新芯片是“戰(zhàn)斧4-12.8T”,,它用戶有128個(gè)SerDes,同樣也是采用PAM-4調(diào)制,。
如您所料,,這兩種新的Tomahawk4開(kāi)關(guān)ASIC均使用臺(tái)積電7納米工藝制造。博通沒(méi)有給出這些芯片的具體晶體管數(shù)量和die尺寸,。但他們表示,。這些新的Tomahawk 4 ASIC將于明年批量供貨,這意味著又一個(gè)快速的增長(zhǎng),。
因?yàn)檫@兩個(gè)新的Tomahawk 4芯片每通道的速度為100 Gb /秒,,那么他們建立以給定速度運(yùn)行的端口,就僅僅需要一半的通道數(shù),,這是很有價(jià)值的,。因?yàn)檫@就意味著一切都取決于 hyperscaler 和云構(gòu)建者客戶想要部署的光學(xué)器件,而100 Gb / sec PAM-4光學(xué)器件具有更高的功率效率,,因此功率效率的凈收益轉(zhuǎn)移到了速度更快的開(kāi)關(guān)ASIC上,。每個(gè)端口溫度更高,開(kāi)關(guān)基數(shù)更低,,因?yàn)楣夤β氏牡偷枚唷?/p>
由于思科是商用芯片市場(chǎng)的新生力量,,也許是Broadcom在數(shù)據(jù)中心開(kāi)關(guān)和路由中面臨的最大威脅,因此該公司似乎在其Tomahawk 4芯片的演示文稿中選擇了Silicon One作為對(duì)比對(duì)象,。
我們認(rèn)為這種比較針對(duì)的是Silicon One,,但從概念上講,,這個(gè)對(duì)比適用于其他12.8 Tb / sec芯片,包括博通在2018年1月推出的Tomahawk 3芯片,。即使新一代ASIC芯片的成本更高,,但您也需要六倍的芯片才能使用Tomahawk 3創(chuàng)建25.6聚合帶寬。另一種說(shuō)法是,,Tomahawk 4它的價(jià)格是Tomahawk 3的六倍,,并且仍然具有空間,散熱,,彈性和巨大的延遲優(yōu)勢(shì),,可以提供與端口相同的原始帶寬。
Broadcom還選擇了競(jìng)爭(zhēng)性商戶芯片中的切片架構(gòu),,這使我們?cè)俅蜗嘈潘趪ニ伎频腟ilicon Silicon One:
雖然Broadcom并不反對(duì)在其開(kāi)關(guān)ASIC中增加可編程性,,但該圖表似乎著眼于Tomahawk 4的流水線分組處理與網(wǎng)絡(luò)處理單元(NPU)之間的性能差異,后者是使用P4編程的Silicon One軟件包的一部分:
這些比較告訴您Broadcom在考慮什么,,以及它在擔(dān)心誰(shuí),。
如果我們用SmartNIC來(lái)減輕服務(wù)器的網(wǎng)絡(luò)處理負(fù)擔(dān),那么也許我們也需要SmartTOR,,這會(huì)將其中一些功能從SmartNIC或服務(wù)器中分離出來(lái)并整合到它們所屬的位置:在開(kāi)關(guān)上,。Broadcom明確認(rèn)為這可能是網(wǎng)絡(luò)的未來(lái),并且正在使用稱為T(mén)rident SmartTOR的Trident 4開(kāi)關(guān)ASIC的變體來(lái)測(cè)試這一想法,,后者的縮寫(xiě)顯然是機(jī)架頂開(kāi)關(guān),。
這個(gè)網(wǎng)絡(luò)負(fù)載的想法并不新鮮。多年以來(lái),,Mellanox(現(xiàn)在是Nvidia的一部分)一直將網(wǎng)絡(luò)工作從服務(wù)器轉(zhuǎn)移到ConnectX網(wǎng)絡(luò)接口卡上,,在過(guò)去的幾代InfiniBand和以太網(wǎng)開(kāi)關(guān)ASIC中,它一直在將某些功能整合到開(kāi)關(guān)本身上,,加速集體操作等自然屬于開(kāi)關(guān)的工作,。
Trident 4芯片的SmartTOR變體的總開(kāi)關(guān)帶寬僅為8 Tb / sec,并且由于采用PAM-4調(diào)制,,它具有160個(gè)SerDes,,以25.6 GHz運(yùn)行,每通道傳輸50 Gb / sec,。(與其他Trident 4芯片和原始的Tomahawk 4芯片相同的速度和調(diào)制,。)
正如您所料,該Trident SmartTOR芯片還采用了臺(tái)積電7納米工藝,。(Broadcom的下一代設(shè)備已經(jīng)達(dá)到5納米了,它在過(guò)去的一周中在概念上進(jìn)行了討論,,而沒(méi)有談?wù)撍?jì)劃為數(shù)據(jù)中心,,云和5G用例在5納米上創(chuàng)建的確切ASIC,。) SmartTOR設(shè)備具有用于網(wǎng)絡(luò)上第2層到第7層服務(wù)的可編程管道,并提供了Del Vecchio所說(shuō)的“大規(guī)?!保?00萬(wàn)個(gè)流量,,300萬(wàn)個(gè)ACL條目,100萬(wàn)個(gè)隧道,,和一百萬(wàn)個(gè)柜臺(tái),。該芯片還具有以線速運(yùn)行的數(shù)據(jù)的MACSec和IPSec加密。
比例尺如何映射到上一代Trident 3-X5芯片:
Trident SmartTOR的用例很有趣,。Del Vecchio表示,,企業(yè)客戶有興趣在裸機(jī)而不是虛擬化的云基礎(chǔ)架構(gòu)上部署其應(yīng)用程序,在這種情況下,,很多由服務(wù)器虛擬化管理程序或SmartNIC(很少會(huì))完成的虛擬網(wǎng)絡(luò)需要:以某種方式集中完成,。將其放入開(kāi)關(guān)很有意義。
如果您希望在X86 Iron甚至FPGA上運(yùn)行這些網(wǎng)絡(luò)服務(wù),,則尤其如此,,這通常發(fā)生在分散在數(shù)據(jù)中心周?chē)木W(wǎng)絡(luò)設(shè)備中:
問(wèn)題是這個(gè),我們還不能回答:將所有這些功能整合回開(kāi)關(guān)成本上,,而不是在X86服務(wù)器或FPGA設(shè)備上運(yùn)行它們,。直到開(kāi)關(guān)制造商使用Trident SmartTOR創(chuàng)建設(shè)備,我們才知道,。