云數(shù)據(jù)中心改變了網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)以及數(shù)據(jù)在大型數(shù)據(jù)中心內(nèi)的移動(dòng)方式,,促使用于路由數(shù)據(jù)的芯片架構(gòu)發(fā)生重大變化,,并帶來了一系列全新的設(shè)計(jì)挑戰(zhàn)。
云計(jì)算已經(jīng)成為數(shù)據(jù)中心市場(chǎng)中增長(zhǎng)最快的部分,。事實(shí)上,,根據(jù)思科全球云指數(shù)預(yù)測(cè),未來幾年內(nèi),,云計(jì)算將增長(zhǎng)三倍,,到2021年,云計(jì)算將占到所有數(shù)據(jù)中心流量的95%,。這種增長(zhǎng)的一個(gè)關(guān)鍵部分是虛擬化,,它允許動(dòng)態(tài)分配計(jì)算實(shí)例和工作負(fù)載,以跟上云服務(wù)的動(dòng)態(tài)特性,。
從另一個(gè)角度來看,,現(xiàn)在超過75%的流量在數(shù)據(jù)中心中東西向逐個(gè)服務(wù)器地流動(dòng)。這引發(fā)了第一組問題,,因?yàn)閭鹘y(tǒng)的三層網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)是針對(duì)南北客戶端—服務(wù)器流量進(jìn)行優(yōu)化的,,因此無法有效處理這類數(shù)據(jù)流。
為了解決數(shù)據(jù)流轉(zhuǎn)移問題,,并最大限度地減少延遲和瓶頸,,云數(shù)據(jù)中心正在轉(zhuǎn)向葉脊(leaf-spine)拓?fù)洌渲忻總€(gè)葉服務(wù)器可以通過脊進(jìn)行單跳(single hop),,訪問其他葉服務(wù)器,。
Cadence Design Systems接口IP高級(jí)產(chǎn)品營(yíng)銷經(jīng)理Muthukumar Vairavan表示:“在葉脊拓?fù)浣Y(jié)構(gòu)中,每片葉都要連接到每個(gè)脊開關(guān),。因此,,可以支持的主機(jī)數(shù)量以及網(wǎng)絡(luò)帶寬擴(kuò)展現(xiàn)在變成了交換機(jī)設(shè)備端口數(shù)量和每個(gè)端口帶寬的函數(shù)。交換機(jī)的帶寬主要取決于交換機(jī)ASIC和可安裝在單個(gè)機(jī)架單元中的光學(xué)模組數(shù)量,?!?/p>
目前,最先進(jìn)的交換機(jī)ASIC擁有多達(dá)256條PAM-4 SerDes信道,,每條信道的運(yùn)行速度為56Gbps,,總帶寬為12.8Tbps。Vairavan表示:“總的來說,,這種交換機(jī)最多可以支持32個(gè)端口400GbE(8條線路,每條56Gbps),。但是,,隨著超大規(guī)模數(shù)據(jù)中心對(duì)帶寬的需求不斷增加,,交換機(jī)廠商希望將芯片帶寬提高一倍,達(dá)到25.6Tbps,。傳統(tǒng)上,,這是通過將SerDes信道速度加倍來實(shí)現(xiàn)的,而光學(xué)網(wǎng)際互聯(lián)論壇(OIF)正致力于定義112Gbps SerDes規(guī)范,,以實(shí)現(xiàn)這一目標(biāo),。”
在這樣的速度下所面臨的挑戰(zhàn)是,,信道損耗非常高,,而且SerDes需要很多均衡。采用先進(jìn)的DSP技術(shù)對(duì)信號(hào)進(jìn)行恢復(fù),,這可能導(dǎo)致顯著的功耗,。Vairavan建議,為了解決這個(gè)問題,,平臺(tái)設(shè)計(jì)需要轉(zhuǎn)向更好的PCB材料,,使用有源電纜和重定時(shí)器,以保持在這樣的速度下信道損耗可控,?!傲硪豁?xiàng)新興技術(shù)是板載光學(xué)(OBO),光學(xué)芯片靠近電路板上的交換機(jī)ASIC放置,,因此減少了電子信道,。 通過將光學(xué)元件從面板移走,OBO還可以提供更好的密度和冷卻效果,。OIF指定了許多類別的SerDes規(guī)范,,如Long-Reach,Medium-Reach,,Short-Reach等,,以便對(duì)特定的交換機(jī)配置進(jìn)行正確的SerDes性能/功率權(quán)衡?!?/p>
雖然構(gòu)建其中一個(gè)芯片需要許多IP,,但有四個(gè)項(xiàng)目通常會(huì)引發(fā)討論——SerDes、HBM PHY,、網(wǎng)絡(luò)級(jí)片上存儲(chǔ)器,,以及TCAM(內(nèi)容可尋址存儲(chǔ)器)。
eSilicon公司營(yíng)銷副總裁Mike Gianfagna表示:“SerDes需要實(shí)現(xiàn)高速片外通信,。HBM PHY需要將2.5D封裝的HBM堆棧內(nèi)存連接到ASIC上,。網(wǎng)絡(luò)級(jí)片上存儲(chǔ)器就像雙端口和偽雙端口存儲(chǔ)器一樣,針對(duì)極高速度進(jìn)行了優(yōu)化,TCAM用于實(shí)現(xiàn)高效的網(wǎng)絡(luò)數(shù)據(jù)包路由,?!?/p>
Gianfagna指出,IP問題還有另外兩個(gè)方面,?!笆紫龋?jīng)過芯片驗(yàn)證的高質(zhì)量IP非常重要,,但還不夠,。還必須驗(yàn)證IP可以協(xié)同工作。諸如可測(cè)試性策略,、操作點(diǎn)和金屬疊層之類的東西——這種兼容性大大降低了整合風(fēng)險(xiǎn),。其次,IP必須在考慮最終應(yīng)用的情況下進(jìn)行配置,。 其中包括編譯內(nèi)存和TCAM等內(nèi)容,,以支持SerDes的不同配置要求和可編程性能?!?/p>
位置,,位置,位置
然而,,沒有一種方法可以適用于所有情況,。一個(gè)系統(tǒng)公司想要從它的IP供應(yīng)商那里得到什么芯片取決于芯片的設(shè)計(jì)應(yīng)用。
Synopsys公司高速SerDes產(chǎn)品營(yíng)銷經(jīng)理Manmeet Walia表示:“有多種方法看待這個(gè)問題,。首先,,你要在更廣泛的層面上認(rèn)清楚你所服務(wù)的市場(chǎng)是什么,無論是企業(yè),、校園,、數(shù)據(jù)中心(現(xiàn)在被稱為超大規(guī)模數(shù)據(jù)中心),還是電信基礎(chǔ)設(shè)施,。如果把它們按規(guī)模排列,,那么企業(yè)要排在第一位,它們是較小的數(shù)據(jù)中心,。然后是云提供商——谷歌,、facebook、亞馬遜——這就是所謂的超大規(guī)模數(shù)據(jù)中心,。最后是服務(wù)提供商,,如ATT等。根據(jù)你所服務(wù)的對(duì)象,,三種規(guī)模的需求各不相同,。”
第二個(gè)因素涉及到這些公司所需要的具體功能。Walia表示:“無論是CPU芯片組,、GPU,、加速器、適配器卡,、交換機(jī)、存儲(chǔ)陣列還是安全系統(tǒng),,根據(jù)它們的功能,,又會(huì)出現(xiàn)不同的要求。第三,,從PHY的角度來看,,它們?cè)谙到y(tǒng)中的位置很重要,無論是在刀片服務(wù)器卡內(nèi),,還是在中間卡上,,或是在交換機(jī)架的頂部。所以它們的位置決定了它們的需求,。市場(chǎng)整體上非常分散,,因?yàn)樗兊迷絹碓綇?fù)雜?!?/p>
Walia說,,除此之外,還有一群開發(fā)人員在談?wù)撔酒?,因?yàn)樗鼈儽槐频搅诵酒闫叽缁蚬庹值倪吘?。“他們現(xiàn)在想要進(jìn)入chiplets,,我們正在從那些想要做所謂的USR(超短距離)SerDes的客戶那里獲得需求,。這是另一個(gè)需要解決的市場(chǎng)?!?/p>
今天,,大多數(shù)網(wǎng)絡(luò)設(shè)計(jì)活動(dòng)都在云端,其中大部分都是由AI和機(jī)器學(xué)習(xí)應(yīng)用驅(qū)動(dòng)的,。Walia表示:“有趣的是,,所有網(wǎng)絡(luò)公司現(xiàn)在都在嘗試遵循垂直整合模式,他們甚至在嘗試自己制作芯片組,。無論是中國的阿里巴巴,、騰訊、百度,,還是美國的Facebook,、谷歌,都在嘗試自己的AI芯片組。他們不想使用商業(yè)芯片,。因此,,至少從IP的角度來看,我們的業(yè)務(wù)指標(biāo)不是芯片量,。更多的是從設(shè)計(jì)開始的,,當(dāng)然,我們?cè)诖颂幙吹搅嗽朴?jì)算驅(qū)動(dòng)了我們大部分IP業(yè)務(wù),?!?/p>
西門子Mentor事業(yè)部IP部門總經(jīng)理Farzad Zarrinfar對(duì)此表示贊同:“基本的處理器并沒有達(dá)到要求,所以我們看到主要的OEM,、搜索領(lǐng)導(dǎo)者,、游戲領(lǐng)導(dǎo)者和通信領(lǐng)導(dǎo)者都在開發(fā)他們自己的ASIC。顯然,,這些ASIC很多取決于應(yīng)用,。如果它是數(shù)據(jù)中心應(yīng)用,或是某種汽車應(yīng)用,,亦或物聯(lián)網(wǎng)應(yīng)用,,我們就會(huì)看到很多構(gòu)建模塊。例如,,如果你觀察一個(gè)三層千兆交換機(jī),,那么你就會(huì)發(fā)現(xiàn)1千兆位和10千兆位MAC(媒體訪問控制器)。有些人在芯片內(nèi)部加入了ASIC,、收發(fā)器,、SerDes和PHY,以進(jìn)一步提高整合度,,并最大限度地降低成本,。有些人希望基于自己的架構(gòu)來保持它。他們使PHY和SerDes具有更大的幾何形狀,,并且在芯片外使用它們,,他們將更大的幾何結(jié)構(gòu)用于SerDes。然后,,在純數(shù)字部分,,他們將工藝推進(jìn)到10nm和7nm,甚至可以降至5nm finFET技術(shù),?!?/p>
Walia說,這種模式在過去幾年中迅速出現(xiàn),。最初,,這些公司開發(fā)低端應(yīng)用,,比如攝像頭,但現(xiàn)在他們正在轉(zhuǎn)向高端數(shù)據(jù)中心,,并完成越來越多的工作,。
對(duì)于AI / ML應(yīng)用而言,芯片主要是許多帶有ARM 64位處理器的SerDes,。Walia表示:“這是一組ARM高端處理器,,周圍是SerDes。它們通過SerDes使這些核心能夠以非??斓乃俣然ハ嗤ㄐ?,然后這些SerDes也以盒子對(duì)盒子的方式與其他類似的設(shè)備通信。從本質(zhì)上講,,它是一個(gè)輸入和一個(gè)輸出,但它們之間發(fā)生的是一個(gè)指令集,,允許它們?cè)谝欢螘r(shí)間內(nèi)通過可重復(fù)性,,以及讀取人類行為或其他數(shù)據(jù)來接受訓(xùn)練,所以它允許自我編程,,允許在一段時(shí)間內(nèi)學(xué)習(xí),,這就是它們需要強(qiáng)大處理能力的原因?!?/p>
網(wǎng)絡(luò)設(shè)計(jì)的另一個(gè)方面涉及密度要求,。Walia表示:“如今,這些都轉(zhuǎn)化為整合的挑戰(zhàn),。整合變得越來越重要,,我們一直在與想要整合多達(dá)300條SerDes信道(某些情況下甚至達(dá)到500條)的客戶進(jìn)行交流,這要求我們作為IP供應(yīng)商為他們提供很多服務(wù),,以便他們可以整合這些SerDes,。這個(gè)區(qū)域需要非常小,即前端需要非常窄,,以便沿著PHY的邊緣放置越來越多的SerDes,。另外,我們現(xiàn)在需要在兩個(gè)方向上都有PHY,,以便設(shè)計(jì)團(tuán)隊(duì)能夠最舒服地將它們放入芯片的所有四個(gè)側(cè)面,。這是因?yàn)樵?8nm以下,臺(tái)積電不允許我們翻轉(zhuǎn)多邊形方向,。但這意味著我們必須有兩個(gè)不同的設(shè)計(jì)和兩個(gè)不同的布局,,以便他們可以有效地將這些SerDes放在四個(gè)側(cè)面。除此之外,,我們還必須允許它們?cè)趦?nèi)部有多個(gè)層次——基本上要在IP內(nèi)部包含兩級(jí),、三級(jí)深度的SerDes,。”
與此同時(shí),,Walia指出,,OEM正在越來越多地采用封裝凸點(diǎn)技術(shù)(packaging bump technology),而不是采用標(biāo)準(zhǔn)的C4凸點(diǎn)(C4 bumps),?!昂芸赡芩麄冋谑褂貌迦胧椒椒ǎ╥nterposer-type),所以他們需要更寬,,并且凸點(diǎn)可能需要有犧牲pad或微凸點(diǎn)技術(shù)(microbump technology),。從本質(zhì)上講,需要大量的凸點(diǎn)定制以及許多后端服務(wù),。你如何把所有這些東西放在一起,?如何把所有這些信號(hào)帶到封裝基板上?如何把它們放入SoC,?如何以1GB /秒或類似的速度進(jìn)行時(shí)序收斂,?所有這些都是巨大的挑戰(zhàn),所以當(dāng)我們提供這些IP時(shí),,我們必須提供很多關(guān)于如何使用它們的指導(dǎo),。過去我們認(rèn)為,IP非常難以設(shè)計(jì),,但易于整合,。但現(xiàn)在不是這樣了。它們不但很難設(shè)計(jì),,而且更加難以整合,。”
管理IP
如今設(shè)計(jì)的許多高級(jí)網(wǎng)絡(luò)芯片組和ASIC都以數(shù)據(jù)中心為目標(biāo),,其中功耗,、性能和面積都是關(guān)鍵因素。它也是芯片制造商最賺錢的領(lǐng)域之一,。
ClioSoft公司營(yíng)銷副總裁Ranjit Adhikary表示:“這就是云計(jì)算領(lǐng)域正在發(fā)生的一切,。每個(gè)人都想把東西放在云端,云端市場(chǎng)正在增長(zhǎng),。鑒于此,,每個(gè)數(shù)據(jù)中心公司都希望降低成本,因此功耗和可靠性成為非常重要的組成部分,。當(dāng)你討論下一代網(wǎng)絡(luò)交換機(jī),、定義一個(gè)平臺(tái)時(shí),你需要確保I/O帶寬和內(nèi)存子系統(tǒng)都能夠提供所需的性能,。因此,,你基本要確保所有IP都可以即插即用,。你需要確保它們都有相同的金屬疊層、可靠性要求,、工作范圍,、控制接口——甚至相同的DFT方法。當(dāng)你現(xiàn)在談?wù)撨@些事情的時(shí)候,,IP管理平臺(tái)就變成了一個(gè)重要組成部分,,因?yàn)榈筋^來你總是希望可以獲得你想要的IP。你想知道參數(shù)是什么,,于是下載它,,查看它,從而無需經(jīng)過一個(gè)漫長(zhǎng)的周期來確定IP是否有效,,或者到處尋找支持?jǐn)?shù)據(jù)在哪里,。”
找到各種IP區(qū)塊并確定它們是否在其他地方被使用至關(guān)重要,。Adhikary表示:“許多公司將為不同的代工廠提供不同的PDK,,設(shè)計(jì)團(tuán)隊(duì)需要知道IP是否經(jīng)過代工廠驗(yàn)證,或者同一公司的其他客戶是否正在使用它,。你想知道IP的可靠性。例如,,它投入生產(chǎn)了嗎,?有什么問題嗎?最終,,問題歸結(jié)為文檔記錄的功耗,、性能和面積有多好。我們?cè)诖蠖鄶?shù)公司中發(fā)現(xiàn),,信息并不全都集中在一個(gè)地方,,因此把IP管理系統(tǒng)與文檔控制系統(tǒng)聯(lián)系起來變得很重要,這樣每個(gè)人都能保持同步,,而這僅僅是個(gè)開始,。”
展望未來
隨著云服務(wù)提供商把25.6Tbps交換機(jī)遷移到51.2Tbps,,傳統(tǒng)的擴(kuò)展技術(shù)似乎不太可能滿足需求,。
Walia表示:“交換機(jī)ASIC是在先進(jìn)技術(shù)節(jié)點(diǎn)上實(shí)現(xiàn)的,以利用增加的密度和更低的功率,,但正在觸到光罩和產(chǎn)量的極限,。一種迅速普及的選擇是芯片分解,大型芯片被分解為可管理的芯片尺寸,,然后使用高速,、低功耗的封裝內(nèi)互連技術(shù)整合到多芯片模組(MCM)封裝內(nèi),。另一種選擇是將邏輯芯片和SerDes分開,并將它們放在MCM中,。通過轉(zhuǎn)向封裝內(nèi)光學(xué),,可以獲得51.2Tbps所需的更大的光學(xué)密度,所謂封裝內(nèi)光學(xué)是將光學(xué)芯片與MCM中的開關(guān)ASIC芯片整合到一起,,以實(shí)現(xiàn)異構(gòu)系統(tǒng)級(jí)封裝(SiP),。然后可以將光纖連到面板或尾纖上?!?/p>
交換機(jī)ASIC和高速光電互連是云時(shí)代數(shù)據(jù)中心的支柱,。為了滿足這些數(shù)據(jù)中心帶寬的爆炸性增長(zhǎng),交換機(jī)ASIC制造商,、光學(xué)和互連IP供應(yīng)商和標(biāo)準(zhǔn)機(jī)構(gòu)需要建立生態(tài)系統(tǒng),。未來的解決方案將圍繞異構(gòu)解決方案展開,這些解決方案將為特定的應(yīng)用和獨(dú)特的數(shù)據(jù)流量身定制,,以滿足新的性能,、功耗和可擴(kuò)展需求。