《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 其他 > 業(yè)界動態(tài) > 英特爾論文,,揭露UCIe技術(shù)細節(jié)

英特爾論文,,揭露UCIe技術(shù)細節(jié)

2022-10-08
來源: IEEE 半導(dǎo)體行業(yè)觀察
關(guān)鍵詞: 英特爾 UCIe Chiplets

  1. 引言

  戈登·摩爾(Gordon Moore)在他提出了“摩爾定律”[1]的開創(chuàng)性論文中預(yù)測了“清算日”的到來——“用分別封裝并相互連接的多個小功能系統(tǒng)構(gòu)建大型系統(tǒng)可能是更經(jīng)濟的,?!苯裉?,我們已經(jīng)度過了那個拐點,。多個裸芯的封裝集成已廣泛應(yīng)用于半導(dǎo)體行業(yè),,包括主流的中央處理單元(CPU)和通用圖形處理器單元(GP-GPU)[2],。

  封裝內(nèi)小芯片的發(fā)展受多方面因素驅(qū)動??朔饪虣C最大尺寸的限制的,,保障性能/功能的前提下生產(chǎn)更大規(guī)模的裸芯,是各大公司發(fā)展出其特有方案的主要原因,。

  降低總體組合成本,,同時擁有上市時間優(yōu)勢,這將是發(fā)展Chiplet的一個令人信服的驅(qū)動因素,。例如,,F(xiàn)igure 1[3]所示的計算核心可以在采用先進工藝實現(xiàn),以提供領(lǐng)先的電源效率,,而包含內(nèi)存和輸入/輸出(I/O)控制器功能的結(jié)構(gòu)可以復(fù)用已經(jīng)成熟工藝中的設(shè)計,。這樣的分割方式也可以使裸芯更小,從而獲得更高的良率,。此外,,這種方法有助于降低IP移植成本,對于先進工藝[3],,IP移植成本顯著增加,。

微信截圖_20221008165147.png

  Chiplet的另一個價值是可以提供定制的解決方案。例如,,人們可以根據(jù)特定產(chǎn)品領(lǐng)域的需求,,選擇不同數(shù)量的運算、內(nèi)存和I/O以及加速器芯片,。人們不再需要為不同的細分市場做不同的裸芯設(shè)計,,降低了設(shè)計,,驗證和產(chǎn)品成本。

  UCIe[4]是一種開放的行業(yè)標(biāo)準互連,,為異構(gòu)芯片間提供了高帶寬,、低延遲、高電源效率和高性價比的封裝內(nèi)連接,,以滿足整個計算系統(tǒng)的需求,。UCIe 1.0規(guī)范[4]包含了堆棧的所有層級(圖2a),是我們所知的唯一具有明確規(guī)范機制的完整規(guī)范,,該規(guī)范面向使用PCI-Express(PCIe)[5,、6]和Compute Express Link (CXL)[7]協(xié)議和軟件基礎(chǔ)設(shè)施的組件的異構(gòu)集成,以確?;ゲ僮餍?。這使得設(shè)計者能夠使用廣泛的封裝技術(shù)對不同來源的芯片進行封裝,包括不同的工廠,。UCIe是先前工作的演進,,它已經(jīng)作為專有的多裸芯結(jié)構(gòu)接口(MDFI),在Intel Sapphire Rapids CPU中實現(xiàn)[2],。本文所描述的關(guān)鍵指標(biāo)、特性和仿真方法已在Sapphire Rapids silicon[2]中得到驗證,。

微信截圖_20221008165435.png

  本文在第二節(jié)中深入研究了UCIe的要求和使用模式,。在第三節(jié)中描述了我們提出的方法,該方法在UCIe規(guī)范[4]中得到了廣泛采用,。我們將在第四節(jié)介紹我們的成果,,并在第五節(jié)得出結(jié)論。

  2. UCIe1.0規(guī)范針對的使用模式,、封裝技術(shù)和性能指標(biāo)

  UCIe 1.0支持兩種類型的封裝,,如圖2b所示。標(biāo)準封裝(2D)被稱為UCIe-S,,用于實現(xiàn)高性價比,。先進的封裝(UCIe-A)用于提高電源效率。有多種商業(yè)上可用的選擇,,可以部署UCIe-S和UCIe-A,,其中一些如圖所示。UCIe 1.0規(guī)范包含了這些類別中的所有類型的打包選擇,。表1[3]總結(jié)了UCIe 1.0規(guī)范的業(yè)界領(lǐng)先性能指標(biāo),。

微信截圖_20221008165534.png

  3. UCIe建議的方法

  我們的方法是一個規(guī)范的分層標(biāo)準,包括協(xié)議層,、適配器和物理層(PHY),。我們將首先簡要說明這些層,,然后重點介紹獨特的電路架構(gòu)和封裝通道設(shè)計特性,以實現(xiàn)目標(biāo)性能,、靈活性和互操作性,。

  A.分層

  PHY負責(zé)電信號、時鐘,、鏈路訓(xùn)練,、邊帶等、電路架構(gòu)和封裝互連通道,。

  Die-to-die適配器為Chiplet提供鏈路狀態(tài)管理和參數(shù)協(xié)商,。當(dāng)啟用時,它通過其循環(huán)冗余校驗(CRC)和鏈路級重傳機制保證數(shù)據(jù)的可靠傳遞,。它的底層仲裁機制支持多種協(xié)議,。256字節(jié)(或68字節(jié))流量控制單元(FLIT)支持底層的可靠傳輸機制。

  我們將PCIe和CXL協(xié)議映射到UCIe中,,因為這些協(xié)議被廣泛部署在所有計算機系統(tǒng)的板級上,。這樣做是為了利用現(xiàn)有的生態(tài)系統(tǒng),確保無縫互操作性,,使板級組件可以被打包到一個封裝中,。通過PCIe和CXL,當(dāng)今平臺上部署的片上系統(tǒng)(SoC),、鏈路管理和安全解決方案可以無縫遷移到UCIe,。

  我們?yōu)閁CIe這樣die-to-die互連的使用模式的解決方案是全面的:使用直接內(nèi)存訪問的數(shù)據(jù)傳輸,軟件發(fā)現(xiàn),,錯誤處理等,,通過PCIe/CXL.io解決;內(nèi)存使用情況通過CXL.Mem處理;而加速器等應(yīng)用程序的緩存需求是通過CXL.cache解決的。我們還定義了一個“流協(xié)議”,,它可以用來映射任何其他協(xié)議,,如專有的對稱緩存一致性協(xié)議(例如,超路徑互連),。我們的方法還使UCIe聯(lián)盟能夠創(chuàng)新出新的協(xié)議,,以覆蓋新的使用模式或改進現(xiàn)有的協(xié)議。

  我們支持不同的數(shù)據(jù)速率,、寬度,、凸距和通道范圍,以確保最廣泛的互操作性,,如表1所示,。互連的構(gòu)建單元是一個集群(cluster),,其中包括N個單端,、單向,、全雙工數(shù)據(jù)通道(標(biāo)準封裝的N = 16,先進封裝的N = 64),,一個用于valid的單端的通道,,一個用于tracking通道,每個方向有一個差分轉(zhuǎn)發(fā)時鐘,,每個方向有兩個用于邊帶的單端通道(一個用于800Mhz時鐘,,一個用于數(shù)據(jù))。邊帶接口用于狀態(tài)交換,,方便數(shù)據(jù)集群中鏈路的訓(xùn)練,,即使在在鏈路未被訓(xùn)練的情況下,也有寄存器訪問機制,,用于診斷,。先進封裝支持使用備用通道來處理故障通道(包括時鐘、valid,、邊帶等),,而標(biāo)準封裝支持寬度降級來處理故障??梢跃酆隙鄠€集群來為每個鏈接提供更高的性能,,如圖3所示。

微信截圖_20221008165609.png

  B.物理層架構(gòu)

  我們在構(gòu)建UCIe PHY層時已經(jīng)將集成設(shè)備制造商(IDM)和外包半導(dǎo)體組裝和測試(OSAT)可移植性考慮在內(nèi),。大多數(shù)電路組件可以用數(shù)字類型的電路構(gòu)建,,如推挽發(fā)射機(TX)、數(shù)字延遲鎖定環(huán)(DLL)和相位插補器(PI),、基于變頻器的前端接收器(RX)、用于采樣的動態(tài)鎖存比較器和基于變頻器的時鐘分布,。一些組件可以與更高性能的標(biāo)準模擬模塊互換,,如用于RX模擬前端(AFE)的連續(xù)時間放大器、片上終端,、電感器,、片上穩(wěn)壓器等,它們可移植到任何現(xiàn)代IDM節(jié)點,。

  我們?yōu)閁CIe-A和UCIe-S提出了相同的時鐘和信號方案,。這些方案包括源時鐘同步和匹配的時鐘/數(shù)據(jù)延遲路徑,以實現(xiàn)在噪聲較大的供電環(huán)境中仍有穩(wěn)定的性能,,同時將不歸零(NRZ)編碼信號作為下一節(jié)將討論的通道規(guī)格的最佳能耗/性能,。TX輸出擺幅被規(guī)定為400 mV-850 mV的寬工作范圍,以允許實現(xiàn)復(fù)雜性與通道能耗/性能優(yōu)化,。RX必須滿足輸入在16GT/S時眼圖大?。ǜ?寬)40mV*47ps以及在32GT/s是眼圖大小為40 mV*20ps的標(biāo)準,。在早期訓(xùn)練階段的參數(shù)協(xié)商將把擺幅等級傳達給接收的裸芯,此外RX觸發(fā)點以及其他參數(shù)校準也可以在這個時候完成,。

  經(jīng)過訓(xùn)練后,,鏈路的時鐘和數(shù)據(jù)路徑間將有大約0.5單位間隔(UI)。這個0.5UI的目標(biāo)使鏈路有效地成為一個“匹配的架構(gòu)”,,對最大限度地減少確定性抖動(DJ)對鏈路定時性能的影響至關(guān)重要,。在降低供電電壓,時鐘和數(shù)據(jù)路徑之間的0.5 UI延遲增量為電源下降的幅度乘以電路路徑的α系數(shù)(即延遲變化相對于VCC變化的百分比),。通常在低壓供電時,,時鐘和數(shù)據(jù)路徑之間的延遲增量越大,兩條路徑之間的偏移就越大,。這種額外的偏移會直接導(dǎo)致鏈接性能下降,。建議的0.5 UI架構(gòu)允許在16 GT/s的電壓下提供40-50 mV的電源噪聲。相比之下,,1.5或2.5的UI目標(biāo)將需要更嚴格的電源噪聲規(guī)格或高帶寬跟蹤機制,,這可能會帶來大量的能耗。RX端的匹配架構(gòu)要求通過數(shù)據(jù)和時鐘路徑的延遲到采樣觸發(fā)器之間的間隔不超過0.1個UI,。將由兩個具有控制端的CMOS緩沖器組成的糾偏緩沖器(De-Skew)添加到每個數(shù)據(jù)路徑通道,,用于通道間的糾偏校準。如果考慮到較高的電源噪聲容限,,整體功率和噪聲影響可以忽略不計,。圖4展示了我們提議的PHY體系結(jié)構(gòu)的概述。

微信截圖_20221008165645.png

  來自RDI接口的線路(圖2a)經(jīng)過跨時鐘域FIFO,,來重新計時協(xié)議鎖相環(huán)和物理層鎖相環(huán)時鐘域之間的信號,。FIFO被轉(zhuǎn)換為串行輸出,并通過一個阻抗補償?shù)腡X驅(qū)動程序傳輸,。時鐘路徑包括一個延遲鎖相環(huán)(DLL),,用于為精密的偏移調(diào)節(jié)器(PI)和占空比校正器(DCC)生成必要的參考值(正交或相同)。在接收機裸芯上,,通過在數(shù)據(jù)RX AFE和采樣觸發(fā)器之間添加一些延遲(通常是2個反向器)來匹配發(fā)送到采樣器觸發(fā)器的數(shù)據(jù)和時鐘路徑,,以匹配時鐘RX AFE+相位生成/時鐘分配帶來的延遲。

  時鐘的兩個相位被分為偶數(shù)時鐘和奇數(shù)時鐘,。對于4 GT/s, 8 GT/s, 12 GT/s和16 GT/s,,兩個時鐘以90°和270°的相位,以一半數(shù)據(jù)速率(例如,,2 GHz為4 GT/s, 4 GHz為8 GT/s)發(fā)出,。這是基于傳輸端以0°相位傳輸數(shù)據(jù)而言的,因此到采樣器的時鐘和數(shù)據(jù)路徑之間所需的0.5 UI相位差。差分轉(zhuǎn)發(fā)時鐘的兩個邊緣都用來在RX處采樣,,稱為2路交錯,。對于24 GT/s和32 GT/s的操作,支持額外的可選4路交錯,,配置為45/135度,,以優(yōu)化功率。圖5總結(jié)了用于實現(xiàn)靈活性和功率優(yōu)化的2路或4路時鐘交錯選項,。在較高的數(shù)據(jù)速率下,,實現(xiàn)4路交錯通常比2路交錯更節(jié)能。在考慮到入口/出口延遲和相應(yīng)的高di/dt和更高的電源噪聲時,,建議使用全局時鐘方案獲取最佳的性能優(yōu)化,。這在較低的數(shù)據(jù)速率下尤其重要,這也將與未來的3D die-to-die標(biāo)準十分相關(guān),。

微信截圖_20221008165724.png

  此外,,PHY架構(gòu)還有一些附加細節(jié),包括一個Valid通道,,用于在流量空閑時啟用時鐘門控(<1 ns),。我們估計,在這種空閑狀態(tài)下,,通過選通包括從鎖相環(huán)輸分布到每個PHY模塊的主干在內(nèi)的大部分時鐘,,可以節(jié)省≥85%的總功率。這種方法在利用率低于100%情況下運行的工作負載特別有效,。我們還分配了一個Track通道,,它可以在后臺由于溫度漂移而調(diào)整時鐘到數(shù)據(jù)的偏移。

  保持0.5 UI的時鐘到數(shù)據(jù)偏移的源同步時鐘,,使得鏈路在電源噪聲環(huán)境中保持穩(wěn)定的性能,。這使得可以采用較低的VCC,以實現(xiàn)最佳功率/延遲性能的最佳平衡,,同時避免嚴格的電源調(diào)節(jié),,以簡化SoC集成。表2總結(jié)了在表1所示數(shù)據(jù)速率下,,達到<<1.0的及時故障(FIT)率所需的原線誤碼率(BER),。在較低的操作數(shù)據(jù)速率下,,PHY原線誤碼率為1e-27,。在較高的數(shù)據(jù)速率下,原線誤碼率為1e-15;使用16位CRC可以實現(xiàn)目標(biāo)FIT,。

微信截圖_20221008165746.png

  C.標(biāo)準封裝通道設(shè)計

  我們根據(jù)最先進的Flip-Chip封裝技術(shù)定義UCIe標(biāo)準模塊,,以實現(xiàn)表1中的性能目標(biāo)。我們的建議方案提供了很大的靈活性,包含了封裝行業(yè)中各種技術(shù)產(chǎn)品,。我們建議采用一個固定大小的模塊,,以促進各芯片之間的互操作性。

  圖6所示的Flip-Chip封裝,,是當(dāng)今主流的封裝解決方案[8],。在過去的30年里,封裝技術(shù)獲得了極大的發(fā)展,。目前,,最大的層數(shù)大于20(例如,2個核心層,,正反面均有9個堆砌層),,最大的外形尺寸超過3000毫米?。為了與摩爾定律的擴展保持同步,,受控塌陷連接(C4)凸點的最小間距減小到約100 μ m,,布線的最小間距減小到約20 μ m。這些使得每個布線層在芯片邊緣大約有20個IO/mm的密度,。為了保持可負擔(dān)性,,這些間距和密度預(yù)計將會緩慢增大。因此,,更高的IO帶寬密度需要更多地依賴于更快的數(shù)據(jù)速率和更多的層數(shù),。

微信截圖_20221008165814.png

  基本的UCIe-S模塊,無論是用于發(fā)射機(TX)還是接收機(RX),,都由20個單向單端模式的信號組成,。推薦的凸點排布如圖7所示??拷阈具吘壍那?0個信號在一個布線層中避開凸點區(qū)域,,而后面的其他10個信號在下一個布線層中使用相同的布線設(shè)計策略回避凸點區(qū)域。模塊寬度選擇為571.5μm,,因此沿裸芯邊緣的間距Py為190.5μm,。根據(jù)所選的技術(shù)選項,其他尺寸的選擇是靈活的,。表3列出了基于110 μ m和130 μ m最小凸距的兩種設(shè)計案例,。對角線方向的間距P,深度方向的間距Px都有相應(yīng)的調(diào)整,。其他尺寸需要滿足以下兩個條件:

  P=D+L+2S   (1)

  P_y=D+3L+4S   (2)

  其中,,D是通孔焊盤直徑,L是導(dǎo)線寬度,,S是導(dǎo)線周圍的間距,。在571.5μm的模塊,引腳密度為17.5 IO/mm,兩個布線層總密度為35IO/mm,。

微信截圖_20221008165842.png

  我們提出的UCIe-S模塊包括一個TX塊和一個RX塊,。因此,全模組寬度為1143 μ m,。引出走線的排序在TX和RX之間是對稱的,,因此一個PHY設(shè)計可以用來互連所有的Chiplet。標(biāo)準模塊還支持堆疊,,通過4個布線層層進一步增加引出的IO密度至70 IO/mm,。這些模塊以棋盤格的形式排列(圖8)。裸芯邊緣的模塊使用兩個頂層的走線層連接,,而靠后的模塊使用兩個較深的路由層連接,。我們建議堅持相同的模塊寬度。如果兩個芯片之間的模塊寬度顯著不同(如圖9所示),,則需要為扇入和扇出走線提供空間,。這增加了通道長度,并需要較大的裸芯間距離,,此時,,兩個面對面的chiplet的PHY模塊過一個微小的芯片間隙互聯(lián)的方案是不可行的。

微信截圖_20221008165917.png

  面積密度與凸點間距相關(guān),。如表3所示,,較寬的間距會造成較大的凸點區(qū)域深度和較小的區(qū)域密度。封裝技術(shù)的進步一直在推動凸距變小,,以增加面積密度,。減少接地凸起也增加了區(qū)域密度。圖7中的凸點排布具有良好的接地隔離性,,以確保通過深層封裝層的通道能夠滿足32GT/s的要求,。然而,如果目標(biāo)數(shù)據(jù)速率較低,,或如果不進行模塊堆疊,,且通空堆疊高度較低的話,則可以減少接地凸點以節(jié)省硅面積,。這樣就可以靈活地適應(yīng)帶寬密度,、硅面積和包層數(shù)量之間的不同權(quán)衡。

  D.先進裝通道設(shè)計

  在過去的十年中,,出現(xiàn)了新的先進的封裝架構(gòu),,實現(xiàn)了封裝特征尺寸[8]的大幅減小。為了充分利用這些先進技術(shù)的能力,,我們定義了一個單獨的UCIe-A模塊來支持表1中的性能目標(biāo),。與標(biāo)準模塊類似,先進模塊支持多種封裝技術(shù),。該模塊的建議邊緣寬度對于獨立開發(fā)的芯片之間的互操作性至關(guān)重要,。我們有內(nèi)置的修復(fù)冗余,這對實現(xiàn)良好的封裝良率至關(guān)重要,。

  工業(yè)上先進的封裝技術(shù)使凸點間距小于55 μ m,,并將布線間距改善到幾微米。其中許多技術(shù)都利用了硅制造能力,。小通孔尺寸和良好的通孔排列使通孔能被走線所包圍,。這為信號層間傳遞和交換布線順序創(chuàng)造了高度靈活性。這與標(biāo)準封裝的解決方案有很大的不同,。

  圖7中標(biāo)準模塊的凸點排布并不適用于先進封裝技術(shù),。它強制采用16位集群設(shè)計,并需要堆疊至少10個模塊,,才能充分利用先進封裝的布線密度,。相應(yīng)片上數(shù)據(jù)進出這些模塊的路徑非常復(fù)雜,阻礙了PHY的模塊化設(shè)計,。它也不包含先進封裝所要求的用于修復(fù)的冗余位,。此外,圖8中的棋盤格模塊排列導(dǎo)致部分通道明顯變長,,這將限制帶寬和電源效率,。

  因此,先進模塊被設(shè)計成不同的尺寸和外形,。圖10顯示了一個基于45 μ m間距的凸點排布[4],。與標(biāo)準模塊類似,它由一個TX模塊和一個RX模塊組成,。TX模塊靠近裸芯邊緣,,而RX模塊在后面。兩者共74個信號,,其中數(shù)據(jù)通道64個,,overhead信號10個。其中一個特殊的overhead信號是用于修復(fù)的冗余信號,。先進的封裝解決方案通常涉及成千上萬個小間距的微凸點互連,。先進模塊為每32個數(shù)據(jù)信號分配兩個冗余凸點,以修復(fù)潛在的裝配故障,。這是保證制造良率的必要條件,。

微信截圖_20221008165950.png

  模組寬度固定在388.8 μ m。當(dāng)使用先進封裝時,,兩個芯片通常放在一起,,以減少信道長度,,這對電源效率和收發(fā)器設(shè)計的非常關(guān)鍵。然而,,如果兩個Chiplet之間的模塊寬度相差較大,,扇入和扇出的連接空間就很小。這與圖9中標(biāo)準封裝模塊的問題類似,。由于先進封裝信道具有很強的RC特性,,對信道長度非常敏感,模塊寬度不匹配會大大降低信道帶寬和功率效率,。因此,,固定的模塊寬度是芯片互操作的基礎(chǔ)。

  45μm間距凸點共10列,,模塊寬度388.8 μ m,,如圖10所示。沿裸芯邊緣的凸距為77.76 μ m,,在深度方向和對角線方向的凸距均約為45 μ m,。這遵循六邊形模式,最大化了凸點密度,。對于更緊密的凸點密度,,可以調(diào)整列和行的數(shù)量,以實現(xiàn)最大的凸點密度,。例如,,如果封裝工藝支持25 μ m的最小凸距,則可以將列數(shù)增加到18個,,沿裸芯邊緣的凸距減小到43.2 μ m,,使模塊寬度保持在388.8 μ m。沿深度和對角線方向的間距約為25 μ m,。這也遵循一個六邊形的模式,。

  對于先進模塊,裸芯邊緣的引出IO密度約為400 IO/mm,。面積密度隨凸距的增大而增大,。在45 μ m間距時,凸點深度約為1 mm,,因此面積密度約為400 IO/mm?,。面積密度與凸距的平方呈反比關(guān)系,可以隨凸距減小而進一步增大,。先進的封裝裝有通孔和導(dǎo)線的精細設(shè)計規(guī)則,,因此凸點引出的限制比有機封裝少得多。TX和RX模塊可以沿裸芯邊緣均勻排列,,而不是棋盤格圖案,。如圖11所示,,所有的TX模塊都可以放在模具邊緣,而所有的RX模塊都在它們的后面,。這樣做有兩個優(yōu)點:首先,,它只需要單一的TX和RX塊設(shè)計,因此簡化了電路設(shè)計,。第二,雙向的導(dǎo)線長度相同,。換句話說,,它減少了最壞情況下的走線長度。這大大提高了這些有損耗通道的帶寬,。

微信截圖_20221008170015.png

  圖示所示的高級模塊的凸點排布不適用于凸間距為110 μ m的標(biāo)準封裝,。標(biāo)準封裝模塊至少2.5毫米深,而接地屏蔽遠遠不足以滿足標(biāo)準封裝中的長通孔,。它將需要至少8個布線層來分解所有的信號,。

  4. 封裝通道性能結(jié)果

  我們模擬了UCIe-S和UCIe-A模塊的參考通道,以驗證其電氣性能,。

  A.標(biāo)準封裝通道性能

  標(biāo)準封裝通道基于如圖8所示的堆疊模塊配置,。各模塊采用圖7所示的凹凸圖,凹凸間距為110 μ m,。封裝基板被假設(shè)為8-2-8,,這表示在兩個核心層的正面和背面都有8個堆砌層。堆疊UCIe-S模塊的導(dǎo)線連接需要4層布線層,,從封裝表面開始依次為第2層,、第4層、第6層,、第8層,。最壞的通道在第8金屬層,因為它有最長的垂直通過堆疊高度和最高的串?dāng)_,。

  通道長度取決于兩個芯片的位置,。信道越長,損耗越大,,信號裕度越差,。圖12繪制了一個25mm長的通道的特性。損耗和累積串?dāng)_是基于電壓傳遞函數(shù)(VTF)[4,9]而不是s參數(shù),。它將TX,、RX的終端和容性負載與通道結(jié)合起來進行綜合評價。在16 GHz時,,VTF損耗為-8.77 dB,,累積VTF串?dāng)_為-31.3 dB,。它們基于UCIe規(guī)范[4]中32gt /s標(biāo)準封裝通道的TX和RX要求:TX終端30Ω,RX終端50Ω,,TX和RX的等效電容均為125fF,。低裸芯電容通常需要低壓靜電放電(ESD)保護,片上電感線圈,,TX和RX電路負載優(yōu)化,。由于TX和RX的電阻終端和容性負載被納入圖12中的VTF損耗和串?dāng)_中,因此在通道特性中存在很小的反射,。這些在時域仿真中可以被完全看到,。在2 dB的TX去加重的情況下,32GT/s時的RX眼圖如圖13所示,。根據(jù)峰值失真分析,,在40 mV眼高時,最壞情況下眼寬開度大于65% UI,。TX去加重有~10%的UI貢獻,。除去時鐘和控制信號的開銷,整個芯片邊緣的數(shù)據(jù)帶寬密度達到了約224 GB/s/mm,。

微信截圖_20221008170121.png

  封裝內(nèi)通道可分為三段:第一個裸芯上的凸點引出區(qū)域,、第一個裸芯與第二個裸芯之間的導(dǎo)線以及第二個裸芯的凸點接入?yún)^(qū)域。芯片間的連線通常是一條50 Ω傳輸線,,長度可為兩毫米到十幾毫米,。凸點引出和接入的片段非常短。整個通道相對簡單,。圖14顯示了16 GT/s時的裕量與圖12中參考通道的終端配置之間的關(guān)系,。最佳的RX配置大約是50 Ω。這表明了50歐姆是減少RX反射的RX與通道阻抗匹配的首選,。然而,,TX端可以低于通道阻抗。較低的TX終端提高了進入通道的電壓等級,,增加了RX電壓擺幅和信號裕度,。然而,在TX端較大的不匹配將導(dǎo)致不必要的反射,。因此,,最佳的TX設(shè)置大約是30 Ω。對電阻終端的靈敏度不會受到TX去加重,、電容負載或數(shù)據(jù)速率的明顯影響,。對于較低數(shù)據(jù)速率和較短路徑的應(yīng)用,可以對終端進行調(diào)整,,換取更大的信號裕度和更好的能效,。

微信截圖_20221008170145.png

  B.先進封裝通道性能

  一個參考先進封裝通道被放在一起來驗證UCIe-A模塊的性能,。凸點引出和布線是需要優(yōu)化的物理通道的兩個關(guān)鍵組件。凸點-通孔串?dāng)_對接地屏蔽的位置高度敏感,。因此,,屏蔽凸點的最佳位置需要在硅面積和串?dāng)_等級之間進行權(quán)衡。金屬堆疊對線路性能影響很大,。這是互連技術(shù)開發(fā)的一個關(guān)鍵領(lǐng)域,,用于優(yōu)化通道范圍、路由密度和帶寬,。參考通道是基于圖10中的45 μ m間距凸點排布,。基于1?m的最小寬度和間距設(shè)計規(guī)則進行路徑設(shè)計,。相反方向的信號被分成兩個路由層,,中間以一個地面參考層隔開,。通道長度假設(shè)為1.5 mm,。圖15中疊加了20個信號的VTF損耗和累積串?dāng)_。最壞情況下VTF損耗在8 GHz時為-2.73 dB,。最壞情況下累積VTF串?dāng)_在8 GHz時為-24.3 dB,。VTF指標(biāo)是基于UCIe規(guī)范[4]中16GT/s先進封裝通道的TX和RX要求: 25ΩTX上有250ff電容負載在以及在無端接的RX上有200 fF電容負載。由于難以在間距很小的凸點范圍內(nèi)安裝片上電感器,,因此先進封裝的電容負載更高,。在16GT /s時對應(yīng)的RX眼圖如圖16所示。無端RX增加了電壓波動,。由于低損耗和低串?dāng)_達到奈奎斯特頻率,,眼睛是廣泛打開的。根據(jù)峰值失真分析,,在不使用任何均衡電路的情況下,,在40mv眼高處,最壞情況下眼寬開度大于80% UI,。這使得除開銷信號外,,以16GT/s速率跨越整個裸芯邊緣的帶寬密度約為658 GB/s/mm。這已經(jīng)是32 GT/s標(biāo)準模塊的三倍,。在相同的數(shù)據(jù)傳輸速率下,,先進模塊的帶寬密度是標(biāo)準模塊的6倍。先進的封裝技術(shù)正在迅速發(fā)展,。設(shè)計特征尺寸不斷縮小,,層數(shù)不斷增加。這些技術(shù)的進步將繼續(xù)減少信道損耗和串?dāng)_,,以支持更高的數(shù)據(jù)速率,,如32 GT/s,。

微信截圖_20221008170208.png

  由于先進封裝通道非常短,它對TX和RX終端的靈敏度與標(biāo)準通道不同,。圖17顯示了在16gt /s時的裕度與TX和RX終端配置之間的關(guān)系,。它傾向于較強的TX,對RX終端未表現(xiàn)出顯著的敏感性,。因此,,我們設(shè)置UCIe-A TX終端電阻為25Ω,RX不端接,。這樣可以最大化信道裕度,,簡化RX設(shè)計,降低功耗,。

  5. 結(jié)論

  該行業(yè)需要一個開放的芯片生態(tài)系統(tǒng),,它將會為計算機領(lǐng)域帶來革新。我們使用UCIe 1.0規(guī)范的方法提供了引人注目的電源效率和成本效益,,并在前期解決了即插即用和規(guī)范性問題,。我們預(yù)計下一代的創(chuàng)新將發(fā)生在Chiplet級別,允許提供不同功能的芯片組合供客戶選擇,,以最佳地滿足其應(yīng)用程序需求,。

  未來,我們將對時鐘結(jié)構(gòu)和相應(yīng)的功率噪聲對信號裕度的影響進行更多的靈敏度研究,。隨著凸點間距的不斷縮小和3D封裝集成成為主流,,我們期待有更多創(chuàng)新帶來更節(jié)能、更經(jīng)濟的解決方案,。從延遲,、帶寬和能效的角度來看,這些可能需要更寬的鏈路以更慢的速度運行,,并更接近于片上連接,。在未來的幾十年里,封裝和半導(dǎo)體制造技術(shù)的進步將徹底改變計算領(lǐng)域,。UCIe做好了充分準備,,在生態(tài)系統(tǒng)中的不斷創(chuàng)新,以充分利用這些技術(shù)進步,。

  感謝長三角研究院(湖州)集成電路與系統(tǒng)研究中心的研究生劉洋同學(xué)和黃樂天老師對本文翻譯的支持和幫助,。


  更多信息可以來這里獲取==>>電子技術(shù)應(yīng)用-AET<<

微信圖片_20210517164139.jpg


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問題,,請及時通過電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected]