設(shè)計(jì)出色的 CPU 或 GPU,,甚至是 FPGA 或定制 ASIC(如交換機(jī)或路由器芯片),,是創(chuàng)建更強(qiáng)大系統(tǒng)的一個(gè)重要方面。但是,,如何把這些器件分解成小芯片以提高產(chǎn)量和降低成本,,并在一個(gè)封裝內(nèi)以及跨封裝和節(jié)點(diǎn)將其組合在一起同樣重要,。
本周在臺(tái)灣舉行的 Computex 大會(huì)上,AMD 展示了其在芯片工藝和芯片封裝方面的一些實(shí)力,,以及這兩個(gè)領(lǐng)域的進(jìn)步如何成為 AMD 在所有高性能計(jì)算市場擴(kuò)張的關(guān)鍵,,而不僅僅是模擬和建模。
“在AMD,,我們一直在思考下一步是什么,,”該公司首席執(zhí)行官 Lisa Su 在她的 Computex 主題演講中解釋說?!跋冗M(jìn)技術(shù)是我們產(chǎn)品領(lǐng)先地位的關(guān)鍵基礎(chǔ),,這意味著將最好的工藝技術(shù)與最好的封裝技術(shù)結(jié)合在一起。我們是臺(tái)積電 7 納米先進(jìn)制造技術(shù)的早期采用者,,到目前為止,,我們已經(jīng)在所有市場上交付了 30 多種 7 納米產(chǎn)品。我們的 5 納米技術(shù)路線圖正在走上正軌,,包括我們將于明年推出的首款 Zen 4 產(chǎn)品,。”
Lisa Su提醒大家,AMD也一直走在芯片封裝技術(shù)的前沿,,我們一直認(rèn)為這與芯片設(shè)計(jì)和芯片工藝同等重要,。您必須同時(shí)擅長這三項(xiàng)才能取得成功——或者與那些從事初級研究的人合作,并將其開發(fā)成您將需要的未來技術(shù),。IBM 曾經(jīng)擅長這三個(gè)方面,,回到今天,AMD 在研究各種芯片封裝方面做得很好,,同時(shí)密切關(guān)注它曾經(jīng)參與的芯片工藝進(jìn)步在 2009 年初分拆 GlobalFoundries 之前,。
“我們也是先進(jìn)封裝技術(shù)的領(lǐng)導(dǎo)者,”Lisa Su說,?!拔覀冊诜庋b創(chuàng)新方面的投資是一個(gè)多年、多技術(shù)的旅程,。2015 年,,AMD 向 GPU 市場推出了高帶寬內(nèi)存(HBM)和硅中介層技術(shù),在小尺寸內(nèi)存帶寬方面領(lǐng)先業(yè)界,。然后,,我們在 2017 年推出大容量多芯片模塊封裝時(shí),為數(shù)據(jù)中心和 PC 市場的計(jì)算設(shè)定了新的性能軌跡,。2019 年,,我們推出了小芯片,在同一封裝中為 CPU 內(nèi)核和 I/O 使用不同的工藝節(jié)點(diǎn),,從而顯著提高了性能和功能,。”
芯片更穩(wěn)固地進(jìn)入第三維總是遲早的事情,。芯片并不是真正的平面物體,、2D 物體,而是堆疊了數(shù)十層材料來創(chuàng)建晶體管和電路,。但最終,,由于光刻設(shè)備掩模版尺寸的限制,與在同一區(qū)域制造許多小芯片的成本相比,,制造大芯片的成本高(小芯片的產(chǎn)量在統(tǒng)計(jì)上更好,,因此獲得一定數(shù)量的原始計(jì)算所需的晶圓更小,從而降低了成本),,我們都知道我們將采用 2.5D(通過中介層將芯片相互連接到全 3D 堆疊裸片以創(chuàng)建具有各種好處的更緊湊的設(shè)備,。
這就是Lisa在她的主題演講中暗示 AMD 要去的地方:往上發(fā)展。
“我們與臺(tái)積電就他們的 3D 結(jié)構(gòu)密切合作,,將小芯片封裝與芯片堆疊相結(jié)合,,為未來的高性能計(jì)算產(chǎn)品創(chuàng)建 3D 小芯片架構(gòu),。”
AMD 正在與臺(tái)積電合作開發(fā)的第一個(gè)使用 3D 結(jié)構(gòu)的原型芯片是垂直緩存,。在原型中,,AMD 采用了 Ryzen 5000 系列處理器,,并在每個(gè)核心復(fù)雜芯片或 CCD 的頂部直接堆疊了一個(gè) 7 納米的 64 MB SRAM,,這使為核心供電的 L3 緩存數(shù)量增加了兩倍。3D 緩存通過硅通孔直接連接到 Zen3 CCD,,在堆疊芯片之間傳遞信號(hào)和電源,,推動(dòng)超過 2 TB/秒的帶寬。
Lisa Su 展示的生產(chǎn)芯片是帶有 3D V-Cache 的 Ryzen 5900X CPU,,每個(gè) CCD 具有 96 MB 緩存,,在具有 12 或 16 核的 Ryzen 處理器復(fù)合體中總共有 192 MB 的三級緩存。這就是這里顯示的內(nèi)容:
圖片
在運(yùn)行 Gears V 視頻游戲的基準(zhǔn)測試中,,普通的 Ryzen 9 5900X 可以驅(qū)動(dòng) 184 FPS,,而帶有 3D V-Cache 的原型 Ryzen 5900X 可以驅(qū)動(dòng) 206 FPS。兩者都具有相同的核心數(shù)(未指定)并且都以相同的 4 GHz 時(shí)鐘速度運(yùn)行,;這使 Gears V 的性能提高了 12%,。在一系列游戲中,平均性能提高了 15%,。正如 Su 所說的那樣,,這是一種性能提升,相當(dāng)于 CPU 設(shè)計(jì)中的架構(gòu)生成步驟——實(shí)際上不必更改 CPU 內(nèi)核或 I/O 芯片,。
蘇說,,臺(tái)積電在AMD的大力幫助下打造的3D結(jié)構(gòu)技術(shù),其互連密度是2D小芯片的200倍以上,,密度是其他3D堆疊技術(shù)的15倍,。順便說一下,這是一種完全沒有焊料凸點(diǎn)的直接銅對銅線接合,,與微凸點(diǎn) 3D 封裝方法相比,,這種 3D 結(jié)構(gòu)技術(shù)每個(gè)信號(hào)的能效高出 3 倍以上。
“所有這些都使其成為世界上最先進(jìn),、最靈活的有源硅堆疊技術(shù),,”她笑著補(bǔ)充道。
蘇說,,3D V-Cache將在今年年底量產(chǎn),。我們希望它很快能在服務(wù)器 CPU 上進(jìn)行測試,也許今年晚些時(shí)候在橡樹嶺國家實(shí)驗(yàn)室安裝的“Frontier”超級計(jì)算機(jī)中使用的“Trento”定制 CPU,。
圖片
人們對 Trento 知之甚少,,但人們普遍預(yù)計(jì)它是一個(gè)定制的“米蘭”部件,,采用與米蘭使用的內(nèi)核相同的內(nèi)核,但將它們與新的 I/O 和內(nèi)存小芯片結(jié)合在一起,,該芯片在芯片上具有 Infinity Fabric 3.0 鏈接,。端口,以及足夠多的端口,,以便單個(gè)插槽的 CPU 內(nèi)存和四個(gè) GPU 的內(nèi)存可以全部鏈接到一個(gè)單一的,、連貫的、共享的內(nèi)存中,。Oak Ridge 在作為“Summit”超級計(jì)算機(jī)基礎(chǔ)的 IBM Power9 CPU-Nvidia Volta GPU 計(jì)算復(fù)合體中具有相干內(nèi)存,,而通過在 Power9 處理器上添加 NVLink 端口實(shí)現(xiàn)的這種相干性是使 IBM 和 Nvidia 贏得交易以構(gòu)建 Summit 的架構(gòu)。
許多人懷疑,,如果 Instinct MI200 GPU 加速器是“Arcturus”MI100 GPU 的 5 納米縮小,,它將兩個(gè)小芯片或兩個(gè)完整的 GPU 放在一個(gè)插槽中,正如許多人懷疑的那樣,,那么 Infinity Fabric 3.0 端口的數(shù)量將需要使 CPU 和 GPU 內(nèi)存一致(設(shè)備之間沒有太多導(dǎo)致延遲的跳躍)將很大,,因此我們預(yù)計(jì) Trento I/O 和內(nèi)存芯片也會(huì)很大。Trento 芯片有可能支持 PCI-Express 5.0 外圍設(shè)備和 DDR5 緩沖主內(nèi)存,。除了這臺(tái)機(jī)器的主要承包商惠普企業(yè),、AMD 和橡樹嶺之外,似乎沒有人能確定,。但我們所知道的是,,他們都渴望在 2021 年 11 月的 500 強(qiáng)排名之前準(zhǔn)時(shí)讓 Oak Ridge 與 Frontier 一起進(jìn)入該領(lǐng)域,
我們認(rèn)為,,如果 Trento 還使用 3D V-Cache 技術(shù)使用更大的緩存會(huì)很有趣,,事實(shí)上,如果這不是封裝的一部分,,我們會(huì)感到驚訝,。
AMD 3D Chiplet 技術(shù):迎接處理器的未來
AMD 昨晚在Computex 2021主題演講中發(fā)布了一些新聞,當(dāng)時(shí) AMD 首席執(zhí)行官 Lisa Su 博士展示了該公司與臺(tái)積電合作開發(fā)的新 3D 小芯片技術(shù),。
總而言之,,與其將自己分散在更寬的芯片上,不如將邏輯單元和高速緩存等 CPU 組件堆疊在一起,,利用垂直空間,,而不是在一個(gè)芯片上增加總表面積扁平晶圓。
雖然該技術(shù)主要由臺(tái)積電率先推出,,但 AMD 似乎是第一家通過在其銳龍系列處理器中引入新的“垂直 L3 緩存”來利用新工藝的芯片制造商,。
在沒有過多陷入計(jì)算機(jī)系統(tǒng)架構(gòu)的情況下,高速緩存是處理器的一部分,,可以在任何給定時(shí)間為處理器存儲(chǔ)最相關(guān)的數(shù)據(jù)和程序指令,。緩存越大,,可以存儲(chǔ)的數(shù)據(jù)就越多,因此處理器不必從 RAM 中獲取新數(shù)據(jù),,這需要更長的時(shí)間并降低性能,。
根據(jù) Su 的說法,通過將 64MB SRAM 節(jié)點(diǎn)堆疊到 CCD(處理器中包含一組處理核心的部分)上,,AMD 能夠?qū)?16 核處理器上可用的 L3 緩存從最大 64MB 增加到 192MB .
雖然這項(xiàng)技術(shù)還沒有進(jìn)入消費(fèi)級處理器,,但AMD 表示,它“有望在今年年底前開始生產(chǎn)具有 3D 小芯片的未來高端計(jì)算產(chǎn)品,?!?/p>
在沒有深入摩爾定律的雜草的情況下,十多年來,,我們的計(jì)算機(jī)將逐漸變得更快的假設(shè)已經(jīng)被擱置了。我們不能再依靠越來越小的晶體管的蠻力工程來使我們的計(jì)算機(jī)越來越強(qiáng)大,。在單個(gè)硅原子開始成為不可靠的電流介質(zhì)之前,,我們正在接近這些晶體管的字面物理極限。
因此,,雖然我們已經(jīng)完成了制造功能越來越強(qiáng)大的計(jì)算機(jī)的簡單方法,,但這并不意味著我們所知道的進(jìn)步的結(jié)束。我們將在未來幾年繼續(xù)縮小晶體管的尺寸,,但下一階段正在超越晶體管并創(chuàng)新我們尚未考慮的新處理器技術(shù)——而 3D 制造顯然是下一步,。
我們很早就意識(shí)到,當(dāng)您用完物理空間并且需要擠進(jìn)更多東西時(shí),,無論是晶體管,、庫存還是人員,都會(huì)開始向上移動(dòng)而不是向外移動(dòng),。
AMD 的新 3D V-Cache 只是朝著這個(gè)方向邁進(jìn)的第一個(gè)實(shí)現(xiàn)- 從字面上看,。擴(kuò)展可用于現(xiàn)有處理器架構(gòu)的緩存已經(jīng)大大提高了性能,但我們沒有理由不也開始堆疊內(nèi)核,。
這將需要各種新的工程解決方案來進(jìn)行熱管理,、物理完整性、功耗等,,但這些一直是處理器創(chuàng)新的障礙——不像晶體管縮小到可以真正計(jì)算出原子數(shù)量的程度,。正在努力,與嘗試以某種方式制造小于 1nm 的芯片相比,,后面的這些挑戰(zhàn)更易于管理并且更有希望,。