《電子技術(shù)應用》
您所在的位置:首頁 > 電源技術(shù) > 解決方案 > 為 AI 處理器集群供電Vicor

為 AI 處理器集群供電Vicor

2022-03-01
來源:Vicor

最近,,基于 AI ASIC 處理器的新型集群超級計算機的引入,將電源傳輸網(wǎng)絡(luò)的邊界提高到了幾年前從未想象過的水平,。隨著電流水平接近 100kA/ASIC 集群的應用,,需要在電力系統(tǒng)架構(gòu),、拓撲、控制系統(tǒng)和封裝方面進行創(chuàng)新,,以供應如此高的電流需求,。由于功率水平不斷提高,,采用 48V 電源總線進行功率傳輸至關(guān)重要。此外,,日益緊湊的處理器集群應用限制了電源方案在處理器旁橫向擺放的可行性,,因此需要一種新的電源方案來解決問題。

Vicor 48V 直接至負載(<1V)分比式架構(gòu)(FPA?) 與常見的 48V 中間總線架構(gòu)(IBA)不同,,IBA 還是傳統(tǒng)的由一個中間母線轉(zhuǎn)換器和多相 PoL 穩(wěn)壓器組成,,而 FPA 則通過創(chuàng)新解決方案獨特地解決了集群處理器系統(tǒng)面臨的每一個電源傳輸難題,它還支持電源方案在處理器對應面垂直擺放的方式,,這種垂直電源傳輸方式(VPD)對于向此類集群系統(tǒng)提供高電流至關(guān)重要,。

集群式電源傳輸的挑戰(zhàn)

集群式 ASIC 系統(tǒng)采用緊密封裝,以達到所需的高速帶寬,,從而實現(xiàn) AI 訓練工作負載(如自動駕駛)所需的萬億次處理性能,。集群中的每個處理器本身可能需要 600 到 1000 安培的電流,所以即使是單個處理器加速卡上邊,,如果電源方案的擺放位置不接近處理器的電源引腳,,也會帶來嚴重的 PCB 或基板阻抗損失,從而帶來電源傳輸功率損耗的挑戰(zhàn),。

此外,,GPU 和專門的 AI 處理器已經(jīng)采用 7nm、5nm 工藝制程,,很快將使用 3nm 硅工藝節(jié)點,,從而實現(xiàn)人工智能(AI)的快速發(fā)展。這些工藝節(jié)點的標稱核心工作電壓目前在 0.75 至 0.85V 之間,。為了達到 AI 要求的工作性能,,需要把 GPU 和處理器先安放在加速卡上,然后將加速卡群集到基于服務器機架的系統(tǒng)中,,數(shù)據(jù)中心和高性能計算機的每個機架上有 4 或 8 個加速卡,。然而,最近來自 Cerebras 和特斯拉(Tesla)的介紹顯示了另一種將人工智能 ASIC 本身進行集群的方法,,這種方法可以生成極大算力,、極高功率密度的超級計算機,但同時也帶來了對電源傳輸方面的嚴峻考驗和對熱管理/冷卻方面的挑戰(zhàn),。

對于電源傳輸來說,,ASIC/GPU 集群已經(jīng)沒有單處理器或雙處理器 AI 卡那樣的橫向電源傳輸空間,其所使用的高速 I/O 信號對大電流開關(guān)噪聲(即硬開關(guān)多相降壓(buck)穩(wěn)壓器工作時產(chǎn)生的噪聲)極為敏感,。所以將硬開關(guān)多相電源方案移動到更靠近處理器的位置會帶來更多的電流開關(guān)噪聲,,這種情況下,電源方案設(shè)計既要滿足噪聲敏感 I/O 信號的要求,,又要盡量降低 PDN 值就是一個巨大的挑戰(zhàn),。在 40–60A/ 相的典型設(shè)計值下,,給每個AI ASIC 或 GPU 提供高峰值電流(很多情況下每個 AISC 電流需求大于1500A)所需的多相電源方案數(shù)量很容易超過 30 相,在這種應用場景下,,傳統(tǒng)的橫向電源(多相 buck 方案)幾乎是難以實現(xiàn)的,。

分比式電源解鎖電流傳輸新方式

分比式架構(gòu)(FPA)的基本原理是將電源轉(zhuǎn)換器分為兩個主要功能,分別對每個功能進行優(yōu)化,,然后將這些功能作為一個系統(tǒng)來實現(xiàn),。這兩個功能分別是穩(wěn)壓和電流倍增。

穩(wěn)壓

穩(wěn)壓器的效率與所做的工作成反比——工作越多,,效率越低,。穩(wěn)壓器的輸入電壓和輸出電壓越接近,執(zhí)行的工作就越少,,效率就越高。憑借分比式架構(gòu)在系統(tǒng)中的位置優(yōu)化,,可以使穩(wěn)壓器的輸入至輸出電壓差最小化,。PRM? 穩(wěn)壓器采用零電壓開關(guān)(ZVS)升降壓(buck-boost)拓撲結(jié)構(gòu),在輸入和輸出電壓差較小的情況下具有高效率,。ZVS 大大降低了開關(guān)損耗,,實現(xiàn)了高頻操作,大大減小了轉(zhuǎn)換器的尺寸,。PRM 通常將 40 至 60V 的輸入電壓調(diào)節(jié)為 30 至 50V 的輸出電壓,。

軟開關(guān)與電流倍增

PRM 之后是第二級,執(zhí)行電壓降壓和電流提升功能,。這是使用正弦振幅(SAC?)拓撲結(jié)構(gòu)的 VTM? 電流倍增器模塊來實現(xiàn)的,。VTM 的特性可以看作是一個理想的變壓器,其輸入和輸出電壓通過一個固定比率關(guān)聯(lián),,且在超過1MHz 工作頻率時還能保持很低的阻抗(數(shù)百 μ?) ,。

由于 VTM 中沒有儲能裝置,所以只要保持足夠的冷卻,,它就可以提供足夠大的能量,。這使得 VTM 的功率容量與處理器的熱容量相匹配。

SAC 拓撲使用零電壓和零電流開關(guān)控制系統(tǒng),,這進一步降低開關(guān)噪聲和功率損耗,。

proxy1.png

圖 1:PRM? 和 VTM? 是 FPA 的組成部分。PRM 根據(jù)系統(tǒng)輸入電壓范圍和功率要求選擇,;VTM 根據(jù)輸出電壓范圍和電流要求選擇,。PRM 可安裝在系統(tǒng)中任何方便擺放的位置;VTM 應安裝在盡可能靠近處理器核心的位置,。

PRM 和 VTM 一起構(gòu)成 FPA 的功能模塊:一個專門用于穩(wěn)壓,,另一個專門用于電壓轉(zhuǎn)換和電流倍增,。

SM-ChiP 封裝降低噪聲改善散熱性能

雖然用于實現(xiàn)高性能穩(wěn)壓器的拓撲結(jié)構(gòu)和架構(gòu)很重要,但封裝技術(shù)同樣重要,。Vicor SM-ChiP?  封裝將所有無源器件,、磁性器件、MOSFET 和控制器集成到一個模塊中,。此外,,該封裝設(shè)計能夠在有效地供應大電流的同時,以最低的熱阻抗便于模塊冷卻,。許多 SM-ChiP 器件外表面的大部分地方都有接地金屬屏蔽,。這不僅有助于冷卻,還可以屏蔽高頻寄生電流噪聲,,防止其在器件外部傳播,。

垂直電源傳輸方式可將 PDN 損耗降低 95%

對于大型的,集群處理器陣列采用傳統(tǒng)的橫向電源傳輸方式幾乎是不可能的,。集群處理器電源的最好解決方案是垂直電源傳輸方案(VPD),。在 VPD 中,電流倍增器直接位于主板另一側(cè)的處理器下方,,通過縮短電流通過主板的距離,,顯著降低了 PDN 損耗。VPD 需要兩個關(guān)鍵特性來實現(xiàn)此功能,。

2.jpg

圖 2:垂直電源傳輸方案 GTM? 搭配電流倍增器置于處理器下方,,最大限度地提高電源傳輸性能。垂直電源傳輸(VPD)解決方案還為包括更高 I/O 路由,、板載內(nèi)存或更緊密的處理器集群在內(nèi)的方案設(shè)計大大減少了外圍器件應用數(shù)量,。

首先,垂直電源方案(VPD)應該在處理器的正下方區(qū)域,,那里包含了很多高頻電容器,,它們是將特高頻電流(>10MHz)與系統(tǒng)其余部分解耦所必需的。其次,,為了獲得最大效率,, VPD 解決方案的電流輸出位置和樣式必須跟處理器上的電流輸入位置和樣式鏡像一致,這樣才能夠?qū)崿F(xiàn)真正的大電流“垂直”供電,。

為了實現(xiàn)這些功能,,Vicor  VPD 解決方案是一個由三層組成的集成模塊:下層是一個 Gearbox,中間層是 VTM? 電流倍增器陣列,,上層是 PRM? 穩(wěn)壓器,,這樣的三層組成了一個完整的 VPD 解決方案,我們稱之為 DCM?,。Gearbox 執(zhí)行兩個功能:一是包含高頻去耦電容,,二是把來自 VTM 的電流重新分配形成與上面的處理器鏡像一致的模式,。VTM 陣列的大小取決于處理器輸入電流要求,PRM 的大小取決于總的功率需求,。如果 GPU 或 ASIC 需要多個電源軌,,則 VTM 層和 PRM 層可以分別使用獨立的 PRM 和 VTM 來實現(xiàn),其大小可以滿足每個特定軌的電流和電壓要求,。

proxy3.png

圖 3:Vicor DCM? 是針對 ASIC 集群的在一個先進封裝中實現(xiàn)的完整 48V 至負載 VPD 解決方案,。PRM?、VTM? 和模塊的 gearbox 層提供穩(wěn)壓,、電流倍增,、去耦電容和引腳到引腳的封裝匹配。

Vicor FPA? 架構(gòu),、ZVS 和 ZCS 控制系統(tǒng),、高頻 SAC? 電流倍增器拓撲與 SM-ChiP? 封裝技術(shù)提供了完善 VPD 的所有要素。它解決了低噪聲,、集群式電源傳輸?shù)碾y題,,同時以高效率和熱適應能力強的電源模塊封裝簡化了冷卻和熱管理機械設(shè)計。VPD 解決方案允許處理器通過集群進行高速海量數(shù)據(jù)分析,,從而完善訓練模型,并將機器學習提升到顯著更高的水平,,從而成為高性能 AI  系統(tǒng)的真正推動者,。

獲得高性能計算能力的更好方法

AI 和機器學習正處于成長的初級階段,這列火車只會隨著歲月的流逝而加速,。這種加速需要更快地處理更復雜數(shù)據(jù)的解決方案,。基于 AI ASIC 處理器的新一代超級計算機將比傳統(tǒng)超級計算機需要更大的功率,。一種新的,、創(chuàng)新的電源傳輸方案是 AI 實現(xiàn)承諾的唯一途徑。它需要電源系統(tǒng)架構(gòu),、拓撲,、控制系統(tǒng)和封裝協(xié)同工作,以滿足不斷增加的高電流需求,,利用電流倍增器的垂直供電方案是首選的解決方案,。它是一種經(jīng)過驗證的成熟方案,可以滿足當今對高性能計算的需求,,并且可以輕松擴展以跟上未來的需求,。它結(jié)構(gòu)緊湊、效率高,,可以將 PDN 功率損失降低 50% 以上,。


作者簡介:

Paul Yeaman 與行業(yè)中的技術(shù)領(lǐng)導者廣泛合作,,開發(fā)和實施了系統(tǒng)中領(lǐng)先的電源解決方案,這些解決方案滿足行業(yè)中最嚴苛的電源需求,。由于經(jīng)常接觸新技術(shù)帶來的電源挑戰(zhàn),,Paul 了解電源行業(yè)的廣泛趨勢,并致力于確保創(chuàng)新者能夠整合電源解決方案以滿足這些需求,。Paul 在電力電子行業(yè)的設(shè)計和應用工程領(lǐng)域有 20 多年的經(jīng)驗,。

4.jpg

Pual Yeaman 

Vicor應用工程高級總監(jiān)



AETweidian.jpg


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容,、版權(quán)和其它問題,,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118;郵箱:[email protected],。