如今,隨著機架功耗飆升至前所未有的水平,,數(shù)據(jù)中心領(lǐng)域正在發(fā)生巨大變革,。在計算密集型人工智能(AI)和高性能計算(HPC)應用的推動下,數(shù)據(jù)中心已迅速從只需采用風冷策略為10至20千瓦的機架散熱,,轉(zhuǎn)變成為配備英偉達Grace Blackwell超級芯片的120千瓦機架散熱——而這僅針對單個機柜的散熱需求,!
傳統(tǒng)風冷技術(shù)根本無法有效應對如此高的散熱需求,這為新型液冷技術(shù)的發(fā)展鋪平了道路,。當前主流液冷方案主要分為兩大類別:"直觸芯片式"與"浸沒式",。與傳統(tǒng)氣體冷卻方式不同,,這些技術(shù)通過水或絕緣液體等液態(tài)介質(zhì)來為設(shè)備散熱。
隨著行業(yè)向可持續(xù)AI未來邁進,,為滿足持續(xù)增長的計算需求而建立的AI工廠正在興起,,液冷技術(shù)必將成為數(shù)據(jù)中心應對散熱管理、能耗控制及空間利用等核心挑戰(zhàn)的關(guān)鍵賦能技術(shù),。事實上,,面對新一代GPU高達1200瓦的功耗水平,液冷技術(shù)已從“錦上添花”演變?yōu)椤敖^對剛需”,。隨著全球?qū)@項技術(shù)需求的激增,,Mordor Intelligence等機構(gòu)預測,到2029年,,液冷技術(shù)市場的規(guī)模將達到148億美元,。
那浸沒式與直觸芯片式液冷的技術(shù)差異有哪些呢?兩種方案均包含單相與雙相兩種技術(shù)路線,。本文將從可持續(xù)性,、能耗表現(xiàn)、易用性,、風險控制,、擴展能力及成本效益(見圖1)等維度系統(tǒng)分析各方案的優(yōu)劣勢。
圖1:市場細分顯示直觸芯片式與浸沒式液冷方案下的技術(shù)變體,。
沉浸式液冷技術(shù):全浸沒組件
浸沒式液冷技術(shù)將服務器及其他電子組件完全浸沒于絕緣液體中,。設(shè)備運行時產(chǎn)生的熱量被傳導至周圍冷卻介質(zhì)。受熱后的冷卻介質(zhì)上升至液面,,隨后被輸送至冷卻系統(tǒng)進行熱量消散,,最后回流至設(shè)備所在的初始儲液槽中。
沉浸式液冷有兩種類型:
單相浸沒
該技術(shù)方案將所有服務器及其他IT設(shè)備浸沒于絕緣液體中,。當CPU或GPU溫度升高時,,流體吸收其產(chǎn)生的熱量。隨后,,這些受熱流體被泵送至熱交換單元進行冷卻,,冷卻后的流體重新回流至設(shè)備所在的儲液槽中(見圖2)。
圖2:單相浸沒式液冷:設(shè)備完全浸沒于絕緣液體中,。
優(yōu)點:
能完全吸收服務器產(chǎn)生的熱量,,這意味著服務器(GPU、CPU,、內(nèi)存模塊等)散發(fā)的所有熱量都能被收集并冷卻,;
采用絕緣液體,確保組件與服務器不會發(fā)生短路,。
缺點:
熱設(shè)計功耗(TDP)受限,。當GPU的TDP超過700瓦時,,單相浸沒式方案難以提供有效散熱;
需要對數(shù)據(jù)中心基礎(chǔ)設(shè)施改造進行大量投資,,因需配置大型重型儲液槽來容納設(shè)備,。該技術(shù)更適用于新建數(shù)據(jù)中心,或具備充足空間且可進行大規(guī)模改造的現(xiàn)有設(shè)施,,同時需確保建筑結(jié)構(gòu)能夠承載額外重量,;
浸沒槽內(nèi)所有設(shè)備(包括服務器、連接器,、印刷電路板等)必須與絕緣液體兼容,以避免被液體損壞,。這通常需要選用專用設(shè)備或?qū)Ψ掌鬟M行改造,;
由于服務器部分組件(如光纖連接器)無法在浸沒環(huán)境下正常工作,需對服務器進行機械重構(gòu),;
所用含碳氫化合物的流體具有易燃易爆特性,,若數(shù)據(jù)中心發(fā)生火災可能導致災難性后果;
服務器維護困難,,任何維護操作均需使用起重機將單個服務器吊出儲液槽,,并需等待30分鐘滴液時間后方可開始維修;
流體若受到污染(例如混入水),,需排空并清洗儲液槽,,可能導致長達一整天的停機時間。
雙相浸沒
與單相浸沒類似,,該技術(shù)方案同樣將服務器及IT設(shè)備完全浸沒于絕緣液體中,。然而,當電路板上的組件溫度升高時,,會使流體沸騰產(chǎn)生蒸汽,,這些蒸汽從液體中上升至儲液槽頂部。儲液槽頂部設(shè)有冷卻水管網(wǎng)絡(luò),,當槽內(nèi)蒸汽接觸冷卻管時發(fā)生冷凝,,重新液化為液體滴回槽內(nèi);同時,,冷卻管中的水溫升高,,通過熱水將熱量帶出設(shè)備,最終從數(shù)據(jù)中心排出(見圖3),。
圖3:兩相浸沒:服務器設(shè)備浸沒于絕緣液體中,。
優(yōu)點:
能完全吸收服務器產(chǎn)生的熱量,這意味著服務器(GPU,、CPU,、內(nèi)存模塊等)散發(fā)的所有熱量都能被收集并冷卻,;
能夠支持非常高的熱設(shè)計功耗(TDP);
使用絕緣液體,,確保組件與服務器不會發(fā)生短路,。
缺點:
浸沒槽內(nèi)所有設(shè)備(包括服務器、連接器,、印刷電路板等)必須與絕緣液體兼容,,以避免被液體損壞。這通常需要選用專用設(shè)備或?qū)Ψ掌鬟M行改造,;
作為流體沸騰過程的一部分,,強烈的氣蝕現(xiàn)象會損壞信息技術(shù)部件、印刷電路板及焊接點,;
需要對數(shù)據(jù)中心基礎(chǔ)設(shè)施改造進行大量投資,,因需配置大型重型儲液槽來容納設(shè)備,并加強建筑結(jié)構(gòu)以承載額外重量,;
由于液槽和浸沒設(shè)備的重量,,維護工作通常需要使用起重機,導致長時間停機,。
每次開槽維護時,,含全氟烷基物質(zhì)(PFAS)的蒸汽會釋放到環(huán)境中,每年造成約10%的液體損耗(數(shù)百升),,并向大氣中釋放大量PFAS蒸汽,。
直觸芯片式液冷技術(shù)原理
與將整個服務器及其他IT設(shè)備浸沒于液體中的浸沒式液冷不同,直觸芯片式液冷將冷卻液輸送至直接放置在高熱流密度組件(如CPU和GPU)上方的冷板中,。冷卻液通過冷板吸收組件產(chǎn)生的熱量,,并始終封閉在冷板內(nèi)部,不會直接接觸芯片或服務器設(shè)備,。
直觸芯片式液冷被廣泛認為比其他冷卻方式更快,、更高效,因為它能夠精準針對主要發(fā)熱區(qū)域進行散熱,。事實上,,在近期Omdia分析師峰會上,他們的分析師指出:“當機柜功率超過50千瓦時,,直觸芯片式技術(shù)將占據(jù)主導地位,。”
由于冷板主要安裝在高熱流密度組件上,,因此服務器仍需配備風扇以排出低熱流密度組件產(chǎn)生的多余熱量,。
直觸芯片式液冷也有兩種類型:
單相直觸芯片式液冷
該液冷方法使用水作為冷板中的冷卻介質(zhì)。水始終保持液態(tài),,其散熱能力取決于水流量——熱量越高,,所需的水流量越大,。
優(yōu)點:
憑借高流量的冷水,它能夠為高熱設(shè)計功耗(TDP)組件散熱,;
數(shù)據(jù)中心基礎(chǔ)設(shè)施和服務器架構(gòu)與風冷方案高度兼容,,僅需微小改動即可集成冷板冷卻系統(tǒng)。
缺點:
由于使用普通水而非絕緣液體,,一旦發(fā)生泄漏,,不僅可能損毀價值30萬美元的服務器,還會引發(fā)腐蝕,、發(fā)霉,、殘留物沉積、生物污染及其他環(huán)境問題,;
隨著水流速和壓力提升,,需要采用防泄漏性能更強的管路組件。
同時需配備更大功率的水泵來維持系統(tǒng)持續(xù)水循環(huán),。
兩相直觸芯片式液冷
與使用水的直觸芯片式液冷不同,兩相方案采用對IT設(shè)備100%安全的絕緣冷卻液,。GPU和CPU產(chǎn)生的熱量在低溫下使絕緣冷卻液沸騰,,利用高效的相變物理現(xiàn)象吸收熱量,從而使芯片保持恒溫,。其原理類似于沸水使鍋底維持在100°C,,只是工作溫度更低。
絕緣液體從液態(tài)變?yōu)闅鈶B(tài),,然后再回到液態(tài)的過程是在一個完全封閉的循環(huán)系統(tǒng)中完成的,。即使熱量增加三倍(比如GPU和CPU溫度更高),冷板內(nèi)的液體也不會超過沸點,。因此,,這種技術(shù)具有高度可擴展性,能夠適應未來更高功率芯片的冷卻需求,。
這與單相直觸芯片冷卻方式形成鮮明對比,,后者依賴于大量水的流動來冷卻芯片。舉例來說,,一個使用兩相直觸芯片冷卻技術(shù)的100千瓦機架,,所需的絕緣液體不到4加侖,而浸沒式冷卻每機架則需要超過100加侖的冷卻液,。
優(yōu)點:
無水直接芯片液冷:采用對IT設(shè)備100%安全的絕緣液體,,即使發(fā)生泄漏(極不可能),也不會損壞服務器,;
提升計算密度:支持單機架功率超過150千瓦,;
面向未來:可支持單芯片功率高達2500瓦甚至更高,;
與風冷相比,可節(jié)省高達80%的功耗,;
由于液體保持恒溫,,服務器產(chǎn)生的熱量可回收再利用,例如為鄰近辦公室,、數(shù)據(jù)中心其他區(qū)域,,甚至附近的學校和辦公樓供暖;
幾乎無需對數(shù)據(jù)中心基礎(chǔ)設(shè)施進行改造,,前期投資成本低,,安裝過程簡單;
維護需求低:絕緣液體無需更換,,且與浸沒式液冷不同,,在服務器和機架維護期間,這種冷卻液不會釋放到大氣中,。所用液體的臭氧消耗潛能(ODP)為0,,全球變暖能值(GWP)極低;
即使下一代GPU的熱量增加,,仍可維持1U服務器規(guī)格,。
缺點:
液冷僅用于CPU/GPU散熱,其他組件(如內(nèi)存,、I/O等)仍需風冷,。
條條大路通液冷
人工智能的未來發(fā)展很大程度上取決于數(shù)據(jù)中心擴容的能力,這將使數(shù)據(jù)中心內(nèi)部的熱量達到前所未有的水平,。正如本文所述,,目前有多種液冷技術(shù)可用于散熱,但每種技術(shù)都有其優(yōu)缺點,。
數(shù)據(jù)中心和超大規(guī)模數(shù)據(jù)中心運營商需要根據(jù)成本,、功耗、易用性,、可擴展性和可持續(xù)性等因素,,選擇最適合自身的解決方案。只有這樣,,行業(yè)才能實現(xiàn)真正的人工智能可持續(xù)發(fā)展,。