《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 模擬設(shè)計 > 業(yè)界動態(tài) > 解讀千億通用服務(wù)器市場新變化

解讀千億通用服務(wù)器市場新變化

2024-12-25
來源:網(wǎng)易科技

2023年初,一家互聯(lián)網(wǎng)大廠找到浪潮信息,,想解決一個業(yè)務(wù)中遇到的新問題:客戶的應(yīng)用場景非常多元,,在實際應(yīng)用中,他們發(fā)現(xiàn)每個場景最佳匹配的處理器平臺并不同,。比如,,輕量級容器場景,通常對性能需求適中,,但對功耗和密度要求較高,;高性能的計算場景,則更傾向于具有更強并行處理能力,,有更多高頻核心的處理器平臺,。客戶提出一個訴求,,我怎么在各種業(yè)務(wù)中,,快速上線不同處理器的服務(wù)器?

此前,,通用服務(wù)器系統(tǒng)都圍繞著某一個處理器的平臺為核心,,進行"定制"開發(fā)?,F(xiàn)在,,面對客戶對多元處理器平臺的"既要"、"也要",,服務(wù)器怎么去快速覆蓋,?這對幾乎數(shù)十年不變的通用服務(wù)器架構(gòu),提出了變革訴求,。

與這個問題幾乎同時出現(xiàn)的是,,雖然大模型的訓(xùn)練和推理大都由AI服務(wù)器承擔,但人工智能也對通用服務(wù)器提出了新要求,,比如大模型訓(xùn)練需要的數(shù)據(jù)存儲,。而通用服務(wù)器也具備了智能加速能力,可以運行大模型推理服務(wù),。從長遠來看,,正在快速演進的十萬卡乃至百萬卡智算集群,,對數(shù)據(jù)中心的顛覆和重構(gòu),也牽引著通用服務(wù)器,,像AI服務(wù)器那樣,,走向高密度部署。

市場出現(xiàn)的這兩個新變量,,也讓已進入產(chǎn)業(yè)成熟期的通用服務(wù)器,,再次站到了新變革的起點上。

1.jpg

通用服務(wù)器未來的出貨量增幅預(yù)計保持在5%~6%

新標準的變革和博弈

面對這家互聯(lián)網(wǎng)大廠提出的多元算力訴求,,浪潮信息與客戶展開了"頭腦風(fēng)暴",,解耦思路浮出水面。此前,,AI服務(wù)器也曾面臨多個加速芯片競爭的局面,,浪潮信息參與并推動的OAM標準,采用了解耦和標準化模組方式,,讓不同廠商的芯片能夠快速應(yīng)用和上量,。

"OAM的思路給了我們啟發(fā)。"浪潮信息服務(wù)器產(chǎn)品線總經(jīng)理趙帥說,。通用服務(wù)器如果能打破市場慣例,,不再以某一處理器為核心做系統(tǒng)架構(gòu)設(shè)計,而是拆分為處理器,、硬盤,、IO、電源等標準化模塊,,那么,,客戶就可以像拼樂高一樣拼接不同模塊,滿足自己的多元需求,。

這個想法提出的一年多之后,,經(jīng)過產(chǎn)業(yè)鏈多方的努力,解耦思路得以落實,。開放標準組織OCTC發(fā)起了開放算力模組(OCM,,Open Computing Module)規(guī)范,建立了標準化算力模組,,實現(xiàn)了"一機多芯",。按照規(guī)范的定義,未來一臺服務(wù)器中,,英特爾,、AMD、ARM更多CPU平臺可隨意切換,,甚至可以同時支持,。這也是國內(nèi)首個服務(wù)器計算模組設(shè)計標準規(guī)范,。

2.jpg

開放算力模組(OCM,Open Computing Module)規(guī)范啟動

浪潮信息也完成了首個符合OCM規(guī)范的產(chǎn)品設(shè)計,。數(shù)智前線獲悉,,首款基于OCM規(guī)范的元腦服務(wù)器NF3290G8目前已進入送測階段,預(yù)計2025年Q1進行批量部署,。

這一標準之所以能在此時打破過去幾十年通用服務(wù)器的設(shè)計慣例,,也與產(chǎn)業(yè)鏈各方正在尋求的破局相關(guān):

最強勢的處理器芯片環(huán)節(jié)"松動"了。最近兩年,,多元算力起勢,,不僅X86體系,RSIC-V體系,、ARM體系都在積極布局算力市場,,芯片的競爭趨于白熱化——誰先抵達用戶側(cè)、實現(xiàn)業(yè)務(wù)快速上線,,誰就能占領(lǐng)市場,。強勢的芯片廠商也不能再固守陳規(guī),有了可協(xié)商的空間,。

終端用戶企業(yè)也提出急迫需求,。互聯(lián)網(wǎng)大廠需要靈活多變的算力單元,,通信企業(yè)則有多元算力快速部署上量的壓力,。

服務(wù)器企業(yè)面對這么多芯片平臺,開發(fā)工作量成倍攀升,、成本高企,。他們也有迫切提升多元算力服務(wù)器研發(fā)效率的動力。

而對于國家標準制定單位,,算力模塊產(chǎn)業(yè)標準一直是個空白,,他們有意愿去構(gòu)建相關(guān)標準,促進國內(nèi)服務(wù)器產(chǎn)業(yè)對標國際水平,。

這些推力,,讓產(chǎn)業(yè)鏈各方走到了一起,。于是,,在2024年OCTC發(fā)起開放算力模組規(guī)范時,人們看到首批成員包括了中國電子技術(shù)標準化研究院,、百度,、小紅書、浪潮信息,、英特爾,、AMD,、聯(lián)想、超聚變等各方代表,。

不過,,標準出臺的過程并非一帆風(fēng)順,大家有各自的需求,,也因此有一些沖突點,。

比如,互聯(lián)網(wǎng)大廠和芯片廠商,,互聯(lián)網(wǎng)大廠更關(guān)注領(lǐng)先芯片平臺在標準中獲得落實,,一些國內(nèi)外芯片廠商則更關(guān)注平臺的兼容性,以及能否將各自的優(yōu)勢得以展現(xiàn),。最終,,標準組將這些算力平臺都納入進來,做標準化評估和兼容,。

不同服務(wù)器廠商也有自己的訴求,,都期望標準多向自己傾斜一些。最終,,標準組通過主板標準+托盤方法,,快速耦合不同機箱或技術(shù)架構(gòu)平臺,化解了這一矛盾,。

浪潮信息服務(wù)器產(chǎn)品線產(chǎn)品規(guī)劃經(jīng)理羅劍回憶這次標準發(fā)起和制定過程時說,,各方能走到一起,一個大前提是有利于整個產(chǎn)業(yè)的健康發(fā)展,。在這個前提之下,,OCM提供了一個相對公平的平臺。通過這一平臺,,大家可以共同促進算力產(chǎn)業(yè)的高質(zhì)量發(fā)展,。

產(chǎn)品化呈現(xiàn)三大重要趨勢

OCM標準出臺之后,業(yè)界開始了產(chǎn)品化工作,。

浪潮信息緊鑼密鼓推出了首個基于OCM架構(gòu)的通用服務(wù)器——元腦NF3290G8,。首代服務(wù)器支持兩種CPU新品,英特爾?至強?6處理器,,以及第五代AMD EPYC? 9005系列處理器,。前者在AI推理與計算、生成式AI,、科學(xué)研究等場景,,表現(xiàn)出較高的性能提升,后者則在全閃存儲、高網(wǎng)絡(luò)帶寬,、金融高頻交易,、大數(shù)據(jù)分析等場景,性能提升不錯,。

3.jpg

而在這次系統(tǒng)廠商對OCM標準的產(chǎn)品化過程中,,有三大趨勢也值得業(yè)界關(guān)注:其一是解耦化;其二是產(chǎn)品智能化管理中,,對大模型技術(shù)的引入,;其三是硬件開放、軟件開源的潮流,。

在第一個大趨勢上,,OCM采用的解耦趨勢,代表了服務(wù)器系統(tǒng)架構(gòu)的未來演進方向,。"從系統(tǒng)效率來看,,系統(tǒng)分為通用算力、內(nèi)存,、異構(gòu)算力等標準模塊之后,,提供一致性的供電、散熱和調(diào)控,,就可以針對不同硬件資源,,進行相應(yīng)的供電、散熱優(yōu)化,,才能實現(xiàn)極致的能效比,。"羅劍說,采用OCM標準的元腦NF3290G8,,已呈現(xiàn)了雛形,。

4.jpg

為了實現(xiàn)解耦和模塊化設(shè)計,工程師們聚焦解決了計算模塊的供電,、管理,、對外高速互連等歸一化問題。如在管理上,,由于每個處理器芯片的管理接口,、協(xié)議等均不同,要求管理系統(tǒng)BMC,,要掌握各家處理器的"密碼本",,將不同的信息翻譯成"明文"后,進行統(tǒng)一管理,。此前,,這一技術(shù)掌握在獨立BMC固件提供商(IBV)手中。而2023年,,浪潮信息通過開源路線OpenBMC,,掌握了固件研發(fā)的技術(shù)能力,為這次實現(xiàn)處理器管理的歸一化,,奠定了基礎(chǔ),。

在第二大趨勢產(chǎn)品管理智能化上,針對通用服務(wù)器中的高故障部件,,如內(nèi)存和硬盤,,新一代服務(wù)器平臺,利用了大模型可對海量數(shù)據(jù)進行學(xué)習(xí)訓(xùn)練的優(yōu)勢,,基于浪潮信息推出的大模型"源",,對以往服務(wù)器的故障日志數(shù)據(jù),進行了針對性訓(xùn)練,,形成故障預(yù)警模型,,集成到BMC管理引擎中。目前,,系統(tǒng)實現(xiàn)了提前7天的故障預(yù)警,,將客戶的非計劃停機時間縮至更短,以減少業(yè)務(wù)損失,。

5.jpg

在第三大趨勢開源開放上,,硬件的產(chǎn)品設(shè)計,尤其是與OCM產(chǎn)品化相關(guān)的設(shè)計,,都在OCTC開放社區(qū)中進行貢獻,,讓客戶可獲得相關(guān)資料。在軟件開源上,,從OpenBMC社區(qū)而來的開源技術(shù),,幫助浪潮信息解決了解耦中的關(guān)鍵問題,并再次回饋給開源社區(qū),。開源開放是一個不斷積累和匯聚技術(shù)力量的過程,,最終為自身和產(chǎn)業(yè)鏈發(fā)展提供強大的支撐和動力。

在這三大重要趨勢之外,,通用服務(wù)器功耗攀升帶來的散熱問題,,也是業(yè)界極為關(guān)注的。根據(jù)介紹,,散熱也是這次產(chǎn)品化過程中,,遇到的最大挑戰(zhàn)。

我們可以在通用服務(wù)器上看到,,處理器平臺的未來功耗大約在500~600瓦之間,。同時,,服務(wù)器中還有四個350瓦的GPU。而智能網(wǎng)卡已成為云業(yè)務(wù)的標配,,隨著帶寬的攀升,,它的功耗也不容小覷。這些部件的功耗加起來,,整機功耗已接近3000瓦,。如何解決如此大功耗的散熱?羅劍透露,,工程師們采用的方法之一是散熱風(fēng)道分離,,CPU、GPU以及智能網(wǎng)卡,,都有單獨的散熱通道,。這讓散熱效率提升5%以上,對數(shù)據(jù)中心的PUE來說極為重要,。

而接下去,,當通用服務(wù)器的功耗進一步攀升,風(fēng)冷可能就走到盡頭了,,OCM標準可能將向液冷方向演進,。

采用OCM標準后,服務(wù)器的研發(fā)成本大幅降低,。因為解耦,,減少了很多重復(fù)性的開發(fā)工作,加快了芯片從研發(fā),、測試驗證到落地的速度,,浪潮信息的產(chǎn)品開發(fā)周期從原來的18個月,壓縮到6到8個月,。另外解耦和模塊化過程中,,因為可靠性標準,包括信號,、電源,、結(jié)構(gòu)、系統(tǒng)穩(wěn)定性要求的提高,,架構(gòu)的改變,,并未降低服務(wù)器的可靠性。

6.jpg

通用服務(wù)器處于變革起點

OCM是一個重要的里程碑,,用解耦思路,,改變了通用服務(wù)器的設(shè)計慣例,但從長遠來看,,未來一段時間,,智算對通用服務(wù)器帶來的影響,,將更為劇烈。

當下,,智算正在引領(lǐng)整個產(chǎn)業(yè)的演進,。大模型對算力的需求,讓智算算力高速攀升,。根據(jù)市場調(diào)研公司的IDC的分析預(yù)測,,2023年和2024年,,AI服務(wù)器市場連續(xù)翻番,。如在中國市場,AI服務(wù)器2023年翻倍到100億美元,;2024年又翻倍增長到近200億美元,。AI服務(wù)器即將占據(jù)整體服務(wù)器市場的半壁江山。服務(wù)器市場也因而有了一句話,,市場好不好,,就看AI服務(wù)器。

在AI服務(wù)器中,,GPU的旗艦芯片實現(xiàn)了Chiplet化,,多個芯片裸片被互聯(lián)封裝在一起,以提供極致的算力,,但也讓芯片功耗迅速攀升到1200瓦甚至1600瓦,,并進一步拉動了整個算力基礎(chǔ)設(shè)施的供電需求。

過去10年,,數(shù)據(jù)中心基礎(chǔ)設(shè)施的變化并不大?,F(xiàn)在,大多數(shù)數(shù)據(jù)中心供電能力為10千瓦~12千瓦,。隨著智算的演進,,未來數(shù)據(jù)中心整體供電能力將達到100千瓦向上,甚至200千瓦?,F(xiàn)在,,一些AI整機柜服務(wù)器甚至可能達到400千瓦。

"在這一大前提下,,我們判斷未來通用算力可能也會出現(xiàn)大變革,。" 羅劍說,因為當下通用服務(wù)器的部署方式,,與高供電能力的數(shù)據(jù)中心相比,,收益和效率都較低。"我們判斷通用算力也會向高密,、液冷的整機柜形態(tài)做長期演進,。"

如果通用服務(wù)器采用高密整機柜部署形態(tài),,其中的節(jié)點將基于分層解耦理念進行設(shè)計。而OCM的解耦理念,,也是將算力單元變成一個個小模塊,。因此,OCM可能會成為實現(xiàn)數(shù)據(jù)中心服務(wù)器高密部署的起點,。未來可能再通過液冷方式,,將部署密度提升上去。

羅劍分析,,在朝著高密,、液冷方向演進的過程中,產(chǎn)品設(shè)計將發(fā)生翻天覆地的變化,。如內(nèi)存可能將平鋪在主板或貼在主板正反面,,或以一種更易于液冷部署的方式來構(gòu)建。

而為了實現(xiàn)這樣的變革,,現(xiàn)有的產(chǎn)業(yè)鏈也將延伸,,液冷、內(nèi)存,、供電等環(huán)節(jié)的企業(yè)也將加入進來,。"OCM會是一個好的開始。"羅劍說,,"它將推動算力產(chǎn)業(yè)面向未來的需求去演進,、升級。"


Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章,、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者,。如涉及作品內(nèi)容,、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,,以便迅速采取適當措施,,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118,;郵箱:[email protected],。