美國的亞馬遜云(AWS)2017年最先實現(xiàn)了DPU芯片(AWS稱之為Nitro)的商業(yè)化成功部署,,AWS在使用自研DPU芯片后,,使其實現(xiàn)了巨大收益,;谷歌依托于自身對業(yè)務(wù)的深刻理解及與Broadcom等芯片公司的緊密合作,成功迭代和推出了多代自研TPU芯片,。
近日,國內(nèi)的“云大戶”中國移動也帶來自己的DPU芯片“磐石”——本土首顆400Gbps帶寬的DPU ASIC芯片,,實現(xiàn)關(guān)鍵技術(shù)自主可控,。考慮到DPU對數(shù)據(jù)中心和云業(yè)務(wù)的重要性,,相信這將為近年來大力發(fā)展云業(yè)務(wù)的中國移動打下夯實基礎(chǔ),,并為其帶來獨特的競爭力。
圖:中國移動磐石DPU V4.0
DPU,,第三顆主力芯片
所謂DPU(Data Processing Unit),,也就是數(shù)據(jù)處理單元。顧名思義,,這是一種專門為數(shù)據(jù)處理而設(shè)計的芯片,。作為繼CPU、GPU以外的第三顆主力芯片,, DPU成為了幾乎所有云廠商甚至海外芯片巨頭的關(guān)注目標,。例如英偉達耗資69億美元收購Mellanox,,AMD花費19億美元收購Pensando ,就是為了DPU,。
由中國移動協(xié)同云豹智能和信通院聯(lián)合撰寫的DPU白皮書《云計算通用可編程DPU發(fā)展白皮書(2023年)》中指出:“隨著人類生產(chǎn)力進入算力時代,,傳統(tǒng)以 CPU 為核心的架構(gòu)正在遭受算力瓶頸考驗,多樣化算力需求亟需軟硬件架構(gòu)全面變革,,算力技術(shù)發(fā)展必將遵循‘軟件定義一切,,硬件加速一切’的理念,重構(gòu)算力基礎(chǔ)設(shè)施,,通用可編程加速單元 DPU 將成為新的算力核心,,重新定義算力時代云計算技術(shù)新標準,構(gòu)建算力時代新技術(shù)曲線,?!?/p>
但其實在DPU面世以前,這款芯片還是經(jīng)歷了幾代的變遷,。
在一開始的時候,,數(shù)據(jù)中心的數(shù)據(jù)處理工作都是由CPU完成,而網(wǎng)絡(luò)傳輸任務(wù)則由專門的傳統(tǒng)基礎(chǔ)網(wǎng)卡NIC(又稱網(wǎng)絡(luò)接口卡)處理,。具體工作流程就是NIC將用戶需要傳輸?shù)臄?shù)據(jù)轉(zhuǎn)換為網(wǎng)絡(luò)設(shè)備能夠識別的格式,,然后把數(shù)據(jù)交由CPU處理。
但隨著網(wǎng)絡(luò)規(guī)模的不斷增加和新需求的不斷出現(xiàn),,網(wǎng)絡(luò)和存儲的數(shù)據(jù)量不斷增加,,進而驅(qū)動數(shù)據(jù)中心中的網(wǎng)卡端口速率從 10G 快速向 25G、100G甚至200G 及以上演進,,給CPU帶來新的壓力,。這個時候,一種旨在減輕 CPU 的部分處理負載,,進一步提高數(shù)據(jù)中心效率的智能網(wǎng)卡(SmartNIC)就進入了大眾的視野,。據(jù)了解,智能網(wǎng)卡 SmartNIC 除了具備傳統(tǒng)基礎(chǔ)網(wǎng)卡的網(wǎng)絡(luò)傳輸功能外,,還提供一定的硬件卸載和加速能力,,釋放主機 CPU的部分計算資源。
然而,,在后續(xù)的發(fā)展中,,SmartNIC也捉襟見肘。例如,,因為沒有包含通用處理器 CPU,,意味著仍然需要主機 CPU進行控制面管理及網(wǎng)絡(luò)和存儲等協(xié)議的大部分處理,繼續(xù)消耗大量主機Host資源。而且,,隨著數(shù)據(jù)中心網(wǎng)絡(luò)速率向100G及200G甚至更高速率的不斷提高,,主機不但仍會消耗大量寶貴的通用CPU資源對流量進行分類、跟蹤和控制,,而且其性能也已經(jīng)無法滿足更高網(wǎng)絡(luò)速率及存儲帶寬的需求,。
于是,如何實現(xiàn)主機 CPU 的“零消耗”及解鎖數(shù)據(jù)中心向更大規(guī)模及更高帶寬的演進,,成了云廠商下一步的研究方向,,DPU也應(yīng)運而生。
從設(shè)計上看,,DPU通過在硬件架構(gòu)上增加通用處理單元CPU和豐富的硬件加速單元,,從而便于實現(xiàn)對網(wǎng)絡(luò)、存儲,、安全和管控等通用基礎(chǔ)設(shè)施的加速和全卸載,。其產(chǎn)品形態(tài)主要有NP/MP+CPU,F(xiàn)PGA+CPU和單芯片ASIC方案,。據(jù)了解,,在發(fā)展早期,基于FPGA的可編程性的FPGA+CPU多芯片方案成為了行業(yè)首選,。
除了亞馬遜以外,,大部分云廠商尤其是國內(nèi)的云廠商,如:阿里,、騰訊,、百度等,都用的傳統(tǒng)FPGA+CPU方案,,其競爭壓力也隨之而至,。隨著帶寬流量的進一步增加,擁有價格和性能優(yōu)勢,、兼顧專用加速器的優(yōu)異性能和內(nèi)嵌通用處理器的靈活性可編程ASIC單芯片方案成為了行業(yè)的最終選擇,,而國內(nèi)的云廠商也正在尋求從FPGA+CPU方案到ASIC方案的演變,這最終驅(qū)使中國移動自研了采用ASIC的DPU芯片“磐石”,。
磐石,取得重大突破
從產(chǎn)品應(yīng)用角度看,,如何才稱得上一顆有競爭優(yōu)勢的DPU,?
在我們看來,它首先應(yīng)該能夠支持高速低時延網(wǎng)絡(luò),,因為這是這個芯片的首要任務(wù),;其次,我們還希望這個DPU能夠引入高性能通用多核CPU、可編程硬件加速器,,以期在提供可編程性和通用處理能力的同時,,還能滿足人工智能、分析和安全操作等差異化特定任務(wù)的執(zhí)行,。
中國移動的這顆芯片帶寬為400Gbps,,緊密契合了當前的數(shù)據(jù)中心高帶寬需求,我們可以肯定地說,,中國移動“磐石”DPU芯片的成功研發(fā),,是我國國產(chǎn)芯片領(lǐng)域取得的重大技術(shù)突破。
熟悉的讀者應(yīng)該清楚地知道,,數(shù)據(jù)中心服務(wù)器的集成度越來越高,。無論是x86還是Arm等架構(gòu)服務(wù)器的CPU芯片,都在向單芯片幾百個甚至更多CPU集成,,密度都在不斷增加,;同時,網(wǎng)絡(luò)存儲也正在向基于低時延以太網(wǎng)技術(shù)的彈性存儲方向發(fā)展,,這增加了對高帶寬低時延以太網(wǎng)的需求,;再者,私有云應(yīng)用程序和虛擬桌面基礎(chǔ)設(shè)施的增加對網(wǎng)絡(luò)提出了額外的要求,;最后,,物聯(lián)網(wǎng)和邊緣的海量數(shù)據(jù)積累正在增加對網(wǎng)絡(luò)的帶寬要求。
疊加AI帶來的新需求,,400Gbps洶涌而至,,這也讓磐石DPU的發(fā)布恰逢其時。據(jù)介紹,,磐石DPU的面世,,不但將國產(chǎn)DPU芯片的最高傳輸速率提升到一個新臺階,也讓國內(nèi)另一運營商基于海外FPGA+CPU多芯片方案的DPU等相形見絀,。
值得一提的是,,隨著該芯片的面世,國產(chǎn)DPU還首次演進到世界頂尖水平——該芯片帶寬和全球領(lǐng)先的英偉達BlueField-3 DPU達到同一水平,。
據(jù)公開資料介紹,,磐石DPU芯片擁有400Gbps的數(shù)據(jù)傳輸能力,將國產(chǎn)DPU芯片最高傳輸速率提升一倍,,達到全球頂尖水平,。該芯片擁有每秒處理百萬個數(shù)據(jù)包的存儲能力,遠程直接存取數(shù)據(jù)(RDMA)的時延低至5微秒,。同時,,還具有低功耗,、低成本特性,依托該芯片打造的磐石DPU硬件板卡,,較上一代硬件板卡功耗下降50%,,成本下降50%。中國移動推出“磐石”DPU芯片以后,,無疑將為其云服務(wù)帶來巨大收益,,也將為其客戶帶來更高性價比的產(chǎn)品方案,這也給國內(nèi)其他云服務(wù)商帶來更大的壓力,。
我們認為,,“磐石”DPU芯片將有力推動我國DPU關(guān)鍵技術(shù)自主可控、硬件架構(gòu)持續(xù)優(yōu)化,、生態(tài)布局不斷完善,。中國移動在發(fā)布會上進一步指出,該芯片將廣泛應(yīng)用于中國移動數(shù)據(jù)中心建設(shè),,支撐通用計算,、智能計算等業(yè)務(wù)場景,為云計算,、邊緣計算,、大數(shù)據(jù)處理、AI大模型訓(xùn)練等領(lǐng)域提供更安全,、可靠,、高效的技術(shù)支持,助力我國大數(shù)據(jù),、人工智能,、算力網(wǎng)絡(luò)高速發(fā)展。
眾所周知,,打造一個DPU ASIC并不是一件很容易的事情,,這也是為何大部分廠商基于FPGA打造相關(guān)解決方案。從目前看來,,與ASIC的方案相比,,基于FPGA的多芯片方案功耗高、成本高,,且對用戶的研發(fā)要求高,、人力投入大,還不能靈活移植各種應(yīng)用,。更重要的是,,這些方案采用的高性能FPGA芯片及配合的CPU芯片均是由海外廠商提供。
這就讓中國移動協(xié)同生態(tài)伙伴自研的這顆400Gbps國產(chǎn)DPU芯片,,在國家大力發(fā)展新質(zhì)生產(chǎn)力戰(zhàn)略上顯得更有意義,。
寫在最后
作為國內(nèi)領(lǐng)先的運營商,中國移動在過去幾年頻頻通過旗下的企業(yè)投身芯片自研,。
例如在2023年6月,,中國移動旗下的中移物聯(lián)正式發(fā)布全球首顆RISC-V架構(gòu)的LTE-Cat.1芯片(CM8610 LTE-Cat.1芯片)和中國移動首顆量產(chǎn)的蜂窩物聯(lián)網(wǎng)通信芯片(CM6620 NB-IoT芯片;當年八月,,中國移動又發(fā)布了一顆核心自主創(chuàng)新成果“破風8676”可重構(gòu)5G射頻收發(fā)芯片,。按照中國移動的描述,這些芯片不但能夠提升公司產(chǎn)品的性能表現(xiàn),,同時還為國內(nèi)自主可控事業(yè)添磚加瓦,。
在“磐石”DPU面世后,中國移動的自研芯片業(yè)務(wù)又上了一個新臺階,。期待他們在未來給我們帶來更多的驚喜,。