11 月 19 日晚 Microsoft Ignite 2024 大會上,美股科技巨頭微軟公司推出了一系列關(guān)于 Azure 云計(jì)算和 AI 相關(guān)的服務(wù)和軟硬件產(chǎn)品,。
其中,,微軟推出了其首款用于內(nèi)部業(yè)務(wù)的數(shù)據(jù)處理器 Azure Boost DPU。
作為微軟的首款內(nèi)部 DPU 芯片,Azure Boost DPU 旨在高效、低功耗地運(yùn)行 Azure 數(shù)據(jù)中心的工作負(fù)載,將傳統(tǒng)服務(wù)器的多個(gè)組件整合到一塊芯片中,,并將高速以太網(wǎng)和 PCIe 接口以及網(wǎng)絡(luò)和存儲引擎、數(shù)據(jù)加速器和安全功能集成到一個(gè)完全可編程的片上系統(tǒng)中,。微軟預(yù)計(jì),,未來配備 DPU 的 Azure 服務(wù)器,將以現(xiàn)有服務(wù)器四倍(400%)的性能運(yùn)行存儲工作負(fù)載,,同時(shí)功耗降低三倍,。
中科馭數(shù)創(chuàng)始人、CEO 鄢貴海對鈦媒體 App 表示,,這是 DPU 的應(yīng)用方主動推動 DPU 進(jìn)入規(guī)?;瘧?yīng)用的標(biāo)桿案例,,對 DPU 后續(xù)更快速發(fā)展有利。DPU 就是為智算和未來的高性能計(jì)算的特點(diǎn)來 " 定制 " 的,,而國內(nèi)也在逐步完善自主 DPU,、CPU、GPU 等計(jì)算基礎(chǔ)設(shè)施,,需立足于與自主的計(jì)算平臺的融合發(fā)展,,共同進(jìn)步,并且讓 " 可用性 " 與 " 先進(jìn)性 " 并重發(fā)展,。
13 億收購整合近兩年后,,微軟推出首款 DPU 芯片
具體來說,DPU(Data Processing Unit)是面向以數(shù)據(jù)為中心的計(jì)算的新一代數(shù)據(jù)處理器,,集完整的數(shù)據(jù)中心功能于單芯片,,和 CPU 及 GPU 一起構(gòu)成新型計(jì)算的三大支柱,用于處理某些數(shù)據(jù)處理任務(wù),,包括數(shù)據(jù)流量的安全性和網(wǎng)絡(luò)路由,。旨在幫助減少與特定工作負(fù)載(包括 AI 工作負(fù)載)相關(guān)的核心計(jì)算任務(wù)對 CPU 和其他芯片的負(fù)載。
通俗地講,,如果把一臺計(jì)算機(jī)或服務(wù)器比作一個(gè)團(tuán)隊(duì),,CPU 相當(dāng)于這個(gè)團(tuán)隊(duì)的 " 大管家 ",負(fù)責(zé)思考并處理各種業(yè)務(wù),;GPU 是 " 美工 ",,專攻圖像處理;DPU 則相當(dāng)于 " 前臺 ",,負(fù)責(zé)打包,、拆包 " 數(shù)據(jù)包 ",提升整個(gè)團(tuán)隊(duì)的工作效率,。
英偉達(dá)首席執(zhí)行官黃仁勛曾指出,CPU,、GPU 和 DPU 將成為數(shù)據(jù)中心的基礎(chǔ),。在他的愿景下,CPU 將負(fù)責(zé)一般處理,,GPU 將為加速計(jì)算提供動力,,而 DPU 將管理數(shù)據(jù)流。
過去幾年,,英偉達(dá),、AMD、谷歌,、亞馬遜等企業(yè)都在自研 DPU 芯片,。
其中,,英偉達(dá)于 2019 年開始提供其 BlueField 系列 DPU;AMD 自 2022 年以來一直在銷售其 Pensando DPU,;亞馬遜 AWS 的 Nitro 卡提供類似 DPU 的功能,;而谷歌則與英特爾合作開發(fā)可執(zhí)行許多與 DPU 相同功能的芯片。
早在 2022 年 12 月底,,微軟收購了前蘋果和瞻博網(wǎng)絡(luò)工程師創(chuàng)立的公司 DPU 制造商 Fungible,,總交易額約 .9 億美元(約合人民幣 13.76 億元)。收購后,,F(xiàn)ungible 團(tuán)隊(duì)加入了微軟的基礎(chǔ)設(shè)施工程部門,,因此,Azure Boost DPU 可能起源于該團(tuán)隊(duì),。
分析師 Dylan Patel 曾表示,,在交易之前,F(xiàn)ungible 曾嘗試融資,,但未能成功,,并試圖將自己出售給 Meta Platforms," 微軟考慮與 Fungible 合作設(shè)計(jì)芯片,,但最終決定低價(jià)收購這家公司,、員工和知識產(chǎn)權(quán)。"
因此這意味著,,微軟 Azure Boost DPU 直接對標(biāo)英偉達(dá) DPU,,并且加上微軟定制 CPU 等,這將減少微軟對英偉達(dá) AI 服務(wù)器芯片 H100/A100 的依賴,。
"Azure Boost DPU 專為 Azure 上的橫向擴(kuò)展,、可組合工作負(fù)載而設(shè)計(jì),可為其云基礎(chǔ)設(shè)施提供跨存儲,、網(wǎng)絡(luò),、加速等方面的效率。" 微軟表示,。但微軟沒有透露更多的基礎(chǔ)測試信息,,也沒有提到 Azure 客戶何時(shí)可以看到這些收益。
此外,,微軟這次還宣布推出 Azure 內(nèi)部云安全芯片 HSM,,Azure 容器應(yīng)用無服務(wù)器 GPU 公開預(yù)覽版,和面向 HPC 客戶及其應(yīng)用程序的最新基于 CPU 的虛擬機(jī) Azure HBv5 等,。
Azure 集成硬件安全模塊 ( HSM ) 是一款全新的內(nèi)部云安全芯片,,它允許將簽名密鑰(基本上是數(shù)字加密簽名)和加密密鑰(用于加密數(shù)據(jù)的位串)包含在安全模塊中,而不會影響性能或增加延遲,。微軟表示:" 從明年開始,,Azure Integrated HSM 將安裝在微軟數(shù)據(jù)中心的每臺新服務(wù)器上,,以增強(qiáng) Azure 硬件集群對機(jī)密和通用工作負(fù)載的保護(hù)。"Azure Integrated HSM 是微軟繼 Pluton 之后推出的第二款安全芯片,,Pluton 是一款內(nèi)置于英特爾,、AMD 和高通處理器中的面向消費(fèi)者的芯片。這也是該公司對其云競爭對手專有解決方案的回應(yīng):AWS 的 Nitro 處理某些安全任務(wù),,而谷歌在谷歌云服務(wù)器中內(nèi)置了一個(gè)名為 Titan 的安全芯片,。
無服務(wù)器 GPU 由 NVIDIA A100 GPU 和 NVIDIA T4 GPU 逆行加速,可輕松擴(kuò)展并靈活地執(zhí)行實(shí)時(shí)自定義模型推理和其他機(jī)器學(xué)習(xí)任務(wù),;
HPC 虛擬機(jī) Azure HBv5,,針對計(jì)算流體動力學(xué)、汽車和航空航天模擬,、天氣建模,、能源研究、分子動力學(xué),、計(jì)算機(jī)輔助工程等領(lǐng)域進(jìn)行優(yōu)化,,有四個(gè)處理器共同工作,提供近 7 TB/s 的內(nèi)存帶寬,,與最新的裸機(jī)和云替代方案相比,,這高出 8 倍,比 Azure HBv3 和 Azure HBv2(第三代 EPYC 和第二代 EPYC Rome)高出近 20 倍,,比接近硬件生命周期末期的 4-5 年 HPC 服務(wù)器高出 35 倍,。
微軟表示,Azure Boost DPU 是其通過硬件創(chuàng)新增強(qiáng)基礎(chǔ)設(shè)施系列的最新成員,。" 隨著我們不斷突破可能的界限,,我們?nèi)灾铝τ谔峁﹦?chuàng)新,使我們的基礎(chǔ)設(shè)施更強(qiáng)大,、更高效,、更具可擴(kuò)展性,以滿足客戶不斷變化的需求,。"
市場規(guī)模將近 400 億,,AI 正加速全球半導(dǎo)體市場
事實(shí)上,DPU 帶來的效率提升對超大規(guī)模企業(yè)來說頗具吸引力,,這些企業(yè)受 AI 需求的推動,,正在建設(shè)越來越大,、耗電量越來越大的數(shù)據(jù)中心,。微軟在 2022 年表示,由于其能耗不斷增長,,其數(shù)據(jù)中心能源成本將增加 8 億美元,。
據(jù) Allied Analytics 稱,,到 2031 年,DPU 芯片的市場價(jià)值可能達(dá)到 55 億美元(約合人民幣 398.26 億元),,接近 400 億規(guī)模,。
值得注意的是,國內(nèi)也有很多初創(chuàng)公司在做 DPU 芯片產(chǎn)品,,比如,,中科馭數(shù)、云脈芯聯(lián),、星云智聯(lián),、云豹智能等。此外,,阿里,、百度、騰訊也在近幾年針對自身服務(wù)器進(jìn)行自研與外購 DPU,,針對的主要功能在于數(shù)據(jù),,存儲與安全方面。
如今,,AI 大模型使得算力需求的迅猛增長,,而基于傳統(tǒng) IT 架構(gòu)建構(gòu)的軟硬件體系結(jié)構(gòu)愈發(fā)無法滿足數(shù)據(jù)中心對大規(guī)模、高帶寬和低延遲的訴求,,而全新的 DPU 技術(shù),,將引領(lǐng)數(shù)據(jù)中心從依賴單核、單機(jī)算力的架構(gòu)向分布式集群計(jì)算的架構(gòu)演進(jìn),。
鄢貴海表示,,大模型數(shù)據(jù)中心與傳統(tǒng)數(shù)據(jù)中心最大的區(qū)別之一就是互連網(wǎng)絡(luò)的帶寬延遲要求都更高、以及相對扁平的拓?fù)浣Y(jié)構(gòu),。DPU 正好是應(yīng)對高帶寬低延遲,,支持各種突發(fā)網(wǎng)絡(luò)流量分發(fā)、大流量聚合的引擎,,可以讓數(shù)據(jù)在各個(gè)計(jì)算節(jié)點(diǎn)間更高效的流動,,而無需 CPU 的操作和干擾。
" 降低對單一供應(yīng)商的依賴是商業(yè)上的一個(gè)慣常思維吧,, 對于供應(yīng)鏈可靠性和成本都有好處,,無可厚非。但是 DPU 還是屬于技術(shù)門檻比較高,、周期比較長的產(chǎn)品,,所以,英偉達(dá)、微軟等科技巨頭還是有一些天然的優(yōu)勢的,。國內(nèi)也在逐步完善自主 CPU,、GPU 等計(jì)算基礎(chǔ)設(shè)施。" 鄢貴海認(rèn)為,,國內(nèi)的 DPU 的研發(fā)還是要立足于與自主的計(jì)算平臺的融合發(fā)展,,共同進(jìn)步;同時(shí)也要吸收國際一線廠商在一些新的體系架構(gòu)和應(yīng)用支撐上的成功案例,,把 " 可用性 " 與 " 先進(jìn)性 " 并重發(fā)展,。
IDG 資本合伙人李驍軍曾表示,作為與 CPU,、GPU 并列的大芯片,,DPU 推動著數(shù)據(jù)中心基礎(chǔ)架構(gòu)的革新,深耕 DPU 領(lǐng)域,,不僅需要充分理解大規(guī)模云廠商的業(yè)務(wù)需求,、定義架構(gòu)特性,同時(shí)還要具備大芯片的工程實(shí)現(xiàn)能力,。
" 重大平臺轉(zhuǎn)變即將到來 ",,微軟 CEO 薩蒂亞 · 納德拉 ( Satya Nadella ) 在會上表示,Copilot 是 AI 的用戶界面,,它正在迅速成為工作的組織層,,并決定工作如何完成。Copilot AI 平臺將改變各個(gè)級別的人們有效和高效的工作方式,,AI Agent 將是重點(diǎn),。
展望 AI 的未來,納德拉指出,,"AI 的問題在于計(jì)算機(jī)根本不在乎,,而我們卻在乎。在這一切快速變化中,,我們始終堅(jiān)守我們的使命,,那就是讓地球上的每個(gè)人、每個(gè)組織都能取得更大的成就,,利用這項(xiàng)技術(shù)為團(tuán)隊(duì)和世界帶來改變,。技術(shù)不是為了技術(shù)而技術(shù),而是要將技術(shù)轉(zhuǎn)化為真正的成果,,技術(shù)的變革力量可以推動業(yè)務(wù)增長,,提高效率和運(yùn)營平衡(杠桿)。"
納德拉強(qiáng)調(diào),,AI 技術(shù)技能將改變?nèi)藗兊纳?,事?shí)上,它已經(jīng)改變了。