英偉達(dá)(NVIDIA)400億美元收購Arm的交易還未最終達(dá)成,但并不妨礙英偉達(dá)推出其首款基于Arm架構(gòu)的數(shù)據(jù)中心CPU。今年的GTC 21依舊選擇了線上的方式,,英偉達(dá)首席執(zhí)行官黃仁勛還是在自家廚房介紹了AI、汽車,、機(jī)器人,、5G、實時圖形,、協(xié)作和數(shù)據(jù)中心等領(lǐng)域的最新進(jìn)展。
雖然還是穿著皮衣的黃教主,,但他今年更具搖滾氣質(zhì),。不僅推出了全球首款為terabyte 級別計算設(shè)計的 CPU Grace,還將英偉達(dá)的數(shù)據(jù)中心產(chǎn)品路線圖升級為GPU+CPU+DPU,,只為提供10倍甚至更高的性能,,保持其在AI領(lǐng)域的競爭力,也推動芯片行業(yè)的競爭進(jìn)入”組合拳“時代,。
不要忽略,,作為一家系統(tǒng)公司,英偉達(dá)有更高遠(yuǎn)的目標(biāo),。
黃仁勛說:”NVIDIA正在為當(dāng)今時代的每一位‘達(dá)芬奇’推進(jìn)他們的各項研究工作,,包括語言理解、藥物研發(fā)或量子計算等,。英偉達(dá)將助力成就他們畢生的事業(yè),。“
1
英偉達(dá)首款數(shù)據(jù)中心CPU性能
提升一個數(shù)量級
英偉達(dá)發(fā)布的首款數(shù)據(jù)中心CPU叫做Grace,,是以美國海軍少將,、計算機(jī)編程先驅(qū)Grace Hopper的名字命名。雷鋒網(wǎng)了解到,,Grace采用臺積電5nm工藝,。
注意,Grace是一款高度專用型處理器,,主要面向大型數(shù)據(jù)密集型HPC和AI應(yīng)用,。也就是說,絕大多數(shù)的數(shù)據(jù)中心仍將繼續(xù)使用現(xiàn)有的CPU,,Grace主要將用于計算領(lǐng)域的細(xì)分市場,,預(yù)計2023年可以供貨。
Grace在計算的細(xì)分領(lǐng)域可以實現(xiàn)數(shù)量級的性能提升,。黃仁勛稱,,基于Grace的系統(tǒng)與英偉達(dá)GPU緊密結(jié)合,性能將比目前最先進(jìn)的NVIDIA DGX系統(tǒng)(在x86 CPU上運行)高出10倍,。
Arm屬于精簡指令集,,相比x86這樣的復(fù)雜指令集實現(xiàn)高性能的挑戰(zhàn)更大,英偉達(dá)分三步來實現(xiàn)超越x86 CPU的性能。
第一,,Grace內(nèi)置下一代Arm Neoverse內(nèi)核,,每個CPU能在SPECrate2017_int_base基準(zhǔn)測試中分?jǐn)?shù)超過300分,為Grace提供足夠的計算性能,。
第二,,有了足夠的計算性能,要滿足AI計算的需求,,內(nèi)存帶寬成為瓶頸,。因此,Grace采用了新內(nèi)存LPDDR5x技術(shù),,帶寬是LPDDR4的兩倍,,能源效率提高了10倍。
第三,,CPU和GPU之間的數(shù)據(jù)傳輸速度同樣限制了數(shù)據(jù)密集的AI計算,,Grace采用第四代NVIDIA NVLink,可以實現(xiàn)從CPU到GPU連接速度超過900GB/s,,相當(dāng)于目前服務(wù)器14倍的帶寬,。
從計算性能到解決帶寬問題,再到CPU和GPU的緊密結(jié)合,,使得英偉達(dá)的Arm架構(gòu)Grace可以實現(xiàn)10倍的性能提升,,達(dá)到一個數(shù)量級的提升。
Grace對于英偉達(dá)而言,,是保持其AI競爭力的關(guān)鍵,。由于超大規(guī)模的模型很難完全放進(jìn)GPU內(nèi)存,如果存儲在系統(tǒng)內(nèi)存,,訪問速度則會大大受限,,如果選用其它CPU供應(yīng)商的產(chǎn)品,不能實現(xiàn)最高的性能優(yōu)化,。
自研一款CPU,,不僅可以實現(xiàn)更高性能,未來的迭代,,以及進(jìn)行系統(tǒng)優(yōu)化也更容易,。同時,英偉達(dá)還能幫助Arm將優(yōu)勢拓展到移動計算之外,,無論是對英偉達(dá)自身還是Arm而言都是優(yōu)選,。
畢竟,黃仁勛對于達(dá)成收購Arm的交易持樂觀態(tài)度,。在發(fā)布會后的電話會議上,,黃仁勛表示目前收購工作在有序進(jìn)行,相信監(jiān)管部門會支持這筆收購,2022年會有積極正面的結(jié)果,。
2
升級GPU+CPU+DPU三芯片系統(tǒng)公司
英偉達(dá)強(qiáng)勁的GPU加上最新發(fā)布的CPU Grace,,再加上最新更新的Bluefield DPU,構(gòu)成了英偉達(dá)最新的數(shù)據(jù)中心芯片路線圖,?!蔽覀兠磕甓紩l(fā)布激動人心的新品。三類芯片,,逐年飛躍,,一個架構(gòu)?!包S仁勛表示。
數(shù)據(jù)中心路線圖包括CPU,、GPU和DPU這三類芯片,,而Grace和BlueField是其中必不可少的關(guān)鍵組成部分。每個芯片架構(gòu)歷經(jīng)兩年的打磨周期(周期內(nèi)可能出現(xiàn)轉(zhuǎn)變),,一年專注于 x86 平臺,,另一年專注于 Arm 平臺。
”目前市場上每年交付的 3000 萬臺數(shù)據(jù)中心服務(wù)器中,,有 1/3 用于運行軟件定義的數(shù)據(jù)中心堆棧,,其負(fù)載的增長速度遠(yuǎn)遠(yuǎn)快于摩爾定律。除非我們找到加速的辦法,,否則用于運行應(yīng)用的算力將會越來越少,。“黃仁勛說,,”新時代的計算機(jī)需要新的芯片,、新的系統(tǒng)架構(gòu)、新的網(wǎng)絡(luò),、新的軟件和工具,。“
顯然,,英偉達(dá)推出自家的Arm架構(gòu)CPU并非要與x86陣營的AMD和Intel爭奪市場,,而是面向新興的細(xì)分市場,通過三種芯片的組合實現(xiàn)差異化,,并保持競爭力,。
GPU是英偉達(dá)AI領(lǐng)導(dǎo)力的基石,黃仁勛說:”只需一張 GeForce 顯卡,,每個學(xué)生都可以擁有一臺超級計算機(jī),,這正是 Alex Krizhevsky、Ilya 和 Hinton 當(dāng)年訓(xùn)練 AI 模型 AlexNet 的方式?!?/p>
在今天的GTC上,,英偉達(dá)還更新了DPU(Data processing unit,數(shù)據(jù)處理單元),?!爆F(xiàn)代超大規(guī)模云技術(shù)推動數(shù)據(jù)中心從基礎(chǔ)上走向了新的架構(gòu), 利用一種專門針對數(shù)據(jù)中心基礎(chǔ)架構(gòu)軟件而設(shè)計的新型處理器,, 來卸載和加速由虛擬化,、網(wǎng)絡(luò)、存儲,、安全和其它云原生AI服務(wù)產(chǎn)生的巨大計算負(fù)荷,。BlueField DPU正是為此而生?!包S仁勛如此解釋,。
去年10月,英偉達(dá)發(fā)布首代DPU BlueField-2,,能夠卸載相當(dāng)于30個CPU核的工作負(fù)載,。今天發(fā)布的最新一代BlueField-3 DPU,是專為AI和加速計算設(shè)計,,實現(xiàn)了10倍的性能提升,,有16個Arm A78 CPU核,和4倍的加密速度,,能夠替代300個CPU核,,能以400Gbps的速率,對網(wǎng)絡(luò)流量進(jìn)行保護(hù),、卸載和加速,。
BlueField-3通過NVIDIA DOCA(集數(shù)據(jù)中心于芯片的架構(gòu))軟件開發(fā)包為開發(fā)者提供一個完整、開放的軟件平臺,,新一代DPU預(yù)計將于2022年第一季度發(fā)布樣品,。
包括黃仁勛在內(nèi)的多位英偉達(dá)發(fā)言人曾不止一次表示,英偉達(dá)是一家系統(tǒng)公司,。作為系統(tǒng)公司,,軟件自然也是重點。
GTC 21上,,黃仁勛發(fā)布了用于訓(xùn)練Transformers的框架—— 英偉達(dá)Megatron,。Transformers能夠生成文檔摘要、將電子郵件中的短語補充完整,、對測驗進(jìn)行評分,、生成體育賽事現(xiàn)場評論,、甚至生成代碼,已經(jīng)幫助開發(fā)者在自然語言處理領(lǐng)域取得了突破性進(jìn)展,。
他還介紹了英偉達(dá)用于計算藥物研發(fā)加速庫Clara Discovery的一些新模型,。
還有量子電路模擬器提供加速cuQuantum,目標(biāo)是為加快有賴于量子位(或量子比特,,能作為單個的0或1存在,,也可以同時作為二者存在)的量子計算研究,幫助研究人員設(shè)計出更完善的量子計算機(jī),。
針對數(shù)據(jù)中心的安全,,英偉達(dá)也推出了Morpheus數(shù)據(jù)中心安全平臺,基于英偉達(dá)AI,、BlueField,、Net-Q網(wǎng)絡(luò)遙測軟件和EGX而構(gòu)建,能夠?qū)ν暾臄?shù)據(jù)包進(jìn)行實時檢測,。
面向會話式AI,,英偉達(dá)Jarvis已經(jīng)可用,其能夠?qū)崿F(xiàn)語音識別,、語言理解、翻譯和表達(dá)性語音,。雷鋒網(wǎng)了解到,,Jarvis支持五種語言。
為加快包括搜索,、廣告,、在線購物等推薦系統(tǒng)的速度,黃仁勛宣布NVIDIA Merlin現(xiàn)可通過NGC(NVIDIA的深度學(xué)習(xí)框架容器目錄)獲取,。
還有,,為了幫助客戶將自身專業(yè)知識應(yīng)用于AI領(lǐng)域,黃仁勛發(fā)布了NVIDIA TAO,,可以運用客戶和合作伙伴的數(shù)據(jù),,對NVIDIA預(yù)訓(xùn)練模型進(jìn)行微調(diào)和適配,同時保護(hù)數(shù)據(jù)隱私,。
3
英偉達(dá)的”三芯“時代
有了全新的數(shù)據(jù)中心芯片路線圖,,匹配豐富的軟件,英偉達(dá)能做什么,?
首先是獲益的就是數(shù)據(jù)中心,。黃仁勛透露,基于今天新發(fā)布的Grace CPU以及下一代GPU,,瑞士國家超級計算中心,、蘇黎世聯(lián)邦理工大學(xué)將構(gòu)建一臺名為阿爾卑斯的超級計算機(jī),,算力 20Exaflops(目前全球第一超算富岳的算力約為0.537Exaflops),將實現(xiàn)兩天訓(xùn)練一次GPT-3模型的能力,,比目前基于英偉達(dá)GPU打造的 Selene 超級計算機(jī)快7倍,。
另外,美國能源部下屬的洛斯阿拉莫斯國家實驗室也將在2023年推出一臺基于Grace 的超級計算機(jī),。
更進(jìn)一步,,英偉達(dá)可以擴(kuò)展Arm從云到邊緣的市場,包括將基于AWS Graviton2的Amazon EC2實例與NVIDIA GPU相結(jié)合,;通過新HPC開發(fā)者套件,,為科學(xué)和AI應(yīng)用的開發(fā)提供支持;提升邊緣視頻分析和安全功能,;打造新一類基于Arm并搭載NVIDIA RTX GPU的新款PC,。
除了在高性能計算市場,英偉達(dá)的三芯片組合也能提升其在自動駕駛汽車市場的競爭力,?;谟ミ_(dá)新一代GPU架構(gòu)、全新Arm CPU以及深度學(xué)習(xí)和計算機(jī)視覺加速器,,黃仁勛推出了新一代面向自動駕駛汽車的NVIDIA DRIVE Atlan,,該處理器性能最高達(dá)每秒超過1000萬億次(TOPS)運算,約是上一代Orin處理器的4倍,,超過了絕大多數(shù)L5無人駕駛出租車的總計算能力,。
DRIVE Atlan SoC也集成BlueField DPU,可以支持自動駕駛汽車中的復(fù)雜計算和AI工作負(fù)載,。預(yù)計DRIVE Atlan將搭載在多家汽車制造商的2025年車型上,。
”對于汽車而言,更高的算力意味著更加智能化,,開發(fā)者們也能讓產(chǎn)品更快迭代,。TOPS 就是新的馬力?!包S仁勛說,。
不僅如此,英偉達(dá)還推出了Hyperion 8 AV平臺,,這是一個先進(jìn)的數(shù)據(jù)采集,、開發(fā)和測試平臺,包含參考傳感器,、自動駕駛汽車和中央計算機(jī),、3D地面真實數(shù)據(jù)記錄儀、網(wǎng)絡(luò)以及所有必要的軟件,。
不難發(fā)現(xiàn),,面向AI,、數(shù)據(jù)中心、自動駕駛這些新興市場,,再強(qiáng)大的單芯片也很難滿足需求,,因此,英偉達(dá)將其數(shù)據(jù)中心芯片路線圖升級為GPU+CPU+DPU,,匹配的豐富軟件,,進(jìn)行系統(tǒng)優(yōu)化,能夠幫助英偉達(dá)保持領(lǐng)先地位,。
4
小結(jié)
對于以GPU見長的英偉達(dá)發(fā)布CPU,,許多人可能會表示驚訝。其實,,去年以CPU見長的英特爾也發(fā)布了自研GPU,。AMD也在擁有CPU和GPU的基礎(chǔ)上要收購FPGA。巨頭們都做出了相同的選擇,,意味著的是芯片行業(yè)的競爭已經(jīng)進(jìn)入了新的階段,,靠單一的芯片已經(jīng)很難滿足AI、5G,、自動駕駛等應(yīng)用的需求,,組合拳以及系統(tǒng)優(yōu)化是未來的重點。
英偉達(dá)的優(yōu)勢在于,,通過GPU+CPU+DPU的產(chǎn)品組合,,能夠最大程度維持其在AI領(lǐng)域優(yōu)勢,加上軟件和系統(tǒng)的優(yōu)化,,更好地滿足新興應(yīng)用的需求,在新的市場占據(jù)領(lǐng)導(dǎo)力,,而非與競爭對手搶奪已有的市場,。比如,用英偉達(dá)Omniverse創(chuàng)建共享虛擬3D世界,。