人工智能的興起,讓英偉達(dá)GPU在服務(wù)器中的受重視程度日益提升,,但他們不滿足于此,。通過收購Arm公司和發(fā)表基于Arm 架構(gòu)的Grace處理器,英偉達(dá)走出了在服務(wù)器市場替代英特爾X86的前兩部,。
而最近,,他們發(fā)布了最新的數(shù)據(jù),,對英特爾步步緊逼,。
英偉達(dá)表示,,它已經(jīng)證明,當(dāng)與用于 AI 應(yīng)用程序(特別是機(jī)器學(xué)習(xí)推理)的 GPU 搭配使用時(shí),,基于 Arm 的 CPU 可以提供與基于 x86 的 CPU 幾乎相同的性能水平,。
這家總部位于加利福尼亞州圣克拉拉的這家公司本周做出了這一斷言,并使用了周三發(fā)布的同行評審性能數(shù)據(jù)作為支持,,該數(shù)據(jù)是多家 OEM 和芯片制造商針對新的 MLPerf Inference v1.1 機(jī)器學(xué)習(xí)推理基準(zhǔn)套件的測試結(jié)果的一部分,。
在與記者和分析師的簡報(bào)中,英偉達(dá)人工智能推理和云計(jì)算高級產(chǎn)品經(jīng)理 Dave Salvator 表示,,該公司通過采用基于 Arm 的 CPU 的 MLPerf 結(jié)果,,確定了基于 Arm 的 CPU 和基于 x86 GPU 系統(tǒng)和基于 x86 的 GPU 系統(tǒng),并在每個(gè)加速器的基礎(chǔ)上比較它們,。
“我們能夠提供您在這里看到的與配置非常相似的 x86 服務(wù)器并駕齊驅(qū)的結(jié)果,,”他說。
在查看一個(gè)加速器提供的性能時(shí),,Nvidia 發(fā)現(xiàn)基于 Arm 的系統(tǒng)和基于 x86 的系統(tǒng)之間的測試結(jié)果相似,。在離線設(shè)置中進(jìn)行測試,基于 x86 的系統(tǒng)僅在六個(gè)機(jī)器學(xué)習(xí)模型中的五個(gè)中顯示出較小的優(yōu)勢,,其中包括用于自然語言處理的 BERT-Large 和用于語音識別的 RRN-T,。對于 3D U-Net 醫(yī)學(xué)成像模型,基于 Arm 的系統(tǒng)具有更明顯的優(yōu)勢,。
當(dāng)涉及到需要在線連接的測試時(shí),,基于 Arm 的系統(tǒng)在 ResNet-50 圖像分類模型上有輕微的性能優(yōu)勢,而基于 X86 的系統(tǒng)在 SSD-Large object detection 和 DLRM 推薦模型上有類似的優(yōu)勢,。但是,,對于 RNN-T 和 BERT-Large 模型,基于 x86 的系統(tǒng)具有更大的優(yōu)勢,。
根據(jù) Salvator 的說法,,基于 Arm 的系統(tǒng)和基于 x86 的系統(tǒng)之間的性能結(jié)果基本相似,這是“一個(gè)重要的里程碑”,。
“首先,,它表明 Arm 作為加速平臺可以提供與類似配置的 x86 服務(wù)器差不多的性能,”他說,?!斑@也是關(guān)于我們的軟件堆棧準(zhǔn)備好能夠在數(shù)據(jù)中心環(huán)境中運(yùn)行 Arm 架構(gòu)的聲明?!?/p>
在上述的測試中,,基于 Arm 的系統(tǒng)是一臺 Gigabyte 服務(wù)器,,系統(tǒng)中運(yùn)行了來自半導(dǎo)體初創(chuàng)公司 Ampere Computing的Altra CPU和四個(gè)通過 PCIe 連接的 Nvidia A100 GPU?;?x86 的系統(tǒng)是 Nvidia 的 DGX A100,,配備了兩個(gè) AMD EPYC 7742 CPU 和八個(gè)通過 SXM 連接連接的 Nvidia A100 GPU。Nvidia 還展示了相同的基于 Arm 的系統(tǒng)與使用相同 CPU 和 GPU 但使用 PCIe 的不同基于 x86 的系統(tǒng)之間的類似性能比較,。
Salvator 在給 CRN 的一份聲明中表示,,在每個(gè)加速器的基礎(chǔ)上比較系統(tǒng)是使數(shù)據(jù)直接可比的最佳方式,因?yàn)榛?Arm 的系統(tǒng)和基于 x86 的系統(tǒng)具有不同數(shù)量的 CPU 和 GPU,。他補(bǔ)充說,,鑒于“推理性能與 GPU 數(shù)量成線性關(guān)系”,這是進(jìn)行比較的一種公平方式,。
“通過對每個(gè)加速器或每個(gè)處理器進(jìn)行比較,,我們能夠直接比較一個(gè)和另一個(gè),并真正了解相對性能,,”他說,。
審查和發(fā)布 MLPerf 測試結(jié)果的聯(lián)盟 MLCommons 的執(zhí)行董事 David Kanter 告訴 CRN,在基于 CPU 的系統(tǒng)的情況下測量每個(gè)處理器的性能或在基于 GPU 的系統(tǒng)的情況下測量每個(gè)加速器的性能是“相當(dāng)普遍的使用”指標(biāo),。
“每個(gè)處理器的性能數(shù)字是有道理的,,因?yàn)橥评硗ǔJ且粋€(gè)明確的并行工作負(fù)載,”他在一封電子郵件中說,?!懊總€(gè)推理都是獨(dú)立的,因此 [它] 理論上可以轉(zhuǎn)到單獨(dú)的處理器,,因此歸一化是合理的,。”
但是,,他指出,,MLCommons“僅正式認(rèn)可測得的 MLPerf 分?jǐn)?shù)”,該分?jǐn)?shù)基于整個(gè)系統(tǒng)的性能,,而不是單個(gè)加速器或處理器的性能,。
英偉達(dá)在數(shù)據(jù)中心提出了關(guān)于 Arm 的新論點(diǎn),因?yàn)樗M屘娲酒軜?gòu)成為其未來的重要組成部分,。這家芯片制造商正試圖以 400 億美元的價(jià)格收購 Arm,,盡管它面臨著監(jiān)管機(jī)構(gòu)的嚴(yán)格審查以及一些競爭對手和生態(tài)系統(tǒng)參與者的反對。該公司還計(jì)劃制造自己的基于 Arm 的數(shù)據(jù)中心 CPU,。
位于馬薩諸塞州普利茅斯的 Nvidia 合作伙伴 Microway 的戰(zhàn)略客戶和高性能計(jì)算計(jì)劃副總裁 Eliot Eshelman 告訴 CRN,,他的 HPC 客戶需要看到主要的性能優(yōu)勢才能從 x86 躍升到 Arm,這還沒有發(fā)生,。表明兩種芯片架構(gòu)僅具有可比性對他們來說是不夠的,。
“在我們的客戶中,需要有一些大的,、明確的賣點(diǎn),,說明他們?yōu)槭裁葱枰挠眯录軜?gòu),”他說,。
Eshelmen 表示,,Arm 最終可能會推出架構(gòu)改進(jìn),這將使其在人工智能方面優(yōu)于英特爾和 AMD,,但他認(rèn)為性能提升更有可能來自英偉達(dá)計(jì)劃在 CPU 和 GPU 之間進(jìn)行的互連工作這家芯片制造商即將推出的基于 Arm 的數(shù)據(jù)中心 CPU,。
他說:“我不知道 Arm 是否會在 x86 上提供如此巨大的乘數(shù),或者這只是 Nvidia 為實(shí)現(xiàn)目標(biāo)而采取的道路,?!?/p>