雷鋒網(wǎng)消息,,時隔半年,,MLPerf組織發(fā)布最新的MLPerf Inference v1.0結(jié)果,,V1.0引入了新的功率測量技術(shù)、工具和度量標準,以補充性能基準,新指標更容易比較系統(tǒng)的能耗,,性能和功耗。
V1.0版本的基準測試內(nèi)容云端推理依舊包括推薦系統(tǒng),、自然語言處理,、語音識別和醫(yī)療影像等一系列工作負載,邊緣AI推理測試則不包括推薦系統(tǒng),。
MLPerf Inference v1.0
所有主要的OEM都提交了MLPerf測試結(jié)果,,其中,在AI領(lǐng)域占有優(yōu)勢地位的英偉達此次是唯一一家提交了從數(shù)據(jù)中心到邊緣所有MLPerf基準測試類別數(shù)據(jù)的公司,,并且憑借A100 GPU刷新了紀錄,。不僅如此,超過一半提交成績的系統(tǒng)都采用了英偉達的AI平臺,。
不過,,初創(chuàng)公司提交其AI芯片推理性能Benchmark的依舊很少。
AI推理最高性能半年提升45%
—
雷鋒網(wǎng)在 MLPerf Inference v0.7 結(jié)果發(fā)布的時候已經(jīng)介紹過,,英偉達去年5月發(fā)布的安培架構(gòu)A100 Tensor Core GPU在云端推理的基準測試性能是最先進英特爾CPU的237倍。經(jīng)過半年的優(yōu)化,,英偉達又將推薦系統(tǒng)模型DLRM,,語音識別模型RNN-T和醫(yī)療影像3D U-Net模型的性能進一步提升,提升幅度達最高達45%,,與CPU的性能差距也提升至314倍,。
從架構(gòu)的角度看,GPU架構(gòu)用于推理優(yōu)勢并不明顯,,但英偉達依舊憑借其架構(gòu)設(shè)計配合軟件優(yōu)化刷新了MLPerf AI云端和邊緣推理的Benchmark紀錄,。MLPerf的Benchmark證明了A100 GPU性能,,但其不菲的售價也是許多公司難以承受的。
今天,,更具性價比的英偉達A30(功耗165W)和A10(功耗150W) GPU也在MLPerf Inference v1.0中首秀,,A30 GPU強于計算,支持廣泛的AI推理和主流企業(yè)級計算工作負載,,如推薦系統(tǒng),、對話式AI和計算機視覺。
A10 GPU更側(cè)重圖像性能,,可加速深度學(xué)習(xí)推理,、交互式渲染、計算機輔助設(shè)計和云游戲為混合型AI和圖形工作負載提供支持,??梢詰?yīng)用于AI推理和訓(xùn)練的A30和A10 GPU今年夏天開始會應(yīng)用于各類服務(wù)器中。
A100云端AI推理性能
比CPU高314倍
—
A100經(jīng)過半年的優(yōu)化,,與CPU的性能差距從v0.7時最多237倍的差距增加到了最高314倍,。具體來看,在數(shù)據(jù)中心推理的Benchmark中,,在離線(Offline)測試,,A100比最新發(fā)布的A10有1-3倍的性能提升,在服務(wù)器(Server)測試中,,A100的性能最高是A10的近5倍,,在兩種模式下,A30的性能都比A10高,。
值得注意的是,,英特爾本月初最新發(fā)布的第三代至強可擴展CPU Ice Lake的推理性能相比上一代Cooper Lake在離線測試的ResNet-50和SSD-Large模型下有顯著提升,但相比A100 GPU體現(xiàn)出17-314倍的性能差距,。
高通AI 100的云端AI推理在MLPerf Inference v1.0測試下表現(xiàn)不錯,,其提交的離線和服務(wù)器測試下的ResNet-50和SSD-Large模型成績顯示,高通AI 100的推理性能均比英偉達新推出的A10 GPU高,,其它模型的成績高通并未提交,。
從每瓦性能來看,高通A100在提交成績的ResNet-50和SSD-Large模型中比A100更高,,但性能比A100低,。
賽靈思的VCK5000 FPGA在圖像分類ResNet-50的測試中表現(xiàn)不錯。
Jetson系列是唯一提交所有
邊緣推理測試成績的芯片
—
A系列GPU在云端AI推理的性能優(yōu)勢可以延續(xù)至邊緣端,。MLPerf的邊緣AI推理Benchmark分為Single-Stream和Multi-Stream,,A100 PCIe、A30,、A10在Single-Stream的所有模型下都有顯著的性能優(yōu)勢,,高通A100在ResNet-50模型下也優(yōu)勢明顯,,不過高通也僅提交了這一模型的成績。
這些產(chǎn)品用于邊緣AI推理有些大材小用,,英偉達的Jetson家族的AGX Xavier和Xavier NX更適合邊緣場景,,根據(jù)提交的數(shù)據(jù),Centaur公司在ResNet-50模型中優(yōu)勢明顯,,SSD-Small模型下的性能與Jetson Xavier NX性能相當,。
邊緣AI推理的Multi-Stream Benchmark,只有英偉達提交了成績,,A100 PCIe版本的性能最高是Jetson AGX Xavier和Xavier NX的60倍,。
在英偉達此次提交的結(jié)果中,多項是基于Triton推理服務(wù)器,,其支持所有主要框架的模型,,可在GPU及CPU上運行,還針對批處理,、實時和串流傳輸?shù)炔煌牟樵冾愋瓦M行了優(yōu)化,,可簡化在應(yīng)用中部署AI的復(fù)雜性。
雷鋒網(wǎng)了解到,,在配置相當?shù)那闆r下,,采用Triton的提交結(jié)果所達到的性能接近于最優(yōu)化GPU能夠達到性能的95%,和最優(yōu)化CPU99%的性能,。
另外,,英偉達還使用Ampere架構(gòu)的多實例GPU性能,在單一GPU上使用7個MIG實例,,同時運行所有7項MLPerf離線測試,,實現(xiàn)了與單一MIG實例獨立運行幾乎完全相同的性能。
小結(jié)
—
MLPerf Benchmark結(jié)果的持續(xù)更新,,可以為在IT基礎(chǔ)設(shè)施投資的企業(yè)提供一些有價值的參考,,也能推動AI的應(yīng)用和普及。在這個過程中,,軟件對于AI性能的提升非常重要,,同樣是A100 GPU,通過有針對性的優(yōu)化,,半年實現(xiàn)了45%的性能提升,。
同時也不難發(fā)現(xiàn),英偉達正在通過持續(xù)的軟硬件優(yōu)化,,以及更豐富的產(chǎn)品組合,,保持其在AI領(lǐng)域的領(lǐng)導(dǎo)力,,在AI領(lǐng)域想要超越英偉達似乎正在變得越來越難,。