《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > Graphcore公布首次MLPerf提交結(jié)果,AI性能穩(wěn)居領(lǐng)先地位

Graphcore公布首次MLPerf提交結(jié)果,AI性能穩(wěn)居領(lǐng)先地位

2021-07-01
來源:Graphcore
關(guān)鍵詞: Graphcore MLPerf AI性能 BERT ResNet-50

2021年7月1日,,北京—— 今天Graphcore(擬未科技)正式公布其參與的首次MLPerf?提交結(jié)果,,Graphcore產(chǎn)品表現(xiàn)優(yōu)異,AI性能穩(wěn)居領(lǐng)先地位,。MLPerf是AI行業(yè)最受認可的比較基準測試。此次測試結(jié)果顯示,在Graphcore IPU-POD64上,,BERT的訓(xùn)練時間只有9分多鐘,ResNet-50的訓(xùn)練時間為14.5分鐘,,AI性能已達超級計算機級別,。

 

MLPerf還對比了市面上的Graphcore系統(tǒng)與NVIDIA的最新產(chǎn)品,結(jié)果證實Graphcore在“每美元性能”(Performance-Per-Dollar)指標上穩(wěn)居領(lǐng)先地位,。對客戶而言,,這項重要的第三方測試確認了Graphcore系統(tǒng)不僅具有新一代AI的優(yōu)異性能,同時在目前的廣泛應(yīng)用中也表現(xiàn)得更出色,。

 

MLPerf基準測試

 

對于第一次MLPerf(訓(xùn)練版本1.0)提交,,Graphcore選擇聚焦在關(guān)鍵圖像分類和自然語言處理的應(yīng)用基準測試類別。MLPerf圖像分類基準使用流行的ResNet-50版本1.5模型,,在ImageNet數(shù)據(jù)集上訓(xùn)練,以達到適用于所有提交情況的準確率,。對于自然語言處理,使用了BERT-Large模型和選取的一個代表性片段,。該片段大約占總訓(xùn)練計算工作負載的10%,,并使用維基百科數(shù)據(jù)集進行訓(xùn)練,。Graphcore決定提交使用ResNet-50和BERT的圖像分類和自然語言處理,在很大程度上是由客戶和潛在客戶驅(qū)動的,,因為這是他們最常用的一些應(yīng)用和模型,。此次在MLPerf測試中的強勁表現(xiàn),進一步證明了Graphcore系統(tǒng)完全可以滿足當今的AI計算要求,。

 

參與測試的兩個Graphcore系統(tǒng),,IPU-POD16和IPU-POD64,均已在生產(chǎn)中交付給客戶,。

 

  • 價格實惠,、結(jié)構(gòu)緊湊的5U IPU-POD16系統(tǒng)適用于剛開始構(gòu)建IPU AI計算能力的企業(yè)客戶。它由4個1U的IPU-M2000和1個雙CPU服務(wù)器(dual-CPU server)組成,,可以提供4 PetaFLOPS的AI處理能力,。

  • 縱向擴展的IPU-POD64包含16個IPU-M2000和數(shù)量靈活的服務(wù)器。Graphcore系統(tǒng)實現(xiàn)了服務(wù)器和AI加速器的解耦,,因此客戶可以根據(jù)工作負載指定CPU與IPU的比率,。例如,和自然語言處理相比,,計算機視覺任務(wù)通常對服務(wù)器的需求更高,。對于MLPerf,IPU-POD64在BERT的提交中使用了1臺服務(wù)器,,在ResNet-50的提交中使用了4臺服務(wù)器,。每臺服務(wù)器均由2個AMD EPYC? CPU驅(qū)動。

 

MLPerf測試包含開放分區(qū)和封閉分區(qū)兩個提交分區(qū),。封閉分區(qū)嚴格要求提交者使用完全相同的模型實施和優(yōu)化器方法,,包括定義超參數(shù)狀態(tài)和訓(xùn)練時期。開放分區(qū)保證和封閉分區(qū)完全相同的模型準確性和質(zhì)量,,但支持更靈活的模型實施以促進創(chuàng)新,。因此,該分區(qū)支持更快的模型實現(xiàn),,更加適應(yīng)不同的處理器功能和優(yōu)化器方法,。對于像Graphcore IPU這樣的創(chuàng)新架構(gòu),,開放分區(qū)更能體現(xiàn)出產(chǎn)品的優(yōu)異性能,,但Graphcore還是選擇在開放和封閉分區(qū)都進行了提交。

 

測試結(jié)果體現(xiàn)了Graphcore系統(tǒng)的優(yōu)異性能,,即使在具有限制規(guī)格的開箱即用的封閉分區(qū)上也是如此,。更令人矚目的是開放分區(qū)結(jié)果,Graphcore能夠在其中優(yōu)化部署,,以充分利用IPU和系統(tǒng)功能,。這更貼近真實應(yīng)用,,支持客戶可以不斷提升其系統(tǒng)性能。

 

Picture 1.png

 

“每美元性能”指標

 

MLPerf被稱為比較基準,,實際上進行直接比較可能很復(fù)雜,。從相對簡單的硅片到有著昂貴存儲的復(fù)雜堆棧式芯片,如今的處理器和系統(tǒng)架構(gòu)可謂千差萬別,。從“每美元性能”角度來看,,往往最能夠說明問題。

 

Graphcore的IPU-POD16是一個5U的系統(tǒng),,標價149,995美元,。如前所述,它由4個IPU-M2000加速器以及行業(yè)標準主機服務(wù)器構(gòu)成,。每個IPU-M2000由4個IPU處理器構(gòu)成,。MLPerf中使用的NVIDIA DGX-A100 640GB是一個6U機盒,標價約為300,000美元(基于市場情報和公布的經(jīng)銷商定價),,有8個DGX A100芯片,。IPU-POD16的價格是它的一半。在這個系統(tǒng)中,,IPU-M2000的價格和一個DGX A100 80GB的價格是一樣的,,或者在更細的層次上,一個IPU的價格是它的四分之一,。

 

在MLPerf比較分析中,,Graphcore采用了嚴格監(jiān)管的封閉分區(qū)的結(jié)果,并針對系統(tǒng)價格對其進行了歸一化,。對于ResNet-50和BERT,,很明顯Graphcore系統(tǒng)提供了比NVIDIA產(chǎn)品更好的每美元性能。在IPU-POD16上進行ResNet-50訓(xùn)練的情況下,,Graphcore的每美元性能是NVIDIA的1.6倍,。在BERT上,Graphcore的每美元性能是NVIDIA的1.3倍,。Graphcore系統(tǒng)的經(jīng)濟性可以更好地幫助客戶實現(xiàn)其AI計算目標,,同時,由于IPU專為AI構(gòu)建的架構(gòu)特點,,Graphcore系統(tǒng)還可以解鎖下一代模型和技術(shù),。

 

Graphcore高級副總裁兼中國區(qū)總經(jīng)理盧濤表示:“首次提交MLPerf就獲得如此出色的成績,我們感到非常自豪,。此次測試還會帶給Graphcore客戶更多價值,,因為我們在準備階段所做的所有改進和優(yōu)化都會反饋到Graphcore軟件棧中。全球范圍內(nèi)的Graphcore用戶都會從MLPerf測試中受益匪淺,,不僅局限于BERT和ResNet-50模型,。我們將繼續(xù)參與包括訓(xùn)練和推理在內(nèi)的MLPerf測試,,為追求更優(yōu)性能、更大規(guī)模和添加更多模型,,貢獻Graphcore的所有智慧和力量,。”



WechatIMG454.jpeg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章,、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者,。如涉及作品內(nèi)容,、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,,以便迅速采取適當措施,,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118,;郵箱:[email protected],。