Graphcore公布最新MLPerf訓(xùn)練結(jié)果：AI性能再刷新高-AET-電子技術(shù)應(yīng)用

Graphcore公布最新MLPerf訓(xùn)練結(jié)果：AI性能再刷新高

日期： 2021-12-02

來源：Graphcore

關(guān)鍵詞： Graphcore MLPerf AI

　　今日，Graphcore（擬未）正式公布其參與MLPerf測試的最新結(jié)果。結(jié)果顯示，與首次提交的MLPerf訓(xùn)練結(jié)果相比，對于ResNet-50模型，Graphcore通過軟件優(yōu)化，在IPU-POD16上實現(xiàn)了24%的性能提升，在IPU-POD64上實現(xiàn)了41%的性能提升；對于自然語言處理（NLP）模型BERT來說，在IPU-POD16上實現(xiàn)了5%的性能提升，在IPU-POD64上實現(xiàn)了12%的性能提升。此次MLPerf測試結(jié)果證明了Graphcore的IPU系統(tǒng)越來越強大、高效，軟件日益成熟且更快、更易使用。

　　MLPerf還對比了市面上的Graphcore與NVIDIA的產(chǎn)品，通過在GPU占據(jù)優(yōu)勢的模型ResNet-50上進行測試，結(jié)果表明Graphcore的IPU-POD16在計算機視覺模型ResNet-50方面的表現(xiàn)優(yōu)于NVIDIA的DGX A100。在DGX A100上訓(xùn)練ResNet-50需要29.1分鐘，而IPU-POD16僅耗時28.3分鐘，這是自Graphcore首次提交以來僅通過軟件實現(xiàn)的性能提升。其中，IPU-POD16對ResNet-50的軟件驅(qū)動性能提高了24%，在IPU-POD64上對ResNet-50的軟件驅(qū)動性能提升甚至更高，達到41%，對于Graphcore具有里程碑式的意義。　　

　　Graphcore最近發(fā)布的IPU-POD128和IPU-POD256橫向擴展系統(tǒng)也得出了結(jié)果，與上一輪MLPerf訓(xùn)練相比，Graphcore的IPU-POD16的BERT性能提高了5%，IPU-POD64的BERT性能提高了12%。

　　對于Graphcore較大的旗艦系統(tǒng)，在IPU-POD128上訓(xùn)練ResNet-50的時間為5.67分鐘，在IPU-POD256上為3.79分鐘。

　　對于自然語言處理（NLP）模型BERT，Graphcore在開放和封閉類別分別提交了IPU-POD16、IPU-POD64和IPU-POD128的結(jié)果，在新的IPU-POD128上的訓(xùn)練時間為5.78分鐘。

　　MLPerf的封閉分區(qū)嚴格要求提交者使用完全相同的模型實施和優(yōu)化器方法，其中包括定義超參數(shù)狀態(tài)和訓(xùn)練時期。開放分區(qū)旨在通過在模型實施中提供更大的靈活性來促進創(chuàng)新，同時確保達到與封閉分區(qū)完全相同的模型準確性和質(zhì)量。通過在開放分區(qū)展示BERT訓(xùn)練的結(jié)果，Graphcore能夠讓客戶了解產(chǎn)品在實際運行中的性能，從而讓他們更傾向于使用此類優(yōu)化。

　　新模型在大規(guī)模系統(tǒng)上的巨大優(yōu)勢

　　MLPerf及其組織機構(gòu)MLCommons作為第三方驗證機構(gòu)，在幫助客戶獨立評估人工智能計算系統(tǒng)的能力和不同公司提供的軟件棧的成熟度方面發(fā)揮著重要作用。當然，客戶繼續(xù)在生產(chǎn)中使用ResNet和BERT等模型的同時，也在探索創(chuàng)新的新模型，并期待Graphcore更大的旗艦系統(tǒng)實現(xiàn)大規(guī)模機器智能。例如，在Graphcore的旗艦產(chǎn)品IPU-POD256上，創(chuàng)新的計算機視覺EfficientNet-B4僅用1.8小時便可完成訓(xùn)練，盡管這并非Graphcore本次向MLPerf提交的內(nèi)容，但在實際應(yīng)用中的確有更強的性能優(yōu)勢。

　　此外，在絕對吞吐量性能以及擴展到更大的IPU-POD系統(tǒng)方面，Graphcore在MLPerf之外的一系列模型中也得到了一系列令人印象深刻的結(jié)果，包括用于自然語言處理的GPT類模型和用于計算機視覺的ViT（Transformer視覺模型）。

　　通過設(shè)計實現(xiàn)大規(guī)模高效

　　在本輪或任何一輪MLPerf原始數(shù)據(jù)中，每個制造商系統(tǒng)相關(guān)的主機處理器數(shù)量都十分驚人，一些參與者甚至指定要求每兩個人工智能處理器配有一個CPU。而Graphcore的主機處理器與IPU的比率始終是最低的。與其他產(chǎn)品不同，IPU僅使用主機服務(wù)器進行數(shù)據(jù)移動，無需主機服務(wù)器在運行時分派代碼。因此，IPU系統(tǒng)需要的主機服務(wù)器更少，從而實現(xiàn)了更靈活、更高效的橫向擴展系統(tǒng)。

　　對于BERT-Large這一類自然語言處理模型，IPU-POD64只需要一個雙CPU的主機服務(wù)器。ResNet-50需要更多的主機處理器來支持圖像預(yù)處理，因此Graphcore為每個IPU-POD64指定了四個雙核服務(wù)器。1比8的比例仍然低于其他所有MLPerf參與者。事實上，在本輪MLPerf 1.1訓(xùn)練中，Graphcore為BERT提供了最快的單服務(wù)器訓(xùn)練時間結(jié)果，為10.6分鐘。

　　Graphcore大中華區(qū)總裁兼全球首席營收官盧濤表示：“自2021年初首次提交MLPerf測試以來，Graphcore取得了巨大進步，這與Graphcore不懈創(chuàng)新的企業(yè)精神是分不開的。無論是設(shè)計系統(tǒng)、選擇架構(gòu)之初，還是至少每三個月推出一次重大軟件更新，都是Graphcore創(chuàng)新精神的體現(xiàn)。同時，Graphcore不懈創(chuàng)新的熱情也感染和吸引了眾多軟硬件合作伙伴——從Hugging Face和PyTorch Lightning到VMware和Docker Hub，它們都積極支持Graphcore不斷創(chuàng)新，以助力AI開發(fā)者在易于使用的系統(tǒng)上獲得絕佳的人工智能計算性能。”

　　關(guān)于Graphcore

　　Graphcore的智能處理器（IPU）硬件和Poplar軟件幫助創(chuàng)新者在機器智能方面實現(xiàn)新突破。IPU是第一個專為機器智能設(shè)計的處理器，與通常用于人工智能的其他計算硬件相比，具有顯著的性能優(yōu)勢。

　　Graphcore已從領(lǐng)先的金融和戰(zhàn)略投資者那里籌集了超過7.1億美元資金，總部位于英國布里斯托，在英國劍橋和倫敦、中國北京、挪威奧斯陸、美國帕拉奧圖、德國慕尼黑、法國巴黎、韓國首爾、日本東京、新加坡設(shè)有辦公室。

圖片.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

Graphcore公布最新MLPerf訓(xùn)練結(jié)果：AI性能再刷新高

日期： 2021-12-02

來源：Graphcore

相關(guān)內(nèi)容