AI芯片神仙打架！谷歌第四代TPU性能首曝光，NVIDIA A100破8項AI性能記錄-AET-電子技術(shù)應用

AI芯片神仙打架！谷歌第四代TPU性能首曝光，NVIDIA A100破8項AI性能記錄

日期： 2020-07-30

作者：心緣

來源：芯東西

關(guān)鍵詞： NVIDIA 谷歌 AI MLPerf基準測試

　　芯東西7月30日消息，在最新MLPerf基準測試中，NVIDIA和谷歌接連公布打破AI性能記錄的消息，使AI戰(zhàn)場上再度彌漫起濃烈的火藥味。

　　這廂NVIDIA宣布其A100 Tensor Core GPU在加速器的全部8項MLPerf基準測試中展現(xiàn)了最快的市售商用產(chǎn)品性能，那廂谷歌稱其機器學習訓練超級計算機在8項MLPerf基準測試連創(chuàng)6個性能記錄。

　　谷歌第四代TPU芯片性能也首次披露，得益于硬件創(chuàng)新及軟件優(yōu)化，TPU v4的性能較TPU v3平均提升2.7倍，此外基于TPU v3的谷歌最強ML訓練超算峰值性能超430 PFLOPs。

　　▲NVIDIA DGX SuperPOD集群破MLPerf全部8項AI性能記錄

　　MLPerf是一個由亞馬遜、百度、Facebook、谷歌、哈佛大學、英特爾、微軟和斯坦福大學等70多家公司和來自領先大學的研究人員組成的聯(lián)盟。

　　MLPerf基準測試是衡量機器學習性能的行業(yè)標準，展示了AI行業(yè)在處理器、加速器及軟件框架方面的進步。NVIDIA和谷歌分別是通用和專用AI芯片的代表玩家。

　　在此次基準測試中，NVIDIA是唯一一家在所有測試中均采用市售商用產(chǎn)品的公司，采用了其今年最新發(fā)布的旗艦AI產(chǎn)品A100 Tensor Core GPU，以及多個DGX A100系統(tǒng)互聯(lián)的龐大集群DGX SuperPOD系統(tǒng)。

微信圖片_20200730155109.png

　　▲最新MLPerf基準測試提交的可商用類別部分截圖

　　其他大多數(shù)提交的或為預覽類別（preview category），產(chǎn)品預計幾個月后才會面市；或為研究類別的產(chǎn)品，較長一段時間不會面市。

　　例如谷歌提交的AI系統(tǒng)即多用于研究、開發(fā)或內(nèi)部使用，或通過谷歌云對外提供，如谷歌第二代和第三代TPU超級計算機現(xiàn)已通過谷歌云對外開放。

　　谷歌在此次測試中使用的是其第三代、第四代張量處理單元（TPU）以及谷歌最快的機器學習（ML）訓練超級計算機。

　　在最新MLPerf基準測試中，我們也看到了基于華為昇騰910芯片的兩項提交測試結(jié)果。

微信圖片_20200730155136.png

　　▲最新MLPerf基準測試提交的研究/開發(fā)/內(nèi)部使用類別部分截圖

　　MLPerf訓練基準測試結(jié)果鏈接：

　　https://www.mlperf.org/training-results-0-7

　　MLPerf基準測試的八種模型

　　當前MLPerf訓練基準測試包含圖像分類、圖像分割、目標檢測、翻譯等8種機器學習模型，通過測試訓練其中某一模型達到預定性能目標所需的時間（單位為分鐘），來體現(xiàn)其性能。

微信圖片_20200730155207.png

　　▲MLPerf訓練基準測試包含的8種機器學習模型

　　最新版本的MLPerf包括兩個新的測試BERT、DLRM和一個大幅修訂的測試MiniGo。

　　前沿對話式AI模型BERT是現(xiàn)有最復雜的神經(jīng)網(wǎng)絡模型之一，常被用作翻譯、搜索、文本理解、問答等任務。

　　推薦系統(tǒng)是日益普及的一項AI任務，深度學習推薦模型DLRM常被用于在線購物推薦、搜索、社會媒體內(nèi)容排序等任務。

　　強化學習模型MiniGo使用了全尺寸19x19圍棋版本，是本輪最復雜的測試，內(nèi)容涵蓋從游戲到訓練的多項操作。

　　最新一輪MLPerf訓練基準測試中，提交結(jié)果的有9家公司，共提交了138個不同系統(tǒng)的結(jié)果，包括商業(yè)可用系統(tǒng)，即將發(fā)布的預覽系統(tǒng)以及正在研究、開發(fā)或內(nèi)部使用的RDI系統(tǒng)。

　　NVIDIA在市售商用加速器中，刷新全部8項測試AI性能紀錄

　　根據(jù)發(fā)布的MLPerf基準測試結(jié)果，NVIDIA首款基于Ampere（安培）架構(gòu)的加速器A100 Tensor Core GPU在市售商用加速器的全部8項測試中，具備最快的AI訓練性能。

　　在實現(xiàn)總體最快的大規(guī)模解決方案方面，利用HDR InfiniBand實現(xiàn)多個DGX A100系統(tǒng)互聯(lián)的龐大集群DGX SuperPOD系統(tǒng)，在性能上也開創(chuàng)了8項全新里程碑。

微信圖片_20200730155239.png

　　▲NVIDIA A100集群破MLPerf全部8項AI性能記錄

　　從圖中可見，相較基于NVIDIA V100 GPU的系統(tǒng)，基于A100的系統(tǒng)在全部8項AI性能測試中均有1.5-2.5倍的性能提升。

　　對比華為昇騰910處理器在圖像分類測試、谷歌TPU v3在自然語言處理（NLP）測試的成績，NVIDIA A100的處理速度依然相對更高。

　　這已是NVIDIA連續(xù)三次在MLPerf中連續(xù)第三次展現(xiàn)強勁性能。2018年12月，NVIDIA首次在MLPerf訓練基準測試中創(chuàng)下了6項紀錄，次年7月NVIDIA再次創(chuàng)下8項紀錄。

　　通過持續(xù)發(fā)展全新GPU、軟件升級和不斷擴展的系統(tǒng)設計，NVIDIA AI平臺性能得到進一步提升。

　　測試結(jié)果顯示，相較于首輪MLPerf訓練測試中使用的基于V100 GPU的系統(tǒng)，如今DGX A100系統(tǒng)能夠以相同的吞吐率，實現(xiàn)高達4倍的性能提升。

　　同時，得益于最新的軟件優(yōu)化，基于NVIDIA V100的DGX-1系統(tǒng)亦可實現(xiàn)高達2倍的性能提升。

微信圖片_20200730155303.png

　　▲過去一年半，NVIDIA系統(tǒng)性能提升高達4倍

　　許多戰(zhàn)略性AI應用已受益于NVIDIA帶來的強大性能，例如阿里巴巴在11月“雙十一”期間創(chuàng)造380億美元的銷售記錄，其推薦系統(tǒng)即使用了NVIDIA GPU，使每秒查詢量達到了CPU的100倍以上。

　　在提交結(jié)果的9家公司中，除NVIDIA之外，有6家公司均提交了基于NVIDIA GPU的測試結(jié)果，其中包括阿里云、谷歌云和騰訊云三家云服務提供商，以及戴爾、富士通和浪潮三家服務器制造商。

微信圖片_20200730155338.jpg

　　▲采用NVIDIA平臺參與基準測試的NVIDIA合作伙伴

　　包括這些MLPerf合作伙伴在內(nèi)的近二十家云服務提供商和OEM組成的生態(tài)系統(tǒng)，已采用或計劃采用NVIDIA A100 GPU來打造在線實例、服務器和PCIe卡。

　　大多數(shù)NVIDIA及其合作伙伴在最新MLPerf基準測試中使用的軟件，現(xiàn)已可通過NGC獲取。

　　第四代TPU平均性能提升2.7倍，谷歌最強ML訓練超算峰值性能超430 PFLOPs

　　谷歌的第四代TPU ASIC提供了超出TPU v3兩倍的矩陣乘法TFLOPS、內(nèi)存帶寬和互連技術(shù)進步。

　　基于TPU v4的硬件創(chuàng)新以及軟件優(yōu)化，基于相同規(guī)模64個芯片，谷歌TPU v4的性能相比在MLPerf Training v0.6訓練測試中的TPU v3性能平均提高了2.7倍。

微信圖片_20200730155429.png

　　▲谷歌TPU v4在6種模型測試中的性能相比TPU v3平均提高了2.7倍

　　谷歌很快將發(fā)布更多關(guān)于TPU v4的信息。

　　在MLPerf Training v0.7基準測試的所有可用類別中，谷歌提交的最快速度均超過了非谷歌提交的最快速度。

微信圖片_20200730155449.png

　　▲MLPerf Training v0.7基準測試的所有可用類別性能表現(xiàn)，無論系統(tǒng)規(guī)模大小從8個芯片到4096個芯片，比較都按照總體訓練時間進行歸一化，數(shù)值越高越好

　　在本次MLPerf訓練中，谷歌使用的超級計算機，規(guī)模比在之前創(chuàng)下三項記錄的云TPU v3 Pod大四倍。

　　該系統(tǒng)包括4096個TPU v3芯片和數(shù)百臺CPU主機，所有連接通過超高速、超大規(guī)模的自定義互連，能提供超過430 PFLOPs峰值性能。

微信圖片_20200730155520.png

　　▲在谷歌新ML超級計算機上，所有MLPerf提交均在33秒或更快的時間內(nèi)完成

　　在谷歌新ML超級計算機上，無論是使用2048或4096個TPU芯片，所有這些MLPerf測試都在33秒或更快的時間內(nèi)完成。

　　谷歌使用TensorFlow、JAX和Lingvo中的ML模型結(jié)合XLA實現(xiàn)了這些成績。

　　TensorFlow是谷歌端到端的開源機器學習框架，XLA是支持所有谷歌MLPerf測試的底層編譯器技術(shù)，Lingvo是使用TensorFlow構(gòu)建的序列模型高級框架，JAX是一種基于可組合函數(shù)轉(zhuǎn)換的新型研究框架。

　　這些性能成績體現(xiàn)了谷歌在推進機器學習研究方面的進展。

　　在2015年，谷歌讓一款手機用當時有最先進的硬件加速器需要花費三個多星期進行類似的訓練。僅僅五年時間，谷歌就可以將同一模型的訓練速度提高近5個數(shù)量級，這一進展令人相當印象深刻。

　　谷歌表示，用戶現(xiàn)可通過谷歌云使用谷歌的第二代和第三代TPU超級計算機。

　　結(jié)語：AI加速器競賽良性升級

　　機器學習模型的快速訓練對于研究和工程團隊來說至關(guān)重要，而不斷演進的通用及專用AI加速芯片正帶來新的突破。

　　隨著NVIDIA A100和谷歌TPU v4的問世，AI芯片領域戰(zhàn)況將更為激烈，而這些良性的競爭也將進一步帶動AI相關(guān)研究及應用落地的快速發(fā)展。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

AI芯片神仙打架！谷歌第四代TPU性能首曝光，NVIDIA A100破8項AI性能記錄

日期： 2020-07-30

作者：心緣

來源： 芯東西

相關(guān)內(nèi)容

來源：芯東西