Graphcore MLPerf V2.0提交結(jié)果：AI性能大幅提升，Bow IPU系統(tǒng)現(xiàn)已可用-AET-電子技術(shù)應(yīng)用

Graphcore MLPerf V2.0提交結(jié)果：AI性能大幅提升，Bow IPU系統(tǒng)現(xiàn)已可用

日期： 2022-07-19

來源：電子技術(shù)應(yīng)用

關(guān)鍵詞： Graphcore MLPerf IPU 人工智能芯片

近日，英國人工智能芯片硬件設(shè)計(jì)初創(chuàng)公司Graphcore發(fā)布其參與MLPerf測(cè)試的最新結(jié)果。相較此前，新發(fā)布的Bow系統(tǒng)本次在圖像分類模型ResNet-50和自然語言處理模型BERT上分別實(shí)現(xiàn)了高達(dá)31%和37%的性能提升。此外，還新增了語音轉(zhuǎn)錄模型RNN-T的提交。

Graphcore本次提交有三點(diǎn)值得關(guān)注：

1. 提交了不同規(guī)格和尺度的Bow IPU計(jì)算平臺(tái)，包括Bow Pod16、Bow Pod64、Bow Pod128及Bow Pod256，取得令人欣慰的成績(jī)；

2. 經(jīng)過兩年的迭代和打磨，公司的軟件已可以較為快速地接入不同的軟件框架。除NVIDIA之外，Graphcore是為數(shù)不多具備足夠軟件成熟度的芯片公司，這是一個(gè)重要的里程碑；

3. 在投入大量人力、物力資源對(duì)硬件、軟件、模型進(jìn)行優(yōu)化的同時(shí)，公司持續(xù)推進(jìn)客戶業(yè)務(wù)工作，致力于將算力轉(zhuǎn)化為客戶的價(jià)值。

圖片1.png

Graphcore中國工程副總裁、AI算法科學(xué)家金琛以上述三點(diǎn)為中心展開詳盡介紹。

首先，作為MIMD架構(gòu)的圖處理器，Graphcore的芯片是多核的，共1472顆。每個(gè)核都有自己的SRAM，是一個(gè)多核分布式、片上內(nèi)存分布式的多指令多數(shù)據(jù)處理器。除了支持NVIDIA、谷歌、英特爾等公司能夠支持的模型之外，Graphcore還能夠讓這些模型在IPU上也同樣高效運(yùn)行。因此，雖然公司的技術(shù)路線有所不同，但依舊可以取得好成績(jī)，并且擁有更多可能性。

（注：這里的圖處理器不是矢量處理器，而是基于AI計(jì)算圖的處理器，所以支持運(yùn)行一些矢量處理器運(yùn)行效果不佳的應(yīng)用場(chǎng)景。）

圖片1.png

另外，Graphcore在軟件和產(chǎn)品方面進(jìn)展豐富。據(jù)介紹，IPU-POD計(jì)算平臺(tái)發(fā)布于2020年第四季度，當(dāng)時(shí)軟件棧為SDK 1.4。經(jīng)過幾代IPU-POD平臺(tái)的演進(jìn)，Graphcore在軟件上進(jìn)行了大量?jī)?yōu)化（從SDK 1.4到SDK 2.5）,提升了對(duì)不同的AI框架的支持，例如TensorFlow、PyTorch和百度飛槳。同時(shí)，也提供了對(duì)高層的開源框架的支持，使開發(fā)者可以通過這些高級(jí)API快速構(gòu)造模型。

平臺(tái)方面，公司在今年第一季度發(fā)布了最新的基于Bow芯片的Bow Pod平臺(tái)，這也是本次MLPerf 2.0主要提交的計(jì)算平臺(tái)。“我們?cè)趦蓚€(gè)月的時(shí)間內(nèi)把新發(fā)布的產(chǎn)品轉(zhuǎn)化為實(shí)際的性能以及用戶可以使用的價(jià)值，這對(duì)Graphcore來說是一個(gè)特別大的收獲。”金琛表示，“我們?cè)谌ツ?月提交了MLPerf 1.0，當(dāng)時(shí)使用的是SDK 2.1。在提交MLPerf 1.1時(shí)，我們橫向擴(kuò)展到了IPU-POD128和IPU-POD256。現(xiàn)在使用新一代的芯片迭代，基本上每半年就會(huì)有一個(gè)特別大的提升，對(duì)于一家擁有七百名員工的芯片公司來說，這個(gè)迭代速度也是相當(dāng)驚人的。”從使用SDK 1.4的IPU-POD16在ResNet-50模型進(jìn)行訓(xùn)練，到如今使用SDK 2.5的Bow Pod256在ResNet-50模型上進(jìn)行訓(xùn)練，Graphcore的客戶獲得了整體高達(dá)64倍訓(xùn)練時(shí)間的提升。

圖片1.png

Graphcore本次提交產(chǎn)品的規(guī)格(從左到右,訓(xùn)練時(shí)間尺度從小到大，算力從低到高)

在模型提交類別上，ResNet-50和BERT是標(biāo)準(zhǔn)提交的集合。此外，公司在語音方面開放分區(qū)提交了RNN-T（Recurrent Neural Network Transducer）。“這是始于我們客戶的項(xiàng)目，提交開放分區(qū)一方面可以促進(jìn)MLPerf模型的迭代，另一方面也可以讓其他有類似業(yè)務(wù)需求的客戶了解到我們的性能指標(biāo)，這對(duì)我們來說是比較有意義的。”金琛表示。

圖片1.png

MLPerf V2.0提交結(jié)果出爐，Graphcore AI性能再創(chuàng)佳績(jī)

圖片1.png

Bow Pod在ResNet-50上的提交結(jié)果。2021年底，Graphcore提交過一次ResNet-50。在NVIDIA的DGX-A100和IPU-POD16的對(duì)比上，后者超過NVIDIA，IPU-POD16耗時(shí)28.3分鐘。本次提交結(jié)果為19.64分鐘。而在Bow Pod256上，訓(xùn)練時(shí)間僅需2.67分鐘。

“從幾年前的1小時(shí)到現(xiàn)在的只需大概3分鐘，這就是算力的進(jìn)步給模型迭代帶來的紅利。”金琛講道。

圖片1.png

Bow Pod在ResNet-50上的提交結(jié)果。從Bow Pod16到Bow Pod256，也存在一個(gè)線性提升。

圖片1.png

與2021年提交ResNet MLPerf結(jié)果的對(duì)比。從IPU-POD16到Bow Pod16的訓(xùn)練時(shí)間提升了31%；吞吐量的提升約為1.6倍，其中1.3倍來自硬件提升，1.26倍來自軟件提升。Bow Pod256提升了接近30%。

“系統(tǒng)越大，越難提升。我們?cè)诖蟪叨鹊南到y(tǒng)上做了很多通信庫，做了很多集合通信（Collective Communication）上的優(yōu)化，使得在大尺度系統(tǒng)上的表現(xiàn)也有類似的同比例提升。”金琛解釋。

圖片1.png

與2021年提交BERT MLPerf結(jié)果的對(duì)比。訓(xùn)練時(shí)間提升了接近37%，吞吐量提升了1.6倍。

本次MLPerf提交中，首次有第三方使用了Graphcore的系統(tǒng)。百度飛槳使用Graphcore系統(tǒng)進(jìn)行了BERT的提交，并展現(xiàn)出和Graphcore的BERT提交幾乎一致的性能，證明了Graphcore的IPU所提供的性能可以有效地跨框架復(fù)現(xiàn)，以及IPU生態(tài)進(jìn)一步繁榮的潛力。

“我們與百度飛槳聯(lián)合提交的結(jié)果也十分喜人。PopART是Graphcore自研的框架，是基于芯片所構(gòu)造的高效的訓(xùn)練推理引擎。百度飛槳使用Bow Pod16和Bow Pod64進(jìn)行了BERT在封閉分區(qū)的提交，結(jié)果與Graphcore使用PopART進(jìn)行提交的結(jié)果幾乎一致。此次聯(lián)合提交一方面證明我們的軟件棧非常成熟，能夠快速對(duì)接一個(gè)新的AI框架；另一方面也證明百度飛槳的框架非常高效，沒有任何性能侵入式的設(shè)計(jì)。”

圖片1.png

此外，金琛還談及Graphcore在價(jià)格方面占據(jù)的優(yōu)勢(shì)。

圖片1.png

“以DGX-A100為參考，在ResNet-50模型上，Bow Pod比DGX-A100快了約30%。如果用大尺度計(jì)算平臺(tái)，比如8臺(tái)DGX-A100和Bow Pod256相比，性能對(duì)比約為6x：10x，而Bow Pod的價(jià)格又遠(yuǎn)遠(yuǎn)低于DGX-A100的8倍。”金琛指出。

Intel HLS-Gaudi2在本次提交的性能表現(xiàn)也非常不錯(cuò)，但因未公布價(jià)格，無法定位他們?cè)趦r(jià)格圖譜上的位置。

將算力轉(zhuǎn)化為客戶價(jià)值

圖片1.png

黃標(biāo)為Graphcore歷屆提交的MLPerf模型；紅標(biāo)為客戶需求所帶來的模型遷移。

圖片1.png

部分客戶成功案例展示。

Graphcore + Aleph Alpha，強(qiáng)強(qiáng)聯(lián)合就模型創(chuàng)新開展合作

圖片1.png

橫軸為2016年至2024年；縱軸為模型計(jì)算量。

“從2018年BERT-Large的3.3億到2020年GPT3 1750億的模型規(guī)格，在短短兩年的時(shí)間內(nèi)這個(gè)模型就增長(zhǎng)了500倍。再到2021年，悟道2.0的1.75萬億和Google Switch Transformer的1.6萬億，一年時(shí)間增長(zhǎng)了10倍。我們預(yù)計(jì)未來兩到四年也有百倍的增長(zhǎng)，基本上達(dá)到相當(dāng)于人腦的100萬億規(guī)模，在算力上遠(yuǎn)遠(yuǎn)達(dá)不到指數(shù)增長(zhǎng)的趨勢(shì)。有什么辦法能夠盡量接近模型增長(zhǎng)的速度？這是我們接下來想考慮的問題。”依據(jù)上圖，金琛講道。

圖片1.png

Aleph Alpha是一家成立于2019年，總部位于德國海德堡的人工智能初創(chuàng)公司。它的創(chuàng)立旨在改變歐洲的人工通用智能（AGI）研究與應(yīng)用。據(jù)介紹，未來Graphcore和Aleph Alpha將依據(jù)各自優(yōu)勢(shì)強(qiáng)強(qiáng)結(jié)合，對(duì)大模型、大算力做出聯(lián)合貢獻(xiàn)。

與百度飛槳聯(lián)手閃耀MLPerf，開啟全球范圍首次雙方共同提交先例

圖片1.png

百度飛槳對(duì)接硬件廠商的適配統(tǒng)一方案。

“Graphcore給我們提供了一個(gè)新的思路——以子圖或者整圖的方式，跟硬件廠商做高效率對(duì)接。最終的成果大家可以通過MLPerf看到，無論是基于PopART的成績(jī)還是基于百度飛槳的成績(jī)，基本上性能一致性是比較高的。”百度飛槳產(chǎn)品團(tuán)隊(duì)負(fù)責(zé)人趙喬表示。據(jù)介紹，Graphcore是首家在訓(xùn)練場(chǎng)景中和百度飛槳對(duì)接的硬件廠商，幫助后者在這一過程中使軟件棧得到更好的升級(jí)。另外，雙方本次合作也開啟了全球范圍內(nèi)首次雙方共同提交的先例。“這個(gè)過程有很多技術(shù)上的合作，也在MLPerf的規(guī)則內(nèi)收獲了一些來自MLPerf整個(gè)組織的官方認(rèn)可，同時(shí)這個(gè)過程也存在很多不確定性以及挑戰(zhàn)。”趙喬表示，“在與Graphcore合作的整個(gè)過程中，我們也感受到無論是Graphcore本地的工程、營銷團(tuán)隊(duì)，還是國際團(tuán)隊(duì)，都非常崇尚技術(shù)，非常開放，并且抱有一個(gè)愿意緊密合作的態(tài)度，所以我們以很高的效率，大概一個(gè)季度多一點(diǎn)的時(shí)間，就完成了整體的聯(lián)合提交。”未來，Graphcore將與百度飛槳在AI Ecosystem的共創(chuàng)方面，以技術(shù)為核心，在生態(tài)、產(chǎn)業(yè)、社區(qū)方面開展更多合作，推動(dòng)AI產(chǎn)業(yè)變革。

圖片1.png

1文章最后空三行圖片 (1).jpg

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

Graphcore MLPerf V2.0提交結(jié)果：AI性能大幅提升，Bow IPU系統(tǒng)現(xiàn)已可用

日期： 2022-07-19

來源：電子技術(shù)應(yīng)用

相關(guān)內(nèi)容