Graphcore MLPerf V2.0提交結(jié)果:AI性能大幅提升,Bow IPU系統(tǒng)現(xiàn)已可用
2022-07-19
來(lái)源:電子技術(shù)應(yīng)用
近日,英國(guó)人工智能芯片硬件設(shè)計(jì)初創(chuàng)公司Graphcore發(fā)布其參與MLPerf測(cè)試的最新結(jié)果,。相較此前,,新發(fā)布的Bow系統(tǒng)本次在圖像分類模型ResNet-50和自然語(yǔ)言處理模型BERT上分別實(shí)現(xiàn)了高達(dá)31%和37%的性能提升,。此外,,還新增了語(yǔ)音轉(zhuǎn)錄模型RNN-T的提交。
Graphcore本次提交有三點(diǎn)值得關(guān)注:
1. 提交了不同規(guī)格和尺度的Bow IPU計(jì)算平臺(tái),,包括Bow Pod16,、Bow Pod64、Bow Pod128及Bow Pod256,,取得令人欣慰的成績(jī),;
2. 經(jīng)過(guò)兩年的迭代和打磨,公司的軟件已可以較為快速地接入不同的軟件框架,。除NVIDIA之外,,Graphcore是為數(shù)不多具備足夠軟件成熟度的芯片公司,這是一個(gè)重要的里程碑,;
3. 在投入大量人力,、物力資源對(duì)硬件、軟件,、模型進(jìn)行優(yōu)化的同時(shí),,公司持續(xù)推進(jìn)客戶業(yè)務(wù)工作,致力于將算力轉(zhuǎn)化為客戶的價(jià)值,。
Graphcore中國(guó)工程副總裁,、AI算法科學(xué)家金琛以上述三點(diǎn)為中心展開詳盡介紹。
首先,,作為MIMD架構(gòu)的圖處理器,,Graphcore的芯片是多核的,共1472顆,。每個(gè)核都有自己的SRAM,,是一個(gè)多核分布式、片上內(nèi)存分布式的多指令多數(shù)據(jù)處理器,。除了支持NVIDIA,、谷歌、英特爾等公司能夠支持的模型之外,,Graphcore還能夠讓這些模型在IPU上也同樣高效運(yùn)行,。因此,,雖然公司的技術(shù)路線有所不同,但依舊可以取得好成績(jī),,并且擁有更多可能性。
(注:這里的圖處理器不是矢量處理器,,而是基于AI計(jì)算圖的處理器,,所以支持運(yùn)行一些矢量處理器運(yùn)行效果不佳的應(yīng)用場(chǎng)景。)
另外,,Graphcore在軟件和產(chǎn)品方面進(jìn)展豐富,。據(jù)介紹,IPU-POD計(jì)算平臺(tái)發(fā)布于2020年第四季度,,當(dāng)時(shí)軟件棧為SDK 1.4,。經(jīng)過(guò)幾代IPU-POD平臺(tái)的演進(jìn),Graphcore在軟件上進(jìn)行了大量?jī)?yōu)化(從SDK 1.4到SDK 2.5),提升了對(duì)不同的AI框架的支持,,例如TensorFlow,、PyTorch和百度飛槳。同時(shí),,也提供了對(duì)高層的開源框架的支持,,使開發(fā)者可以通過(guò)這些高級(jí)API快速構(gòu)造模型。
平臺(tái)方面,,公司在今年第一季度發(fā)布了最新的基于Bow芯片的Bow Pod平臺(tái),,這也是本次MLPerf 2.0主要提交的計(jì)算平臺(tái)?!拔覀?cè)趦蓚€(gè)月的時(shí)間內(nèi)把新發(fā)布的產(chǎn)品轉(zhuǎn)化為實(shí)際的性能以及用戶可以使用的價(jià)值,,這對(duì)Graphcore來(lái)說(shuō)是一個(gè)特別大的收獲?!苯痂”硎?,“我們?cè)谌ツ?月提交了MLPerf 1.0,當(dāng)時(shí)使用的是SDK 2.1,。在提交MLPerf 1.1時(shí),,我們橫向擴(kuò)展到了IPU-POD128和IPU-POD256。現(xiàn)在使用新一代的芯片迭代,,基本上每半年就會(huì)有一個(gè)特別大的提升,,對(duì)于一家擁有七百名員工的芯片公司來(lái)說(shuō),這個(gè)迭代速度也是相當(dāng)驚人的,?!睆氖褂肧DK 1.4的IPU-POD16在ResNet-50模型進(jìn)行訓(xùn)練,到如今使用SDK 2.5的Bow Pod256在ResNet-50模型上進(jìn)行訓(xùn)練,,Graphcore的客戶獲得了整體高達(dá)64倍訓(xùn)練時(shí)間的提升,。
Graphcore本次提交產(chǎn)品的規(guī)格(從左到右,訓(xùn)練時(shí)間尺度從小到大,,算力從低到高)
在模型提交類別上,ResNet-50和BERT是標(biāo)準(zhǔn)提交的集合,。此外,,公司在語(yǔ)音方面開放分區(qū)提交了RNN-T(Recurrent Neural Network Transducer)?!斑@是始于我們客戶的項(xiàng)目,,提交開放分區(qū)一方面可以促進(jìn)MLPerf模型的迭代,另一方面也可以讓其他有類似業(yè)務(wù)需求的客戶了解到我們的性能指標(biāo),,這對(duì)我們來(lái)說(shuō)是比較有意義的,。”金琛表示,。
MLPerf V2.0提交結(jié)果出爐,,Graphcore AI性能再創(chuàng)佳績(jī)
Bow Pod在ResNet-50上的提交結(jié)果。2021年底,,Graphcore提交過(guò)一次ResNet-50,。在NVIDIA的DGX-A100和IPU-POD16的對(duì)比上,后者超過(guò)NVIDIA,,IPU-POD16耗時(shí)28.3分鐘,。本次提交結(jié)果為19.64分鐘。而在Bow Pod256上,,訓(xùn)練時(shí)間僅需2.67分鐘,。
“從幾年前的1小時(shí)到現(xiàn)在的只需大概3分鐘,這就是算力的進(jìn)步給模型迭代帶來(lái)的紅利,?!苯痂≈v道。
Bow Pod在ResNet-50上的提交結(jié)果,。從Bow Pod16到Bow Pod256,,也存在一個(gè)線性提升。
與2021年提交ResNet MLPerf結(jié)果的對(duì)比,。從IPU-POD16到Bow Pod16的訓(xùn)練時(shí)間提升了31%,;吞吐量的提升約為1.6倍,其中1.3倍來(lái)自硬件提升,,1.26倍來(lái)自軟件提升,。Bow Pod256提升了接近30%。
“系統(tǒng)越大,,越難提升,。我們?cè)诖蟪叨鹊南到y(tǒng)上做了很多通信庫(kù),做了很多集合通信(Collective Communication)上的優(yōu)化,使得在大尺度系統(tǒng)上的表現(xiàn)也有類似的同比例提升,?!苯痂〗忉尅?/p>
與2021年提交BERT MLPerf結(jié)果的對(duì)比,。訓(xùn)練時(shí)間提升了接近37%,,吞吐量提升了1.6倍。
本次MLPerf提交中,,首次有第三方使用了Graphcore的系統(tǒng),。百度飛槳使用Graphcore系統(tǒng)進(jìn)行了BERT的提交,并展現(xiàn)出和Graphcore的BERT提交幾乎一致的性能,,證明了Graphcore的IPU所提供的性能可以有效地跨框架復(fù)現(xiàn),,以及IPU生態(tài)進(jìn)一步繁榮的潛力,。
“我們與百度飛槳聯(lián)合提交的結(jié)果也十分喜人,。PopART是Graphcore自研的框架,是基于芯片所構(gòu)造的高效的訓(xùn)練推理引擎,。百度飛槳使用Bow Pod16和Bow Pod64進(jìn)行了BERT在封閉分區(qū)的提交,,結(jié)果與Graphcore使用PopART進(jìn)行提交的結(jié)果幾乎一致。此次聯(lián)合提交一方面證明我們的軟件棧非常成熟,,能夠快速對(duì)接一個(gè)新的AI框架,;另一方面也證明百度飛槳的框架非常高效,沒(méi)有任何性能侵入式的設(shè)計(jì),?!?/p>
此外,金琛還談及Graphcore在價(jià)格方面占據(jù)的優(yōu)勢(shì),。
“以DGX-A100為參考,,在ResNet-50模型上,Bow Pod比DGX-A100快了約30%,。如果用大尺度計(jì)算平臺(tái),,比如8臺(tái)DGX-A100和Bow Pod256相比,性能對(duì)比約為6x:10x,,而Bow Pod的價(jià)格又遠(yuǎn)遠(yuǎn)低于DGX-A100的8倍,。”金琛指出,。
Intel HLS-Gaudi2在本次提交的性能表現(xiàn)也非常不錯(cuò),,但因未公布價(jià)格,無(wú)法定位他們?cè)趦r(jià)格圖譜上的位置,。
將算力轉(zhuǎn)化為客戶價(jià)值
黃標(biāo)為Graphcore歷屆提交的MLPerf模型,;紅標(biāo)為客戶需求所帶來(lái)的模型遷移。
部分客戶成功案例展示,。
Graphcore + Aleph Alpha,,強(qiáng)強(qiáng)聯(lián)合就模型創(chuàng)新開展合作
橫軸為2016年至2024年,;縱軸為模型計(jì)算量。
“從2018年BERT-Large的3.3億到2020年GPT3 1750億的模型規(guī)格,,在短短兩年的時(shí)間內(nèi)這個(gè)模型就增長(zhǎng)了500倍,。再到2021年,悟道2.0的1.75萬(wàn)億和Google Switch Transformer的1.6萬(wàn)億,,一年時(shí)間增長(zhǎng)了10倍,。我們預(yù)計(jì)未來(lái)兩到四年也有百倍的增長(zhǎng),基本上達(dá)到相當(dāng)于人腦的100萬(wàn)億規(guī)模,,在算力上遠(yuǎn)遠(yuǎn)達(dá)不到指數(shù)增長(zhǎng)的趨勢(shì),。有什么辦法能夠盡量接近模型增長(zhǎng)的速度?這是我們接下來(lái)想考慮的問(wèn)題,?!币罁?jù)上圖,金琛講道,。
Aleph Alpha是一家成立于2019年,,總部位于德國(guó)海德堡的人工智能初創(chuàng)公司。它的創(chuàng)立旨在改變歐洲的人工通用智能(AGI)研究與應(yīng)用,。據(jù)介紹,,未來(lái)Graphcore和Aleph Alpha將依據(jù)各自優(yōu)勢(shì)強(qiáng)強(qiáng)結(jié)合,對(duì)大模型,、大算力做出聯(lián)合貢獻(xiàn),。
與百度飛槳聯(lián)手閃耀MLPerf,開啟全球范圍首次雙方共同提交先例
百度飛槳對(duì)接硬件廠商的適配統(tǒng)一方案,。
“Graphcore給我們提供了一個(gè)新的思路——以子圖或者整圖的方式,,跟硬件廠商做高效率對(duì)接。最終的成果大家可以通過(guò)MLPerf看到,,無(wú)論是基于PopART的成績(jī)還是基于百度飛槳的成績(jī),,基本上性能一致性是比較高的?!卑俣蕊w槳產(chǎn)品團(tuán)隊(duì)負(fù)責(zé)人趙喬表示,。據(jù)介紹,Graphcore是首家在訓(xùn)練場(chǎng)景中和百度飛槳對(duì)接的硬件廠商,,幫助后者在這一過(guò)程中使軟件棧得到更好的升級(jí),。另外,雙方本次合作也開啟了全球范圍內(nèi)首次雙方共同提交的先例,?!斑@個(gè)過(guò)程有很多技術(shù)上的合作,也在MLPerf的規(guī)則內(nèi)收獲了一些來(lái)自MLPerf整個(gè)組織的官方認(rèn)可,同時(shí)這個(gè)過(guò)程也存在很多不確定性以及挑戰(zhàn),?!壁w喬表示,“在與Graphcore合作的整個(gè)過(guò)程中,,我們也感受到無(wú)論是Graphcore本地的工程,、營(yíng)銷團(tuán)隊(duì),還是國(guó)際團(tuán)隊(duì),,都非常崇尚技術(shù),,非常開放,并且抱有一個(gè)愿意緊密合作的態(tài)度,,所以我們以很高的效率,,大概一個(gè)季度多一點(diǎn)的時(shí)間,就完成了整體的聯(lián)合提交,?!蔽磥?lái),Graphcore將與百度飛槳在AI Ecosystem的共創(chuàng)方面,,以技術(shù)為核心,,在生態(tài),、產(chǎn)業(yè),、社區(qū)方面開展更多合作,推動(dòng)AI產(chǎn)業(yè)變革,。