當(dāng)下,,人工智能(AI)產(chǎn)業(yè)正處于從起步向成熟階段的過渡時(shí)期,,相關(guān)應(yīng)用也處于探索階段,,因此,,各種專用的AI芯片層出不窮。然而,,如果要針對(duì)某一個(gè)應(yīng)用場(chǎng)景做ASIC化的產(chǎn)品,,可能做出來的瞬間就已經(jīng)落后了。另外,,因應(yīng)用所處環(huán)節(jié)不同,,ASIC化并非完全不可行,例如在端側(cè)的一個(gè)固定應(yīng)用場(chǎng)景中,,場(chǎng)景很明確就可通過ASIC的方式來做產(chǎn)品,,但是,越靠近云端,,應(yīng)用變化越大,在這樣的變化下很難部署某一ASIC化的處理器,。無論是云端還是云邊端,,或者企業(yè)應(yīng)用市場(chǎng),都對(duì)算力要求非常高,,因此,,通用AI處理器就成為了更加合理的選擇。
與專用AI芯片相比,,通用型AI處理器的應(yīng)用范圍更加廣闊,,更代表著AI硬件的發(fā)展方向,在這一領(lǐng)域,,當(dāng)下最為流行的便是GPU和CPU了,。
隨著應(yīng)用需求向更廣和更深層面拓展,,GPU在AI領(lǐng)域的應(yīng)用遇到了越來越明顯的瓶頸,首先,,GPU和CPU屬于傳統(tǒng)處理器,,并不是為AI計(jì)算專門設(shè)計(jì)的,在AI發(fā)展的初期階段,,它們能夠勝任,,但在接下來的第二、第三……發(fā)展階段,,在更為復(fù)雜的模型和技術(shù)面前,,其計(jì)算架構(gòu)局限性開始逐步體現(xiàn)出來。
正是在這種背景下,,IPU出現(xiàn)了,。該處理器是由英國初創(chuàng)企業(yè)Graphcore發(fā)明的,旨在支持機(jī)器智能的新計(jì)算需求,。其第一代IPU中的1200多個(gè)處理器內(nèi)核可以分別處理完全獨(dú)立的任務(wù),,并且能夠彼此通信以支持完整的多指令多數(shù)據(jù)并行操作。而這些正是下一代機(jī)器智能的基本要求,。
日前在中關(guān)村論壇上,,Graphcore聯(lián)合創(chuàng)始人兼首席執(zhí)行官Nigel Toon和Graphcore高級(jí)副總裁兼中國區(qū)總經(jīng)理盧濤受邀出席,并分別在中關(guān)村論壇云上論壇和全球科技青年論壇上發(fā)表演講,。
據(jù)Graphcore聯(lián)合創(chuàng)始人兼首席執(zhí)行官Nigel Toon介紹,,IPU在訓(xùn)練和部署中都可以支持具備高效稀疏計(jì)算的大型模型。IPU不僅可以推動(dòng)創(chuàng)新開發(fā),,還可以有效部署這些新模型,,更高效的計(jì)算可以降低系統(tǒng)總成本。用戶可以在訓(xùn)練和推理中使用相同的IPU硬件,,并且可以靈活更改每個(gè)CPU所調(diào)用的IPU數(shù)量,。
總體來看,Graphcore的業(yè)務(wù)主要分為三部分:一,,專為AI從零設(shè)計(jì)的IPU處理器,;二 Poplar SDK和開發(fā)工具;三,,IPU平臺(tái),,例如IPU-Machine、可以通過浪潮和戴爾購買的IPU服務(wù)器,,以及可大規(guī)模橫向擴(kuò)展的IPU-Pod64,。
今年7月,Graphcore發(fā)布了第二代 IPU(Mk2 IPU),,Mk2 IPU是一個(gè)基于臺(tái)積電7nm制程技術(shù)的AI處理器,,在823平方毫米的芯片上集成了594億個(gè)晶體管,。Mk2 IPU擁有250 TFLOPS的AI算力,以及900MB的處理器內(nèi)存儲(chǔ)容量,。這樣一個(gè)處理器里具有1472個(gè)獨(dú)立的處理器核心以及將近9000個(gè)獨(dú)立的并行處理器線程,,相對(duì)于第一代IPU(Mk1 IPU),系統(tǒng)級(jí)性能提高了8倍以上,。
該公司還新推出了IPU-Machine: M2000(IPU-M2000),,這是一款纖巧的數(shù)據(jù)中心刀片,能夠提供1 PFLOP的AI計(jì)算能力,,并通過專用IPU內(nèi)置了AI橫向擴(kuò)展網(wǎng)絡(luò)架構(gòu)IPU-Fabric,。無論您是僅需要一臺(tái)IPU-M2000的初創(chuàng)公司,還是希望將數(shù)千臺(tái)IPU-M2000連接在一起的云公司,,IPU-Machine:M2000(IPU-M2000)都可以滿足您的需求,。
技術(shù)亮點(diǎn)
與競品相比,IPU在存儲(chǔ),、通用性,、軟件支持和生態(tài)方面有諸多亮點(diǎn)。
在存儲(chǔ)方面,,GPU在進(jìn)行AI計(jì)算時(shí),,使用的是HBM,它能夠?qū)崿F(xiàn)每秒1.6 TB的帶寬和40 GB的容量,。Graphcore則提出了一個(gè)創(chuàng)新的概念:IPU Exchange Memory,。據(jù)Graphcore高級(jí)副總裁兼中國區(qū)總經(jīng)理盧濤(Jason Lu)介紹:IPU Exchange Memory包含了片上存儲(chǔ)和流存儲(chǔ),一個(gè)IPU-Machine:M2000的系統(tǒng)能提供每秒180 TB的帶寬以及450 GB的容量,,與GPU相比,,在帶寬和容量上都有非常大的提升。
具體來看,,Graphcore提出的IPU Exchange Memory由兩種存儲(chǔ)構(gòu)成,,一種是處理器內(nèi)存儲(chǔ)(In-Processor Memory),就是片上存儲(chǔ),,另外一種是流存儲(chǔ)(Streaming Memory),。Mk2 IPU集成了900 MB的片上存儲(chǔ),而主流CPU的每個(gè)芯片上存儲(chǔ)可能只有幾十M,。
與DDR或HBM相比,,充足的片上存儲(chǔ)能夠提供50~100倍的帶寬提升和時(shí)延的降低,,Mk2 IPU中,,存儲(chǔ)和計(jì)算之間的距離大大縮短了。900 MB的片上存儲(chǔ)和流存儲(chǔ)使得大規(guī)模擴(kuò)展成為可能,。
CPU系統(tǒng)里面有一個(gè)MMU(內(nèi)存管理單元,,Memory Management Unit),,其中有一個(gè)很重要的單位是TLB,TLB和外存之間能夠進(jìn)行Pageant操作,。因?yàn)镸k2 IPU擁有900 MB的片上存儲(chǔ),,可以通過遠(yuǎn)端的流存儲(chǔ)來擴(kuò)展幾百GB的存儲(chǔ)空間。而不需要像GPU或CPU那樣,,32 MB或者64 MB的片上存儲(chǔ)需要不停地跟DDR,,HBM做數(shù)據(jù)交互。
通過Mk2 IPU內(nèi)片上存儲(chǔ)和流存儲(chǔ)技術(shù)相結(jié)合,,IPU-M2000可獲得總共450 GB的容量,,片上存儲(chǔ)帶寬也獲得了較大的提升。
對(duì)于與競品的對(duì)比,,盧濤提到了一個(gè)IPU的亮點(diǎn),,他表示:“NVIDIA聲稱他們構(gòu)建的新數(shù)據(jù)格式TF32可以提高FP32算力。我們則認(rèn)為,,最標(biāo)準(zhǔn)的事情是最開放的,,例如FP32是IEEE規(guī)定的數(shù)據(jù)格式,開發(fā)者能夠基于FP32用GPU,、IPU,、CPU來進(jìn)行計(jì)算,但如果開發(fā)者使用NVIDIA的TF32數(shù)據(jù)格式,,就把自己困住了,。”
在性價(jià)比比方面,,IPU也有優(yōu)勢(shì),。盧濤用EfficientNet-B4的訓(xùn)練做了一個(gè)對(duì)比,如希望達(dá)到EfficientNet-B4在8個(gè)IPU-M2000的訓(xùn)練吞吐量,,需要投資16個(gè)DGX A100,,也就是超過300萬美金的費(fèi)用,外加相應(yīng)的電費(fèi)等其它花費(fèi),。也就是說,,如果使用DGX A100,為獲取8個(gè)IPU-M2000的EfficientNet-B4計(jì)算性能,,需要投入10倍以上的花費(fèi),。
在軟件和開發(fā)環(huán)境支持方面,Graphcore從零設(shè)計(jì)了以計(jì)算圖(Graph)為核心的Poplar SDK,,能夠方便用戶不論是使用單個(gè)IPU-M2000,,還是單張PCIe卡,乃至1000個(gè),甚至上萬個(gè)IPU,,都能獲得完全一致的用戶體驗(yàn),。Poplar SDK向上對(duì)接TensorFlow、PyTorch,、ONNX,、PaddlePaddle等行業(yè)標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)框架。
今年7月,,Graphcore開放了PopLibs源代碼,。盧濤表示:“Graphcore精神的一部分是將權(quán)力交給AI開發(fā)人員,方便他們自己進(jìn)行修改,、優(yōu)化,、創(chuàng)新。同時(shí),,Graphcore也在大力發(fā)展IPU開發(fā)者社區(qū),,其中很重要的一部分是已經(jīng)在中國上線的IPU開發(fā)者云,可提供浪潮IPU服務(wù)器NF5568M5,、戴爾IPU服務(wù)器DSS8440,、以及IPU-Pod64等不同機(jī)型。IPU開發(fā)者云目前已經(jīng)開放申請(qǐng)使用了,。
開發(fā)者能夠非常便捷地獲取IPU,,主要有兩種方式:一是通過云,目前可以通過微軟Azure和金山云來獲取IPU,;二是通過戴爾或浪潮的IPU服務(wù)器構(gòu)建用戶自己的私有云或自己預(yù)置的計(jì)算資源,。
談到開放性和創(chuàng)新性,盧濤表示:”Graphcore的IPU平臺(tái),,無論IPU-M2000還是IPU-Pod64,,在設(shè)計(jì)過程中都考慮到了芯片、系統(tǒng),、集群及軟硬件結(jié)合的問題,。Graphcore致力于賦能AI創(chuàng)新者進(jìn)行新突破,如果僅僅沿著GPU的路線走,,只能通過有限的方式來進(jìn)行一些嘗試,。所以,為創(chuàng)新者,、開發(fā)者,、研究者提供支持是Graphcore研發(fā)的重要?jiǎng)恿ΑH绻怯捎谟布滂魧?dǎo)致您的優(yōu)秀作品無法達(dá)到理想性能,,Graphcore歡迎開發(fā)者在IPU上進(jìn)行探索和嘗試,?!?/p>
客戶
談到IPU的應(yīng)用,盧濤表示,,目前,IPU在超大規(guī)模數(shù)據(jù)中心與互聯(lián)網(wǎng),、高校及研究機(jī)構(gòu),、醫(yī)療及生命科學(xué)、金融,、汽車這五大領(lǐng)域中發(fā)展較快,,也受到了很多關(guān)注。到目前為止,,Graphcore共發(fā)貨IPU處理器超過一萬顆,,服務(wù)全球100多家不同機(jī)構(gòu)。
”我們的一位早期客戶,,Carmot Capital在使用我們的產(chǎn)品訓(xùn)練其金融市場(chǎng)預(yù)測(cè)模型時(shí),,性能提升了26倍?!氨R濤說,,”微軟在使用IPU幫助診斷肺炎和COVID-19的胸部X光影像時(shí),速度提高了10倍,,且準(zhǔn)確性大大超過GPU,。“
微軟是Graphcore的早期的合作者,,他們不僅將IPU技術(shù)用于其內(nèi)部AI工作負(fù)載,,還在2019年11月將IPU提供給其Azure云計(jì)算平臺(tái)的用戶使用,從而加速了AI創(chuàng)新者的工作,。
另外,,微軟、寶馬,、博世,、戴爾和三星等許多了解創(chuàng)新與應(yīng)用之間關(guān)系的公司,都對(duì)Graphcore進(jìn)行了投資,。
中國業(yè)務(wù)
對(duì)于中國市場(chǎng),,Nigel Toon直言:”新技術(shù)的最直接需求就在中國。中國在人工智能領(lǐng)域處于領(lǐng)先地位,,中國認(rèn)識(shí)到,,人工智能創(chuàng)新與長遠(yuǎn)經(jīng)濟(jì)發(fā)展密不可分。目前,,Graphcore的技術(shù)已經(jīng)開始為一些非常成功的中國公司提供支持,,并將助力推動(dòng)中國那些發(fā)展最快、最具創(chuàng)新性的AI初創(chuàng)企業(yè)。不久以后,,我們將能夠更多地談?wù)撘恍〨raphcore在中國的合作伙伴,,并分享我們合作的細(xì)節(jié)?!?/p>
Graphcore的中文名定為”擬未“,,該公司正在壯大中國團(tuán)隊(duì),以便為客戶提供完全本地化的響應(yīng)和支持,。Nigel Toon表示:”我們的目標(biāo)是將擬未打造成一家重要的中國公司,。“
中國高校合作方面,,在IPU開發(fā)者云上線之后,,Graphcore大概收到了三、四十所高校的頂尖AI實(shí)驗(yàn)室和研究機(jī)構(gòu)的使用申請(qǐng),。Graphcore已開始與一部分機(jī)構(gòu)探討合作,,有一些機(jī)構(gòu)已在IPU開發(fā)者云上開展工作。
應(yīng)用場(chǎng)景方面,,盧濤認(rèn)為中國市場(chǎng)在自然語言處理相關(guān)的應(yīng)用方面發(fā)展非常迅速,,且潛力巨大,對(duì)訓(xùn)練的算力要求也非常高,,這對(duì)IPU而言非常重要,。