通用型AI芯片突破“內(nèi)存墻”瓶頸指日可待-AET-電子技術應用

通用型AI芯片突破“內(nèi)存墻”瓶頸指日可待

日期： 2020-09-21

來源：半導體行業(yè)觀察

關鍵詞： 人工智能 ASIC 云端

　　當下，人工智能（AI）產(chǎn)業(yè)正處于從起步向成熟階段的過渡時期，相關應用也處于探索階段，因此，各種專用的AI芯片層出不窮。然而，如果要針對某一個應用場景做ASIC化的產(chǎn)品，可能做出來的瞬間就已經(jīng)落后了。另外，因應用所處環(huán)節(jié)不同，ASIC化并非完全不可行，例如在端側(cè)的一個固定應用場景中，場景很明確就可通過ASIC的方式來做產(chǎn)品，但是，越靠近云端，應用變化越大，在這樣的變化下很難部署某一ASIC化的處理器。無論是云端還是云邊端，或者企業(yè)應用市場，都對算力要求非常高，因此，通用AI處理器就成為了更加合理的選擇。

　　與專用AI芯片相比，通用型AI處理器的應用范圍更加廣闊，更代表著AI硬件的發(fā)展方向，在這一領域，當下最為流行的便是GPU和CPU了。

　　隨著應用需求向更廣和更深層面拓展，GPU在AI領域的應用遇到了越來越明顯的瓶頸，首先，GPU和CPU屬于傳統(tǒng)處理器，并不是為AI計算專門設計的，在AI發(fā)展的初期階段，它們能夠勝任，但在接下來的第二、第三……發(fā)展階段，在更為復雜的模型和技術面前，其計算架構(gòu)局限性開始逐步體現(xiàn)出來。

　　正是在這種背景下，IPU出現(xiàn)了。該處理器是由英國初創(chuàng)企業(yè)Graphcore發(fā)明的，旨在支持機器智能的新計算需求。其第一代IPU中的1200多個處理器內(nèi)核可以分別處理完全獨立的任務，并且能夠彼此通信以支持完整的多指令多數(shù)據(jù)并行操作。而這些正是下一代機器智能的基本要求。

　　日前在中關村論壇上，Graphcore聯(lián)合創(chuàng)始人兼首席執(zhí)行官Nigel Toon和Graphcore高級副總裁兼中國區(qū)總經(jīng)理盧濤受邀出席，并分別在中關村論壇云上論壇和全球科技青年論壇上發(fā)表演講。

　　據(jù)Graphcore聯(lián)合創(chuàng)始人兼首席執(zhí)行官Nigel Toon介紹，IPU在訓練和部署中都可以支持具備高效稀疏計算的大型模型。IPU不僅可以推動創(chuàng)新開發(fā)，還可以有效部署這些新模型，更高效的計算可以降低系統(tǒng)總成本。用戶可以在訓練和推理中使用相同的IPU硬件，并且可以靈活更改每個CPU所調(diào)用的IPU數(shù)量。

　　總體來看，Graphcore的業(yè)務主要分為三部分：一，專為AI從零設計的IPU處理器；二 Poplar SDK和開發(fā)工具；三，IPU平臺，例如IPU-Machine、可以通過浪潮和戴爾購買的IPU服務器，以及可大規(guī)模橫向擴展的IPU-Pod64。

　　今年7月，Graphcore發(fā)布了第二代 IPU（Mk2 IPU），Mk2 IPU是一個基于臺積電7nm制程技術的AI處理器，在823平方毫米的芯片上集成了594億個晶體管。Mk2 IPU擁有250 TFLOPS的AI算力，以及900MB的處理器內(nèi)存儲容量。這樣一個處理器里具有1472個獨立的處理器核心以及將近9000個獨立的并行處理器線程，相對于第一代IPU（Mk1 IPU），系統(tǒng)級性能提高了8倍以上。

　　該公司還新推出了IPU-Machine: M2000（IPU-M2000），這是一款纖巧的數(shù)據(jù)中心刀片，能夠提供1 PFLOP的AI計算能力，并通過專用IPU內(nèi)置了AI橫向擴展網(wǎng)絡架構(gòu)IPU-Fabric。無論您是僅需要一臺IPU-M2000的初創(chuàng)公司，還是希望將數(shù)千臺IPU-M2000連接在一起的云公司，IPU-Machine：M2000（IPU-M2000）都可以滿足您的需求。

　　技術亮點

　　與競品相比，IPU在存儲、通用性、軟件支持和生態(tài)方面有諸多亮點。

　　在存儲方面，GPU在進行AI計算時，使用的是HBM，它能夠?qū)崿F(xiàn)每秒1.6 TB的帶寬和40 GB的容量。Graphcore則提出了一個創(chuàng)新的概念：IPU Exchange Memory。據(jù)Graphcore高級副總裁兼中國區(qū)總經(jīng)理盧濤（Jason Lu）介紹：IPU Exchange Memory包含了片上存儲和流存儲，一個IPU-Machine：M2000的系統(tǒng)能提供每秒180 TB的帶寬以及450 GB的容量，與GPU相比，在帶寬和容量上都有非常大的提升。

　　具體來看，Graphcore提出的IPU Exchange Memory由兩種存儲構(gòu)成，一種是處理器內(nèi)存儲（In-Processor Memory），就是片上存儲，另外一種是流存儲（Streaming Memory）。Mk2 IPU集成了900 MB的片上存儲，而主流CPU的每個芯片上存儲可能只有幾十M。

　　與DDR或HBM相比，充足的片上存儲能夠提供50~100倍的帶寬提升和時延的降低，Mk2 IPU中，存儲和計算之間的距離大大縮短了。900 MB的片上存儲和流存儲使得大規(guī)模擴展成為可能。

　　CPU系統(tǒng)里面有一個MMU（內(nèi)存管理單元，Memory Management Unit），其中有一個很重要的單位是TLB，TLB和外存之間能夠進行Pageant操作。因為Mk2 IPU擁有900 MB的片上存儲，可以通過遠端的流存儲來擴展幾百GB的存儲空間。而不需要像GPU或CPU那樣，32 MB或者64 MB的片上存儲需要不停地跟DDR，HBM做數(shù)據(jù)交互。

　　通過Mk2 IPU內(nèi)片上存儲和流存儲技術相結(jié)合，IPU-M2000可獲得總共450 GB的容量，片上存儲帶寬也獲得了較大的提升。

　　對于與競品的對比，盧濤提到了一個IPU的亮點，他表示：“NVIDIA聲稱他們構(gòu)建的新數(shù)據(jù)格式TF32可以提高FP32算力。我們則認為，最標準的事情是最開放的，例如FP32是IEEE規(guī)定的數(shù)據(jù)格式，開發(fā)者能夠基于FP32用GPU、IPU、CPU來進行計算，但如果開發(fā)者使用NVIDIA的TF32數(shù)據(jù)格式，就把自己困住了。”

　　在性價比比方面，IPU也有優(yōu)勢。盧濤用EfficientNet-B4的訓練做了一個對比，如希望達到EfficientNet-B4在8個IPU-M2000的訓練吞吐量，需要投資16個DGX A100，也就是超過300萬美金的費用，外加相應的電費等其它花費。也就是說，如果使用DGX A100，為獲取8個IPU-M2000的EfficientNet-B4計算性能，需要投入10倍以上的花費。

　　在軟件和開發(fā)環(huán)境支持方面，Graphcore從零設計了以計算圖（Graph）為核心的Poplar SDK，能夠方便用戶不論是使用單個IPU-M2000，還是單張PCIe卡，乃至1000個，甚至上萬個IPU，都能獲得完全一致的用戶體驗。Poplar SDK向上對接TensorFlow、PyTorch、ONNX、PaddlePaddle等行業(yè)標準機器學習框架。

　　今年7月，Graphcore開放了PopLibs源代碼。盧濤表示：“Graphcore精神的一部分是將權力交給AI開發(fā)人員，方便他們自己進行修改、優(yōu)化、創(chuàng)新。同時，Graphcore也在大力發(fā)展IPU開發(fā)者社區(qū)，其中很重要的一部分是已經(jīng)在中國上線的IPU開發(fā)者云，可提供浪潮IPU服務器NF5568M5、戴爾IPU服務器DSS8440、以及IPU-Pod64等不同機型。IPU開發(fā)者云目前已經(jīng)開放申請使用了。

　　開發(fā)者能夠非常便捷地獲取IPU，主要有兩種方式：一是通過云，目前可以通過微軟Azure和金山云來獲取IPU；二是通過戴爾或浪潮的IPU服務器構(gòu)建用戶自己的私有云或自己預置的計算資源。

　　談到開放性和創(chuàng)新性，盧濤表示：”Graphcore的IPU平臺，無論IPU-M2000還是IPU-Pod64，在設計過程中都考慮到了芯片、系統(tǒng)、集群及軟硬件結(jié)合的問題。Graphcore致力于賦能AI創(chuàng)新者進行新突破，如果僅僅沿著GPU的路線走，只能通過有限的方式來進行一些嘗試。所以，為創(chuàng)新者、開發(fā)者、研究者提供支持是Graphcore研發(fā)的重要動力。如果是由于硬件桎梏導致您的優(yōu)秀作品無法達到理想性能，Graphcore歡迎開發(fā)者在IPU上進行探索和嘗試。“

　　客戶

　　談到IPU的應用，盧濤表示，目前，IPU在超大規(guī)模數(shù)據(jù)中心與互聯(lián)網(wǎng)、高校及研究機構(gòu)、醫(yī)療及生命科學、金融、汽車這五大領域中發(fā)展較快，也受到了很多關注。到目前為止，Graphcore共發(fā)貨IPU處理器超過一萬顆，服務全球100多家不同機構(gòu)。

　　”我們的一位早期客戶，Carmot Capital在使用我們的產(chǎn)品訓練其金融市場預測模型時，性能提升了26倍。“盧濤說，”微軟在使用IPU幫助診斷肺炎和COVID-19的胸部X光影像時，速度提高了10倍，且準確性大大超過GPU。“

　　微軟是Graphcore的早期的合作者，他們不僅將IPU技術用于其內(nèi)部AI工作負載，還在2019年11月將IPU提供給其Azure云計算平臺的用戶使用，從而加速了AI創(chuàng)新者的工作。

　　另外，微軟、寶馬、博世、戴爾和三星等許多了解創(chuàng)新與應用之間關系的公司，都對Graphcore進行了投資。

　　中國業(yè)務

　　對于中國市場，Nigel Toon直言：”新技術的最直接需求就在中國。中國在人工智能領域處于領先地位，中國認識到，人工智能創(chuàng)新與長遠經(jīng)濟發(fā)展密不可分。目前，Graphcore的技術已經(jīng)開始為一些非常成功的中國公司提供支持，并將助力推動中國那些發(fā)展最快、最具創(chuàng)新性的AI初創(chuàng)企業(yè)。不久以后，我們將能夠更多地談論一些Graphcore在中國的合作伙伴，并分享我們合作的細節(jié)。“

　　Graphcore的中文名定為”擬未“，該公司正在壯大中國團隊，以便為客戶提供完全本地化的響應和支持。Nigel Toon表示：”我們的目標是將擬未打造成一家重要的中國公司。“

　　中國高校合作方面，在IPU開發(fā)者云上線之后，Graphcore大概收到了三、四十所高校的頂尖AI實驗室和研究機構(gòu)的使用申請。Graphcore已開始與一部分機構(gòu)探討合作，有一些機構(gòu)已在IPU開發(fā)者云上開展工作。

　　應用場景方面，盧濤認為中國市場在自然語言處理相關的應用方面發(fā)展非常迅速，且潛力巨大，對訓練的算力要求也非常高，這對IPU而言非常重要。

版權聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者。如涉及作品內(nèi)容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

通用型AI芯片突破“內(nèi)存墻”瓶頸指日可待

日期： 2020-09-21

來源：半導體行業(yè)觀察

相關內(nèi)容