4月20日,,Cerebras Systems 公司再次刷新歷史,,推出為超級計算機任務而打造的第 2 代 Wafer Scale Engine (WSE-2)芯片,。與一代WSE相比,WSE-2雖然在面積上沒有變化,但卻擁有創(chuàng)紀錄的 2.6 萬億個晶體管以及 85萬個 AI 優(yōu)化的內核,芯片的所有性能特征,,包括:晶體管數(shù)、內核數(shù),、內存,、內存帶寬和結構帶寬,均比一代增加了一倍以上,。
差不多兩年前(2019年8月),,SeaMicro 創(chuàng)始人安德魯·費爾德曼(Andrew Feldman)創(chuàng)辦的 Cerebras Systems 公司公司,揭開了芯片設計領域的一場革命,,他們將整片晶圓制成了一個巨大的芯片,。
以往的芯片制造流程,是從硅錠切下一片晶圓后在Fab中進行加工,一片晶圓能被切成數(shù)百顆獨立的芯片,。而這顆名為晶圓級引擎(Wafer Scale Engine,,WSE-1)的處理器直接把整片晶圓做成了一顆芯片,面積與12英寸晶圓所能截取的最大矩形面積一樣——比iPad還大,。
不過,這顆芯片的每一塊區(qū)域都能被稱為內核,,它們以一種復雜的方式與其他內核相互連接,。互聯(lián)的設計是為了保持所有內核的高速運轉,,以便所有晶體管能夠作為一個整體一起工作,。在 2019 年推出的WSE-1中,Cerebras 融入了 40 萬個內核和 1.2萬億個晶體管,,采用的是 16 納米工藝進行制造,,可同時專注于AI和HPC(High Performance Computing,高性能計算機群)工作負載,。
更狠的第二代(WSE-2)來了
4月20日,,Cerebras Systems 公司再次刷新歷史,推出為超級計算機任務而打造的第二代 Wafer Scale Engine (WSE-2)芯片,。與一代WSE相比,,WSE-2雖然在面積上沒有變化,但卻擁有創(chuàng)紀錄的 2.6 萬億個晶體管以及 85萬個 AI 優(yōu)化的內核,,芯片的所有性能特征,,包括:晶體管數(shù)、內核數(shù),、內存,、內存帶寬和結構帶寬,均比一代增加了一倍以上,。
這得益于WSE-2采用基于臺積電(TSMC)的N7工藝(7nm)打造,,使得邏輯電路可以按比例縮小,并在一定程度上縮小了SRAM,,讓新芯片上可以容納更多AI內核,。Feldman 說,有了這樣的先進工藝支持,,Cerebras 可以在同樣的8*8英寸,,面積約46225mm2的芯片中塞進更多的晶體管。
WSE-2與一代對比(圖自:AnanTech)
值得注意的是,,在功能提升的前提下,,Cerebras還能夠保持其系統(tǒng)功耗不變(23 kW)。
對比市場上第二大AI處理器,英偉達的Ampere A100面積約為826mm2,,具有0.054萬億個晶體管,。WSE-2比它多了2.55萬億個晶體管;內核數(shù)是A100的123倍,;緩存是其1000倍,;可提供的內存帶寬,則達到了A100的13萬倍,。
Cerebras還引用了1000倍的板載內存,,帶有40 GB的SRAM,而Ampere A100則為40 MB,。
最初推出WSE-1的時候,,很多人擔心這么大的晶圓做芯片,萬一其中一塊不良,,是否整個報廢,?對此Cerebras解釋說,他們通過設計一種可以繞開任何制造缺陷的系統(tǒng)來實現(xiàn)100%的良率,,核心與帶有FMAC數(shù)據(jù)路徑的2D Mesh連接
Cerebras在WSE-1用了1.5%的額外核心來容納缺陷,,但由于臺積電工藝的提升,這個數(shù)值被進一步縮小了,。
晶圓級引擎存在的意義
WSE的出現(xiàn),,是因為訓練神經網(wǎng)絡需要花費較多的時間,即便是當今最先進的模型,,也需要幾天或幾周的時間進行訓練,,大型網(wǎng)絡則需要數(shù)周。通常做法是在數(shù)十,、數(shù)百甚至數(shù)千個GPU上進行分布式訓練,,以使訓練時間更可控。
其中最大的瓶頸,,是這些龐大的處理器集群很難編程,,而且數(shù)據(jù)必須在處理器和外部 DRAM 存儲器之間進行多次傳輸,既浪費時間又消耗能源,。所以WSE研發(fā)團隊的初衷是擴大芯片,,使它與 AI 處理器內核一起容納所需的所有數(shù)據(jù),一個CS-2的性能相當于整個GPU集群的性能,,同時具有單個設備的簡單性……
其設計的關鍵是自定圖形編譯器,,采用pyTorch或TensorFlow將每一層映射到芯片的物理部分,從而允許在數(shù)據(jù)流過時進行異步計算,。擁有如此大的處理器意味著數(shù)據(jù)永遠不會掉隊,,也不需要在內存中等待,,不浪費功率,并且可以以流水線的方式連續(xù)地移至計算的下一個階段,。編譯器和處理器的設計還考慮到了稀疏性,,無論批處理大小如何都可以實現(xiàn)高利用率,或者可以使參數(shù)搜索算法同時運行,。
Cerebras設計的獨特性,,讓它能夠超越制造過程中出現(xiàn)的常見物理限制,即標線限制,。處理器的設計限制,,往往取決于芯片的最大尺寸,因為很難通過Cross link連接兩個區(qū)域,。這是Cerebras的殺手锏之一,該公司仍然是唯一一家能提供這種規(guī)模處理器的公司,。
在Hot Chips 2020,,該公司首席硬件架構師Sean Lie表示,Cerebras對客戶的主要好處之一是能夠簡化工作負載,,以前需要使用GPU / TPU機架的工作,,現(xiàn)在可以以計算相關的方式在單個WSE上運行。
產品和合作伙伴
Cerebras的第一代WSE作為CS-1的完整系統(tǒng)的一部分一起打包出售,,不少實驗室與計算機中心已經部署了Cerebras WSE和CS-1,。
愛丁堡大學的超級計算中心,利用WSE進行自然語言處理,、基因組學和COVID-19的相關研究,。
在美國阿貢國家實驗室(ANL),WSE被用于COVID-19研究,、重力波檢測和材料發(fā)現(xiàn)等,;并且在癌癥療法研究中,使癌癥模型的實驗周轉時間,,減少了300倍以上,。
制藥企業(yè)葛蘭素史克的高級副總裁金·布蘭森表示:“其增加了生成的編碼器模型的復雜性,同時將訓練時間減少了80倍,?!?/p>
Lawrence Livermore將一臺CS-1與其23 PFLOP“拉森”超級計算機配對。匹茲堡超級計算機中心以500萬美元的價格購買了兩個系統(tǒng),,并將這些系統(tǒng)連接到他們的Neocortex超級計算機上,,以實現(xiàn)同步AI和增強的計算能力。
對于WSE-2的應用,,國際調研公司Tirias Research首席分析師Jim McGregor認為:“顯然,,對用于大型數(shù)據(jù)集的Cerebras晶圓級解決方案,,有些公司和實體很感興趣。但是在企業(yè)層面,,還有數(shù)百萬的其他AI應用,,以及一些Cerebras不能處理的情況,這就是英偉達擁有SuprPod和Selene超級計算機的原因,。與英偉達相比,,Cerebras更像是一個小眾平臺,二者的廣度無法相提并論,?!?/p>
目前Cerebras在多倫多、圣地亞哥,、東京和舊金山擁有約300名員工,。該公司首席執(zhí)行官安德魯·費爾德曼(Andrew Feldman)表示,作為一家公司,,他們已經實現(xiàn)了盈利,,已經部署了CS-1的客戶很多,并且在啟動商業(yè)系統(tǒng)時已經有更多的客戶在遠程試用CS-2,。
除了AI之外,,由于芯片的靈活性使流體動力學和其他計算仿真成為可能,因此Cerebras在典型的商業(yè)高性能計算市場(例如石油,、天然氣和基因組學)中吸引了很多客戶,。
CS-2的部署將于今年晚些時候的第三季度開始,價格已從2-3百萬美元升至“幾百萬”美元,。