在過去的幾年中,大量的處理器進入市場,,其唯一目的是加速人工智能和機器學(xué)習(xí)工作負(fù)載,。由于可能使用不同類型的機器學(xué)習(xí)算法,因此這些處理器通常專注于幾個關(guān)鍵領(lǐng)域,,但有一個局限性限制了它們,,那就是您可以將處理器制造多大。
兩年前,,Cerebras揭開了芯片設(shè)計領(lǐng)域的一場革命:他推出的處理器與您的頭部一樣大——在12英寸晶圓上使用的面積與矩形設(shè)計所允許的面積一樣大,。據(jù)介紹,這個基于16納米工藝打造的芯片可同時專注于AI和HPC工作負(fù)載,。
今天,,該公司正在發(fā)布其基于臺積電7nm的第二代產(chǎn)品,其內(nèi)核數(shù)量增加了一倍以上,而所有產(chǎn)品的數(shù)量都增加了一倍以上,。
第二代WSE(Wafer Scale Engine)
來自Cerebras的新處理器是基于臺積電(TSMC)的N7工藝打造的,。這使得邏輯可以按比例縮小,并在一定程度上縮小了SRAM,,現(xiàn)在新芯片上具有850,000個AI內(nèi)核,。
從下圖我們可以看到,基本上,,有關(guān)新芯片的所有內(nèi)容都超過了2倍:
與最初的處理器(稱為晶圓級引擎(Wafer Scale Engine,,WSE-1))一樣,新的WSE-2在46225 mm 2的面積上集成了成千上萬的AI核,。在這個空間里,,Cerebras集成了2.6萬億個晶體管,構(gòu)建了850000個AI內(nèi)核,。相比之下,,市場上第二大AI CPU約為826 mm 2,具有0.054萬億個晶體管,。Cerebras還引用了1000倍的板載內(nèi)存,,帶有40 GB的SRAM,而Ampere A100則為40 MB,。
核心與帶有FMAC數(shù)據(jù)路徑的2D Mesh連接,。Cerebras通過設(shè)計一種可以繞開任何制造缺陷的系統(tǒng)來實現(xiàn)100%的良率。
最初,,Cerebras擁有1.5%的額外核心來容納缺陷,,但由于臺積電(TSMC)的工藝如此成熟,因此我們被告知這太多了,。Cerebras與WSE的目標(biāo)是提供一個通過創(chuàng)新專利設(shè)計的單一平臺,,該平臺允許用于AI計算的更大處理器,但也已擴展到更廣泛的HPC工作負(fù)載中,。
建立在第一代WSE之上
設(shè)計的關(guān)鍵是自定義的圖形編譯器,,它采用pyTorch或TensorFlow并將每一層映射到芯片的物理部分,從而允許在數(shù)據(jù)流過時進行異步計算,。擁有如此大的處理器意味著數(shù)據(jù)永遠(yuǎn)不必掉隊,,也不需要在內(nèi)存中等待,不浪費功率,,并且可以以流水線的方式連續(xù)地移至計算的下一個階段,。編譯器和處理器的設(shè)計還考慮到了稀疏性,無論批處理大小如何都可以實現(xiàn)高利用率,,或者可以使參數(shù)搜索算法同時運行,。
Cerebras的第一代WSE作為CS-1的完整系統(tǒng)的一部分一起打包出售,,該公司有數(shù)十個已部署并運行了已部署系統(tǒng)的客戶,其中包括許多研究實驗室,,制藥公司,,生物技術(shù)研究,軍事以及石油和天然氣行業(yè),。天然氣工業(yè),。勞倫斯·利弗莫爾(Lawrence Livermore)將一臺CS-1與其23 PFLOP“拉森”超級計算機配對。匹茲堡超級計算機中心以500萬美元的價格購買了兩個系統(tǒng),,并將這些系統(tǒng)連接到他們的Neocortex超級計算機上,,以實現(xiàn)同步AI和增強的計算能力。
產(chǎn)品和合作伙伴
Cerebras現(xiàn)在以15U盒的形式出售完整的CS-1系統(tǒng),,其中包含一個WSE-1和12x100 GbE,,十二個4 kW電源(6個冗余,峰值功率約23 kW),,并且在某些機構(gòu)中的部署與HPE的SuperDome Flex配對。新的CS-2系統(tǒng)共享相同的配置,,盡管內(nèi)核數(shù)量增加了一倍以上,,板載內(nèi)存也增加了一倍,但功耗仍然相同,。與其他平臺相比,,這些處理器在15U設(shè)計中垂直排列,以便在如此大的處理器上易于訪問以及內(nèi)置的液體冷卻,。還應(yīng)該注意的是,,這些前門是用單塊鋁加工而成的。
Cerebras設(shè)計的獨特性能夠超越通常在制造過程中出現(xiàn)的物理制造限制,,即標(biāo)線限制,。處理器的設(shè)計限制為芯片的最大尺寸,因為很難通過十字線連接兩個區(qū)域,。這是Cerebras帶到桌上的秘密的一部分,,該公司仍然是唯一一家提供這種規(guī)模處理器的公司-Cerebras開發(fā)并獲得了用于制造這些大型芯片的相同專利仍在這里發(fā)揮作用,第二代WSE將內(nèi)置于CS-2系統(tǒng)中,,其在連通性和視覺方面與CS-1相似,。
相同的編譯器和帶有更新的軟件包使已在第一個系統(tǒng)上試用AI工作負(fù)載的任何客戶在部署它們時都可以使用第二個系統(tǒng)。Cerebras一直在進行更高級別的實現(xiàn),,以通過添加三行代碼并使用Cerebras的圖形編譯器,,使具有標(biāo)準(zhǔn)化TensorFlow和PyTorch模型的客戶非常快速地同化其現(xiàn)有的GPU代碼,。然后,,編譯器將整個850,000個內(nèi)核劃分為每層的各個段,,從而允許以流水線方式進行數(shù)據(jù)流而不會造成停頓。芯片還可以同時用于多個網(wǎng)絡(luò)以進行參數(shù)搜索,。
Cerebras指出,,擁有如此龐大的單芯片解決方案意味著跨100多個AI芯片的分布式訓(xùn)練方法的障礙現(xiàn)在已經(jīng)遠(yuǎn)遠(yuǎn)地移開了,以至于在大多數(shù)情況下都不需要這種過多的復(fù)雜性–為此,,我們看到了CS- 1部署到超級計算機的單個系統(tǒng),。
但是,Cerebras指出,,兩個CS-2系統(tǒng)將在一個標(biāo)準(zhǔn)的42U機架中提供170萬個AI內(nèi)核,,或者三個系統(tǒng)在一個更大的46U機架中提供255萬個(假設(shè)一次有足夠的功率!)來替換一打機架的替代計算硬件,。
在Hot Chips 2020,,該公司首席硬件架構(gòu)師Sean Lie表示,Cerebras對客戶的主要好處之一是能夠簡化工作負(fù)載,,以前需要使用GPU / TPU機架,,而是可以以計算相關(guān)的方式在單個WSE上運行。
作為一家公司,,Cerebras在多倫多,,圣地亞哥,東京和舊金山擁有約300名員工,。該公司首席執(zhí)行官安德魯·費爾德曼(Andrew Feldman)表示,,作為一家公司,他們已經(jīng)實現(xiàn)了盈利,,已經(jīng)部署了CS-1的客戶很多,,并且在啟動商業(yè)系統(tǒng)時已經(jīng)有更多的客戶在遠(yuǎn)程試用CS-2。
除了AI之外,,由于芯片的靈活性使流體動力學(xué)和其他計算仿真成為可能,,因此Cerebras在典型的商業(yè)高性能計算市場(例如,石油和天然氣和基因組學(xué))中引起了很多客戶,。CS-2的部署將于今年晚些時候在第三季度進行,,價格已從2-3百萬美元升至“幾百萬”美元。