用一片12吋晶圓產(chǎn)出一顆芯片,,這簡直就是暴殄天物,。要知道一片12吋晶圓目前大客戶的合約單價也能達到100美元以上,興建一條12吋晶圓產(chǎn)線更是需要超過200億元人民幣,。也有業(yè)內(nèi)人士這樣點評:最大芯片是怎么來的,?它的尺寸是因為現(xiàn)在量產(chǎn)晶圓最大就這么大,晶體管數(shù)量是因為16nm只能夠放進去這么多,。
難道,,史上最大的芯片就是博眾人眼球的作品。然而,,當你知道這個每邊長大約9英寸的芯片能夠?qū)崿F(xiàn)什么的時候,,可能你又會覺得這樣做也不是不可以。
史上最大芯片誕生
根據(jù)外媒的報道,,這顆大芯片采用臺積電16nm制程制造,,面積42225 平方毫米,擁有1.2萬億個晶體管,,400000 個核心,,片上內(nèi)存18 Gigabytes,內(nèi)存帶寬19 PByte/s,,fabric帶寬100 Pbit/s,。它就是近幾天火爆網(wǎng)絡(luò)的史上最大芯片Cerebras Wafer Scale Engine(以下簡稱:Cerebras WSE)。
Cerebras WSE由人工智能初創(chuàng)公司Cerebras Systems(以下簡稱:Cerebras)推出,,該公司成立于2016年,,并在當年拿到了來自于Benchmark的2500萬美元的A輪投資。值得一提的是,,有機構(gòu)在2017年全球五大值得關(guān)注的AI芯片公司榜單中就列舉了Cerebras,。
Cerebras的創(chuàng)始人是芯片業(yè)界的老兵——50歲的Andrew Feldman,他也是這家公司的CEO,。瀏覽他的過往履歷會發(fā)現(xiàn),,他還曾參與創(chuàng)立小型服務(wù)器公司SeaMicro,同樣出任CEO,,后來這個公司賣給了AMD,,作價3.34億美元。此后,,Andrew Feldman在AMD做了兩年半的副總裁,。
準確地說,Cerebras帶有一定的光環(huán),,但并不耀眼,,如果不是這個史上最大芯片的出現(xiàn)甚至可以說有一點名不見經(jīng)傳。但是,,隨著Cerebras WSE發(fā)布之后,,全球芯片界都在關(guān)注這顆芯片、這家公司,,甚至是這家公司的員工,。
和我們過往習慣的“摩爾定律”相反,這顆芯片走向了另一個“極端”,,試想如果晶圓尺寸允許,,可能它的邊長甚至會超過9英寸,。當然這只是設(shè)想。
如此巨大的芯片能夠干什么呢,?
首先是算力的大幅度提升,。讓我們重溫一下這些恐怖的數(shù)字:1.2 萬億個晶體管和400000 個核心。如果以純數(shù)字論來說,,前一個數(shù)字并不是目前最高的,,三星在實現(xiàn)閃存芯片eUFS時做到了2萬億個的數(shù)量。區(qū)別在于Cerebras WSE專為流程加工而設(shè)計,,以能夠讓400000個核心高性能運轉(zhuǎn),,它就是一個超級計算機。讓人吃驚的一點是,,Cerebras不僅給了Cerebras WSE更多的AI核心,,并且在計算方式上也高人一籌,芯片內(nèi)部采用的稀疏線性代數(shù)核(Sparse Linear Algebra Cores,, SLAC),,永遠不會乘以零,這讓算力得到了更充分的利用,。Feldman表示,,Cerebras WSE訓練AI系統(tǒng)的速度可以比現(xiàn)有硬件快100到1000倍。
當然,,Cerebras WSE不僅是算的更快,,而且其存儲性能也是和算力匹配的,高于目前主流GPU內(nèi)存性能的3000倍,。片上內(nèi)存18 Gigabytes的威力可見一斑,。再配備以19 PByte/s的內(nèi)存帶寬,這讓該芯片不僅存的夠多,,也存的夠快,。
針對目前AI行業(yè)飽受詬病的延遲問題,這顆芯片也給出更優(yōu)解,。Cerebras WSE通過Swarm通信結(jié)構(gòu)連接在一個帶有100 Pb/s帶寬的2D網(wǎng)格中,。對于每個神經(jīng)網(wǎng)絡(luò),Swarm提供獨特且優(yōu)化的通信路徑,。因此,,該芯片也具備更出色的高帶寬和低延遲性能。
對于史上最大芯片的發(fā)布,,國內(nèi)外科技愛好者都是一片叫好,。
Linley Group首席分析師Linley Gwennap表示:“Cerebras憑借其晶圓級技術(shù)實現(xiàn)了巨大的飛躍,在單片硅上實現(xiàn)了比任何人想象的更多的處理性能,?!?/p>
Tirias Research首席分析師兼創(chuàng)始人Jim McGregor講到:“隨著人工智能的發(fā)展,,硅和平臺解決方案也在不斷發(fā)展。Cerebras WSE是半導體和平臺設(shè)計領(lǐng)域令人驚嘆的工程成就,,可在單晶圓級解決方案中提供超級計算機的計算,,高性能存儲器和帶寬,?!?/p>
專用處理器和SoC架構(gòu)師唐杉興奮地說:“膜拜一下Cerebras的巨型芯片,每邊大約9英寸,,22cm,。我記得我之前寫文章還畫過一個類似的對比圖。[機智]Wired的文章,,看來Cerebras要走到前臺了,。”
……
大芯片并不是突發(fā)奇想
將芯片做大并不是Cerebras的首創(chuàng),,早在上世紀七八十年代就已經(jīng)有人開始做這方面的嘗試了,。
1980年成立的Trilogy當時拿著2.3億美元的資金做超大芯片,不過由于難度過大,,該項目僅僅持續(xù)了5年時間,。
近一兩年,半導體產(chǎn)業(yè)信賴的“摩爾定律”進展遲緩之后,,先進封裝工藝和超大芯片都開始被重點關(guān)注,,且都取得了一定的成果。
大家一定對一年半以前的英偉達GTC(GPU Technology Conference)大會記憶猶新,,因為就是這場盛會,,讓我們有幸見證了史上最大、最貴GPU的誕生,。這款GPU的名字是Nvidia DGX-2,。
DGX-2雙板總計16塊GPU,總計512GB HBM2 存儲,,具有12個NVSwitch,。DGX-2 的算力可達 2 千萬億次浮點運算,功耗 10 千瓦,。當然,,這樣做的成本也是高昂的,這個最大的GPU售價達到了39.9萬美元,。
對于英偉達DGX-2的發(fā)布,,英偉達CEO黃仁勛表示:“人生完整了?!?/p>
顯然,,市場對于英偉達發(fā)布的最大GPU并不買賬,,發(fā)布會之后英偉達股價跌幅達到了6.64%。
說完最大的GPU,,我們看一下最大的FPGA,。就在幾天前,各大FPGA粉絲群里面有一個新聞刷屏了,,那就是賽靈思推出了史上最大的FPGA芯片“Virtex UltraScale+ VU19P”,。該芯片擁有多達350億個晶體管,密度在同類產(chǎn)品中也是最大的,,相比上代Virtex UltraScale VU440增大了1.6倍,,而功耗降低了60%。從晶體管數(shù)量來看,,超過了AMD 64核心的二代霄龍和英偉達GV100,。
馬克杯口大小的FPGA,汽車后備箱大小,、重大300斤的GPU,,還有就是一片晶圓一顆芯片的Cerebras WSE。到底是什么在驅(qū)動芯片越做越大,?
尋覓通用人工智能的硬件最優(yōu)解
不管是各界人士的評論里,,還是產(chǎn)品的介紹里,最大芯片們都有一個共同的標簽,,那就是人工智能,。
是的,人工智能出來了許多年,,也火了許多年,。但是,現(xiàn)在的人工智能讓很多地方政府和投資機構(gòu)覺得像“雞肋”,,實在是食之無味,,棄之可惜。造成這一局面的一個很重要的原因在于,,當算法在不斷精進的過程中,,芯片性能開始滯后,應對單一領(lǐng)域計算已經(jīng)乏力,,更不要說什么通用人工智能了,。
當前的AI芯片的設(shè)計思想主要有三大類。分別是專用于機器學習的加速芯片,;類腦仿生芯片,;可高效計算各類人工智能算法的通用AI芯片。
GPU和FPGA性能的不斷提升,以及TPU,、NPU和ASIC的出現(xiàn)讓機器學習方面應用有了快速發(fā)展,,已經(jīng)實現(xiàn)了部分落地場景。而在類腦芯片和通用AI芯片方面遲遲沒有動靜,,因此,,Cerebras WSE的出現(xiàn)確實讓人們看到了曙光。
理想的AI芯片需要具備高度并行的處理能力,,能夠支持各種數(shù)據(jù)長度的按位,、固定和浮點計算,芯片本身具有高端帶,、低延遲,,在核心計算單元和內(nèi)存之間有豐富的鏈接,,在實現(xiàn)高性能運算的情況下兼?zhèn)涞凸牡奶攸c,。并且,這樣的芯片還要低成本,。
在Cerebras WSE出現(xiàn)之前,,雖然英偉達推出了大型GPU這樣的產(chǎn)品,但是大家對于實現(xiàn)通用AI更為認可的方式是可重構(gòu)架構(gòu)設(shè)計,。通過這種架構(gòu)設(shè)計的可重構(gòu)芯片具備軟件,、硬件雙編程的特性,硬件架構(gòu)和功能隨軟件變化而實時動態(tài)變化,,因而又被稱為軟件定義芯片,。可重構(gòu)芯片的基礎(chǔ)思路是通過找到數(shù)據(jù)間的依賴關(guān)系,,然后通過這種關(guān)系進行實踐切割,,然后對計算進行分配,最終實現(xiàn)資源的復用,。
可重構(gòu)芯片的基礎(chǔ)架構(gòu)
目前,,可重構(gòu)芯片應用到的技術(shù)主要有計算陣列重構(gòu)、存儲帶寬重構(gòu)和數(shù)據(jù)位寬重構(gòu),。通過采用上述技術(shù),,軟件定義的層面不僅僅局限于功能這一層面,算法的計算精度,、性能和能效等都可以納入軟件定義的范疇,。
在可重構(gòu)芯片領(lǐng)域,目前主要玩家包括傳統(tǒng)芯片公司英特爾和賽靈思,,還有初創(chuàng)公司Cerebras,、Wave computing、寒武紀、比特大陸等,。
是的,,你沒有看錯,Cerebras同樣是可重構(gòu)芯片的玩家之一,。不過,,Cerebras WSE的價值絕不僅僅是可重構(gòu),其在芯片設(shè)計和芯片制造方面都有里程碑的意義,。
在芯片設(shè)計方面,,Cerebras WSE絕對算是一次大膽且成功的嘗試。單一芯片上做大規(guī)模的計算核心集成,,節(jié)省了芯片之間傳輸?shù)臅r間和功耗,,這樣的方式比傳統(tǒng)在數(shù)據(jù)中心做訓練明顯更經(jīng)濟實惠,不僅大大提升了訓練的效率,,成本也有望降低,。另外,其內(nèi)部核心不做乘零運算,,給予當前的AI芯片以提示,,大大縮減了模型訓練的時間,這對于當前的人工智能產(chǎn)業(yè)而言價值非凡,。
在芯片制造方面,,臺積電在這顆史上最大芯片面世過程中同樣居功至偉。臺積電高級副總裁Brad Paulsen表示,,臺積電調(diào)整其設(shè)備以進行一次連續(xù)設(shè)計,,而不是多個獨立設(shè)計的網(wǎng)格,從而從300毫米的晶圓上,,切割下來一個最大的正方形來做芯片,。是的,有了臺積電的鼎力支持才會有這顆史上最大芯片,,同時也掀開了晶圓代工的新篇章,。
Cerebras用最大芯片給通用AI芯片設(shè)計提供了一個全新的思路,當材料和設(shè)備的物理極限難以突破時,,放大芯片的尺寸在大規(guī)模運算中不失為一種好方法,。不過,就算有可重構(gòu)的計算方法,,Cerebras WSE也僅僅是作為多種算法的兼容,,并不能讓基于一種數(shù)據(jù)經(jīng)過訓練后得到的模型同時適應多種應用場景,這還需要算法上面做攻關(guān),。
當然,,Cerebras WSE肯定不是完美的。首先第一個要解決的問題就是散熱問題,不管是芯片做高,,還是芯片做大,,散熱都是共同的難題;其次是生態(tài)問題,,打破常規(guī)的芯片就需要打破常規(guī)的系統(tǒng)和機器,;第三是算力分配問題,當年聯(lián)發(fā)科“一核有難,,多核圍觀”的窘境相信很多人都還記得,,40萬個內(nèi)核如何協(xié)調(diào)工作是個大問題;最后是時序問題,,如此巨大的芯片如何能夠做到信號傳輸不延遲,。
總結(jié)
誠然,我們對于Cerebras WSE的商用還有諸多疑問,,它的散熱,、生態(tài)、時序等等,。但是,,我們不得不說,這顆芯片是超越摩爾定律路線上濃墨重彩的一筆,,在AI大數(shù)據(jù)并行的應用場景中也獨具優(yōu)勢。我們期待有一個通用的AI芯片有朝一日能夠像CPU一樣通用,,搭載著更先進的算法跑在我們身邊的智能設(shè)備中,。
無論如何,Cerebras WSE都將成為世界芯片發(fā)展史上的一座里程碑,。