從2022年11月開始,,美國(guó)人工智能(AI)公司OpenAI連續(xù)祭出ChatGPT家族的3,、3.5、4以及插件還有商業(yè)落地模式的連環(huán)大招,,引爆了全球關(guān)注和期待AI應(yīng)用發(fā)展的新一輪熱潮,。而在此之前,AI發(fā)展歷程中已出現(xiàn)過兩次“圣杯時(shí)刻”,。
2012年10月,,在國(guó)際頂級(jí)賽事ImageNet計(jì)算機(jī)視覺挑戰(zhàn)賽上,杰弗里·辛頓與其團(tuán)隊(duì)用卷積神經(jīng)網(wǎng)絡(luò)(CNN)算法一舉奪魁,,憑借比人眼識(shí)別還低的錯(cuò)誤率,,掀開了計(jì)算機(jī)視覺盛世的序章。
2016年3月,,DeepMind研發(fā)的AI程序AlphaGo戰(zhàn)勝世界圍棋冠軍李世石,,在全世界擲下一枚重磅炸彈?!叭斯ぶ悄堋睆拇顺鋈?,創(chuàng)業(yè)狂瀾席卷全球,2016年也被稱作“人工智能元年”,。
兩次“圣杯時(shí)刻”背后的算力功臣,分別是英偉達(dá)GPGPU(通用圖形處理單元)芯片與谷歌TPU(張量處理單元)芯片,。他們也成為業(yè)界AI大算力芯片企業(yè)競(jìng)相模仿和追趕的對(duì)象,。
如今,ChatGPT的橫空出世宣告著AI行業(yè)迎來(lái)第三次“圣杯時(shí)刻”,業(yè)界也將其盛贊為AI時(shí)代的“iPhone時(shí)刻”,。盡管ChatGPT及一眾主流大模型背后的芯片主力仍是GPGPU,,但嚴(yán)峻的挑戰(zhàn)已經(jīng)擺到眼前:一邊是計(jì)算量爆棚的生成式AI與大模型發(fā)展熱情高漲,另一邊是即將觸頂?shù)乃懔υ鲩L(zhǎng)空間與算力消耗所帶來(lái)的驚人碳排放量,。
正如馬斯克所述,,大多數(shù)人會(huì)用舉一反三的類比推理來(lái)思考問題,即模仿別人做的事情再加以小幅更改,,可如果想做出新的東西,,必須敢于打破常規(guī)、積極質(zhì)疑舊的經(jīng)驗(yàn)知識(shí),,探究問題本質(zhì),,層層推演,進(jìn)而創(chuàng)造出新的解決方案,。
中國(guó)AI大算力芯片的創(chuàng)新之路,,大抵亦是如此。
當(dāng)ASIC,、GPGPU發(fā)展道路面臨底層技術(shù)與產(chǎn)業(yè)需求的雙向夾擊,,“換道”也許能開辟新的可能。誰(shuí)能率先填補(bǔ)大模型算力需求的缺口,,誰(shuí)就有機(jī)會(huì)搶占新一輪AI芯片搶位賽的前排,。
01.
國(guó)產(chǎn)AI大算力芯片的
三波創(chuàng)業(yè)浪潮與三大技術(shù)流派
ChatGPT引起的算力焦慮,已經(jīng)將提高能效比與算力利用率的迫切性推到臺(tái)前,。
在產(chǎn)業(yè)前景,、戰(zhàn)略重要性、自主可控等多重因素驅(qū)動(dòng)下,,一批批中國(guó)AI芯片企業(yè)立足于不同的技術(shù)路徑,,前赴后繼地進(jìn)入AI大算力芯片領(lǐng)域,并形成群雄逐鹿的三大技術(shù)流派,。
第一波浪潮是基于ASIC架構(gòu),,也可以劃定為中國(guó)AI大算力芯片落地的技術(shù)1.0。
這可追溯至2015年-2016年,,并稱“天寒地鑒”的AI芯片四小龍?jiān)铺靹?lì)飛,、寒武紀(jì)、地平線,、深鑒科技,,都是在此期間啟動(dòng)AI芯片研發(fā)。其中唯一的FPGA代表玩家深鑒科技于2018年被美國(guó)FPGA龍頭賽靈思收購(gòu),。寒武紀(jì)和地平線分別是領(lǐng)跑云端和自動(dòng)駕駛國(guó)產(chǎn)大算力芯片落地的企業(yè),,都選擇做ASIC(專用芯片),。
2016年5月,谷歌揭曉AlphaGo背后的功臣TPU,,吹響了產(chǎn)業(yè)沿襲ASIC路線的號(hào)角,。此后多家創(chuàng)企以及華為、亞馬遜等云計(jì)算大廠均選擇在ASIC芯片賽道安營(yíng)扎寨,。上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系教授梁曉峣告訴智東西,,在算法較固定的情況下,專用芯片的性能和功耗優(yōu)勢(shì)明顯,,能夠滿足企業(yè)對(duì)極致算力和能效的追求,。
然而,下游AI算法的演進(jìn)速度遠(yuǎn)超想象,。根據(jù)頂級(jí)AI研究企業(yè)OpenAI在2018年發(fā)布的一份分析報(bào)告,,自2012年到2017年,訓(xùn)練最大AI模型所使用的算力每3.4個(gè)月翻1倍,。相比之下,,按照芯片行業(yè)的“圭臬”摩爾定律,芯片上容納的晶體管數(shù)量每18~24個(gè)月才會(huì)翻1倍,,兩者之間僅從翻倍的時(shí)間上,,就產(chǎn)生了16-20個(gè)月的差距。
專用芯片在特定場(chǎng)景能實(shí)現(xiàn)更高算力和能效,,但難以適應(yīng)算法種類快速的增加以及迭代速度,,因此通用性更強(qiáng)的GPGPU一直是AI芯片的主角。在2018年中美科技競(jìng)爭(zhēng)大幕拉開后,,國(guó)產(chǎn)替代的呼聲越來(lái)越高,,創(chuàng)業(yè)熱點(diǎn)隨之切換到英偉達(dá)雄踞多年的GPGPU(通用GPU)賽道。
這成為第二波浪潮中主流技術(shù)路徑,,也可以劃定為中國(guó)AI大算力芯片落地的技術(shù)2.0,。天數(shù)智芯、登臨科技,、壁仞科技,、摩爾線程、沐曦集成電路等一批初創(chuàng)公司,,大致都是2017年-2020年期間創(chuàng)業(yè)或啟動(dòng)自研GPGPU芯片的研發(fā),。
資本也蜂擁而至,邏輯很簡(jiǎn)單,,GPGPU市場(chǎng)有英偉達(dá)珠玉在前,,已經(jīng)驗(yàn)證了成功的可能性。以英偉達(dá)上百億美元年收入與躋身全球前十的市值來(lái)看,,假若能切走英偉達(dá)在中國(guó)的市場(chǎng)份額,,足以帶給國(guó)產(chǎn)AI大算力芯片企業(yè)優(yōu)渥的回報(bào),。
但無(wú)論是ASIC還是GPGPU,在應(yīng)對(duì)生成式AI及大模型正對(duì)算力基礎(chǔ)設(shè)施提出的新要求,,都顯得多少有些捉襟見肘。
眼見著摩爾定律身陷邊際效用遞減的困境,,ASIC芯片的弱通用性難以應(yīng)對(duì)下游算法的快速演化,,GPGPU又難解高功耗與低算力利用率問題,業(yè)界正翹首以盼新架構(gòu),、新工藝,、新材料、新封裝,,以進(jìn)一步突破算力天花板,。
與此同時(shí),博弈氣息日漸濃厚的地緣關(guān)系,,又給對(duì)先進(jìn)制程工藝高度依賴的AI大算力芯片創(chuàng)企們提出了技術(shù)之外的新難題,。
在這些大背景下,第三波創(chuàng)業(yè)浪潮正滾滾向前,。從2017年到2021年期間集中成立的一批創(chuàng)企,,選擇探路存算一體等新興技術(shù),這可以被劃定為中國(guó)AI大算力芯片落地的技術(shù)3.0,。
不同于ASIC與GPGPU,,這些新興技術(shù)路線跳出了馮·諾依曼架構(gòu)體系,理論上擁有得天獨(dú)厚的高能效比優(yōu)勢(shì),,又能繞過先進(jìn)制程封鎖,,兼顧更強(qiáng)通用性與更高性價(jià)比,算力發(fā)展空間巨大,。隨著新型存儲(chǔ)器件走向量產(chǎn),,存算一體AI芯片已經(jīng)挺進(jìn)AI大算力芯片落地競(jìng)賽。
而無(wú)論是傳統(tǒng)計(jì)算芯片還是存算一體芯片,,在實(shí)際加速AI計(jì)算時(shí)往往還需處理大量的邏輯計(jì)算,、視頻編解碼等非AI加速計(jì)算領(lǐng)域的計(jì)算任務(wù)。隨著多模態(tài)成為大模型時(shí)代的大勢(shì)所趨,,AI芯片未來(lái)需處理文本,、語(yǔ)音、圖像,、視頻等多類數(shù)據(jù),。
這個(gè)問題如何解決??jī)|鑄科技,,一家做存算一體AI大算力芯片的創(chuàng)企提出了自己的解法——存算一體超異構(gòu)AI大算力技術(shù)路徑,。這也是業(yè)內(nèi)首次提出將存算一體和超異構(gòu)做結(jié)合,,提供在大模型時(shí)代AI大算力芯片換道發(fā)展的一個(gè)全新思路。
02.
兼顧通用性&高性能
未來(lái)必然走向超異構(gòu)
生成式AI和大模型時(shí)代向算力基礎(chǔ)設(shè)施提出的核心要求,,可以簡(jiǎn)單概括為幾個(gè)詞:提高單芯片算力,,突破算力利用率,實(shí)現(xiàn)更高能效比,。
上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系教授,、博導(dǎo)梁曉峣及其團(tuán)隊(duì)是開源GPGPU平臺(tái)“青花瓷”的發(fā)起者。他談道,,當(dāng)下需從系統(tǒng)的角度來(lái)思考問題,。首先在單芯片算力方面,他非??春么嫠阋惑w,,認(rèn)為通過引入新型存儲(chǔ)器件工藝,存算一體AI芯片有望將單芯片算力提高1~2個(gè)數(shù)量級(jí),。
但單顆芯片很難為大模型提供充足的計(jì)算資源與存儲(chǔ)資源,,這就需要將很多計(jì)算芯片連在一起,形成系統(tǒng),。據(jù)韓媒報(bào)道,,受ChatGPT熱潮驅(qū)動(dòng),韓國(guó)兩大存儲(chǔ)芯片巨頭三星電子,、SK海力士的高帶寬內(nèi)存(HBM)接單量大增,。
芯片與芯片之間的數(shù)據(jù)傳輸過程,往往會(huì)造成大量不必要的資源浪費(fèi),,導(dǎo)致計(jì)算系統(tǒng)受限于傳輸帶寬瓶頸,,在實(shí)際應(yīng)用中發(fā)揮的算力遠(yuǎn)小于理論峰值算力。要進(jìn)一步提升計(jì)算資源利用率,,必須研究更先進(jìn)的互連技術(shù),,以實(shí)現(xiàn)成千上萬(wàn)個(gè)AI芯片之間的高效協(xié)同。
最后,,軟件的迭代升級(jí)亦不可或缺,。要降低芯片開發(fā)門檻并實(shí)現(xiàn)所有芯片的高效協(xié)同,需要設(shè)計(jì)分布式的AI編程軟件平臺(tái),,來(lái)解決線程調(diào)度,、同步、任務(wù)平衡等復(fù)雜問題,。
“沒有一個(gè)單芯片能夠獨(dú)立解決大模型問題,,所以一定是走向一個(gè)超異構(gòu)。”梁曉峣說(shuō),,盡管他很看好存算一體路線,,但僅靠存算一體還不夠,,還需與其他架構(gòu)配合,形成一個(gè)完整的系統(tǒng),。
億鑄科技首次提出的“存算一體超異構(gòu)”概念,,就有可能是一個(gè)未來(lái)的理想組合。
超異構(gòu)計(jì)算將CPU,、GPGPU,、CIM(存內(nèi)計(jì)算)等不同類型的芯片用先進(jìn)封裝技術(shù)組合,讓不同架構(gòu)各司其職,,既有靈活、可編程的部分來(lái)適應(yīng)算法的快速變化,,又有定制化部分來(lái)提供超高性能和超低功耗,,通過統(tǒng)籌調(diào)度,綜合發(fā)揮出多類芯片架構(gòu)的優(yōu)勢(shì),,將整體效率做到最優(yōu),。
由于器件優(yōu)勢(shì),存算一體在同等功耗下能承擔(dān)更大算力,。在超異構(gòu)計(jì)算的基礎(chǔ)上,,以存算一體架構(gòu)為核心,以其他架構(gòu)作輔助,,理論上能夠兼顧對(duì)高算力與通用性的需求,。億鑄科技創(chuàng)始人、董事長(zhǎng)兼CEO熊大鵬博士相信,,存算一體超異構(gòu)將來(lái)會(huì)成為AI算力芯片的主流技術(shù)路線之一,。
在今年2月份舉行的國(guó)際芯片設(shè)計(jì)領(lǐng)域最高級(jí)別會(huì)議ISSCC 2023大會(huì)上,AMD董事長(zhǎng)兼CEO蘇姿豐也提出了相似的“系統(tǒng)級(jí)創(chuàng)新”概念,,即綜合考慮跨計(jì)算,、跨通信、跨內(nèi)存等各項(xiàng)元素,,從整體上推動(dòng)系統(tǒng)級(jí)性能和能效的提升,。
而存算一體超異構(gòu)理念的前瞻性和落地可行性在于,它不像基于傳統(tǒng)計(jì)算架構(gòu)的大算力芯片那樣依賴先進(jìn)制造技術(shù),。這一思路需結(jié)合的新架構(gòu),、新存儲(chǔ)、新封裝等前沿技術(shù),,國(guó)內(nèi)均已有儲(chǔ)備,。
03.
減輕先進(jìn)制程依賴癥,億鑄科技的
存算一體超異構(gòu)如何換道超車,?
據(jù)悉,,存算一體超異構(gòu)主要運(yùn)用到新型憶阻器(RRAM),、存算一體架構(gòu)、Chiplet(芯粒),、3D封裝等技術(shù),,而國(guó)內(nèi)企業(yè)在這些技術(shù)路線上已經(jīng)有越來(lái)越多的起色。
Chiplet及先進(jìn)封裝方案能夠彌補(bǔ)先進(jìn)制程落后的劣勢(shì),,通過將來(lái)自不同生產(chǎn)廠商,、不同制程工藝的芯片組件“混搭”,降低實(shí)現(xiàn)目標(biāo)性能所需的成本,。這為國(guó)內(nèi)芯片企業(yè)提供彎道超車的機(jī)會(huì),。
目前,國(guó)內(nèi)封測(cè)巨頭相關(guān)技術(shù)積累已初顯成效,。例如長(zhǎng)電科技的XDFOI Chiplet高密度多維異構(gòu)集成系列工藝已進(jìn)入穩(wěn)定量產(chǎn)階段,;通富微電與AMD密切合作,已大規(guī)模生產(chǎn)7nm Chiplet產(chǎn)品,;華天科技的Chiplet系列工藝也實(shí)現(xiàn)量產(chǎn),。
從單芯片來(lái)看,熊大鵬告訴智東西,,存算一體芯片屬于是“換道超車”,,對(duì)工藝的要求較低,比如在28nm工藝上實(shí)現(xiàn)的算力和能效,,就能比肩甚至超過傳統(tǒng)架構(gòu)芯片在7nm工藝上的表現(xiàn),。
梁曉峣說(shuō),億鑄科技是第一家嘗試設(shè)計(jì)并量產(chǎn)基于ReRAM全數(shù)字存算一體AI大算力芯片的企業(yè),。據(jù)熊大鵬透露,,億鑄科技自研的存算一體AI大算力芯片,或?qū)⒃?5W-100W功耗范圍內(nèi)實(shí)現(xiàn)接近1P的算力,,能效比優(yōu)勢(shì)非常顯著,,將于今年回片。同時(shí),,億鑄科技基于存算一體超異構(gòu)概念的下一代芯片設(shè)計(jì)工作已經(jīng)開始推進(jìn),。
從器件來(lái)看,相比傳統(tǒng)存儲(chǔ)器存在易失性,、微縮性差等痼疾,,億鑄科技選擇采用的非易失性新型存儲(chǔ)器RRAM更適合應(yīng)用于AI大算力場(chǎng)景。
此前,,臺(tái)積電,、聯(lián)電、中芯國(guó)際、昕原半導(dǎo)體等代工廠均建立了商業(yè)化RRAM產(chǎn)線,。去年2月,,昕原半導(dǎo)體主導(dǎo)建設(shè)的RRAM 12寸中試生產(chǎn)線已順利完成自主研發(fā)裝備的裝機(jī)驗(yàn)收工作,實(shí)現(xiàn)中試線工藝流程的通線,,并成功流片,。
熊大鵬認(rèn)為,隨著工藝不斷迭代,,國(guó)內(nèi)“超車”速度會(huì)越來(lái)越快,,優(yōu)勢(shì)會(huì)越來(lái)越明顯。
從超異構(gòu)來(lái)看,,對(duì)于國(guó)內(nèi)企業(yè)來(lái)說(shuō),,CPU有廣受歡迎的開源RISC-V架構(gòu),GPGPU有新興的開源架構(gòu)“青花瓷”平臺(tái),,存算一體也有億鑄科技等廠商在大力投入研發(fā),。
開源GPGPU“青花瓷”平臺(tái)由上海交通大學(xué)先進(jìn)計(jì)算機(jī)體系結(jié)構(gòu)實(shí)驗(yàn)室開發(fā),定位相當(dāng)于GPGPU領(lǐng)域的RISC-V架構(gòu),。它提供了一個(gè)免費(fèi)開放的先進(jìn)GPGPU指令集和架構(gòu)參考設(shè)計(jì),能夠接入現(xiàn)有GPGPU生態(tài),,從而助力降低設(shè)計(jì)門檻,,加速相應(yīng)產(chǎn)品的落地。
“青花瓷”平臺(tái)直通門:gpgpuarch.org
開源地址:github.com/SJTU-ACA-Lab/blue-porcelain
在梁曉峣看來(lái),,超異構(gòu)需要不同類型的芯片架構(gòu)互相配合,、取長(zhǎng)補(bǔ)短,這恰好與“青花瓷”平臺(tái)的設(shè)計(jì)思路完美契合,。
存算一體架構(gòu)適用于計(jì)算和數(shù)據(jù)量大但算法相對(duì)簡(jiǎn)單的應(yīng)用,,在性能和功耗的優(yōu)勢(shì)超過其他類型架構(gòu);而GPGPU架構(gòu)可以適配現(xiàn)有的主流AI框架和平臺(tái),,并能處理比較復(fù)雜的算法,。兩者結(jié)合,將會(huì)實(shí)現(xiàn)更大有效算力,、放置更多參數(shù),、實(shí)現(xiàn)更高能效比、更好的軟件兼容性,。
因此,,面向未來(lái)大模型時(shí)代,存算一體超異構(gòu)的技術(shù)路徑打開了國(guó)內(nèi)AI大算力芯片技術(shù)發(fā)展的新思路,,而億鑄科技的存算一體超異構(gòu)芯片是該路徑在國(guó)內(nèi)切實(shí)落地的關(guān)鍵一步,。
04.
結(jié)語(yǔ):大模型落地勢(shì)不可擋
AI算力困境亟待換道突破
正如蘇姿豐所言,AI已是未來(lái)十年最重要的事。
在生成式AI風(fēng)暴的催化下,,大模型正發(fā)展成AI基礎(chǔ)研究和產(chǎn)業(yè)化落地的一大趨勢(shì),。這對(duì)三波創(chuàng)業(yè)浪潮中的一眾AI大算力芯片創(chuàng)業(yè)公司提出了摩爾定律瀕臨極限之外更大的技術(shù)挑戰(zhàn):如何以更低的系統(tǒng)成本、更少的能源消耗,,支撐起龐大且持續(xù)增加的參數(shù)量所帶動(dòng)的更高算力需求,?
在美國(guó)對(duì)華屢屢架設(shè)芯片藩籬的背景之下,國(guó)內(nèi)短期內(nèi)難以實(shí)現(xiàn)先進(jìn)制程的自主可控,?;赝袊?guó)AI大算力芯片發(fā)展歷程,業(yè)界一直用“彎道超車”來(lái)寄予對(duì)其發(fā)展路徑的期待,,但彎道超車隱喻著產(chǎn)品和技術(shù)的發(fā)展和行業(yè)頭部企業(yè)在同一賽道上做跟隨和追及,,這勢(shì)必對(duì)后來(lái)者在速度上和超車節(jié)點(diǎn)的把握上提出了更高的要求。
骨感的現(xiàn)實(shí)告訴我們,,中國(guó)AI大算力芯片在“彎道超車”路徑下,,也許還有很長(zhǎng)的路要追趕。而“換道”可能加速縮短與國(guó)際先進(jìn)水平的差距,。同時(shí),,換道發(fā)展也不是無(wú)本之木,其芯片設(shè)計(jì)和量產(chǎn)有著嚴(yán)謹(jǐn)?shù)牡讓舆壿嫼统墒斓漠a(chǎn)業(yè)鏈配套作為支撐,。億鑄科技的存算一體超異構(gòu)AI大算力芯片技術(shù),,便提供了一種能夠適應(yīng)未來(lái)算法快速變化、滿足算力可持續(xù)發(fā)展需求的可行思路,。
中國(guó)AI大算力芯片企業(yè)面臨的挑戰(zhàn)依然險(xiǎn)峻,,但不管是落地技術(shù)的1.0、2.0還是3.0,,不管是同道追及還是換道前行,,所有的努力都是為了支撐中國(guó)AI產(chǎn)業(yè)的高速發(fā)展,只要能切實(shí)解決問題,,提供有價(jià)值的產(chǎn)品,,都值得關(guān)注和期待。沉舟側(cè)畔千帆過,,病樹前頭萬(wàn)木春,,希望看到更多像億鑄科技這樣的機(jī)構(gòu),大步流星地走到換道前行的賽道上,,為破解國(guó)內(nèi)AI大算力困局探尋屬于中國(guó)AI芯片產(chǎn)業(yè)自己的發(fā)展道路,。
作者 | ZeR0
編輯 | 漠影
更多精彩內(nèi)容歡迎點(diǎn)擊==>>電子技術(shù)應(yīng)用-AET<<