在芯片架構(gòu)設(shè)計(jì)領(lǐng)域中,可重構(gòu)計(jì)算技術(shù)并非一項(xiàng)新的存在,。20世紀(jì)60年代末,,加利福尼亞大學(xué)的Geraid Estrin首次提出重構(gòu)計(jì)算,后過去二十余年,,Xilinx才基于這一原型系統(tǒng)推出該技術(shù)的重要分支——FPGA架構(gòu),,正式開啟現(xiàn)代重構(gòu)計(jì)算技術(shù)。
即便如此,,由于此前芯片發(fā)展一直走在摩爾定律預(yù)設(shè)的方向上,,F(xiàn)PGA始終無法進(jìn)入公眾的視野中,而在學(xué)術(shù)研究領(lǐng)域,,它也一直只是芯片技術(shù)研究中少有人關(guān)注的冷門項(xiàng)目,。不曾想,在這一波AI浪潮的推動(dòng)下,,可重構(gòu)計(jì)算技術(shù)迅速從學(xué)術(shù)邊緣走向了主流,。
AI浪潮與芯片架構(gòu)創(chuàng)新
任何技術(shù)的興起都是市場需求,、技術(shù)迭代與產(chǎn)業(yè)發(fā)展合力推動(dòng)的結(jié)果,AI不例外,,芯片的變革更是如此,。
在算力需求持續(xù)增長的背景下,AI算法對(duì)芯片運(yùn)算能力的要求上升到傳統(tǒng)芯片的百倍以上,,想像一下,,采用了人工智能算法的AlphaGo需要用到上千塊傳統(tǒng)處理器(CPU)和上百塊圖形處理器(GPU)。類似,,傳統(tǒng)處理器根本無力支持智能家居,、自動(dòng)駕駛和智能終端等應(yīng)用場景的巨大算力需求,因此基于傳統(tǒng)CPU搭建出新的架構(gòu)就顯得迫在眉睫,,AI芯片也就此誕生,。
對(duì)于這一新興的芯片市場,摩根大通的分析師Harlan Sur曾公開表示,,到2022年為止,,AI芯片市場將以每年59%的成長速度增長,屆時(shí)市場規(guī)模有望達(dá)到330億美元,。
用迅猛之勢(shì)來形容AI芯片產(chǎn)業(yè)的發(fā)展毫不為過,,這一新興事物也打破了整個(gè)市場既有的產(chǎn)業(yè)形態(tài)。在新興芯片市場占據(jù)龍頭地位的英偉達(dá),,其CEO黃仁勛就多次在公開場合中表示:“摩爾定律時(shí)代已經(jīng)終結(jié),。”這也并非一家之言,,作為摩爾定律的提出者,,Intel也多次公開承認(rèn)這一點(diǎn)。
沒有摩爾定律的約束,,在接下來很長一段時(shí)間內(nèi),,芯片產(chǎn)業(yè)勢(shì)必將進(jìn)入自由生長狀態(tài),AI芯片產(chǎn)業(yè)呈現(xiàn)了前所未有的百花齊放,。但其實(shí)深入去看,,它卻也被有章法的推進(jìn)著。事實(shí)上,,最為明顯的就是,,伴隨著整個(gè)市場對(duì)功能的需求變化和終端的發(fā)展,GPU,、ASIC等主流芯片架構(gòu)技術(shù)正逐步有序得的迭代和擴(kuò)大自己的市場占比,。
目前,因市場對(duì)智能的實(shí)現(xiàn)尚處于初期,,AI中關(guān)鍵的應(yīng)用需求更偏向于訓(xùn)練端,,因而,,在訓(xùn)練市場中獨(dú)大的GPU成為芯片市場的主流架構(gòu)也就毫不奇怪。但真正的智能一定離不開邏輯推理部分,。自然,,作為這一功能實(shí)現(xiàn)的主力軍,ASIC和FPGA備受業(yè)內(nèi)關(guān)注,,其中,,熱度蹭蹭上漲的FPGA可以說是格外引入注目。
FPGA熱潮啟示錄
在AI并不火熱的時(shí)間段,,F(xiàn)PGA常年來被用作專用芯片(ASIC)的小批量替代品。因傳統(tǒng)計(jì)算機(jī)馮·諾依曼結(jié)構(gòu)的約束,,比CPU甚至GPU能效更高的FPGA一直未有用武之地,,直到神經(jīng)網(wǎng)絡(luò)算法的出現(xiàn)。
不得不說,,從初入商用市場到獨(dú)立成產(chǎn)品,,F(xiàn)PGA架構(gòu)技術(shù)似乎從未和AI算法分離開過,硬件上的節(jié)點(diǎn)與算法的神經(jīng)元結(jié)構(gòu)形成天然的呼應(yīng),,頗有天造地設(shè)的意味,。
如所料,F(xiàn)PGA最早一出現(xiàn)就伴隨著神經(jīng)網(wǎng)絡(luò)算法研究,,2011年,,Altera推出OpenCL,其中的CNN算法研究就是基于FPGA的,,這讓FPGA重回了人們的視野中,;后時(shí)隔三年,微軟推出Catapult項(xiàng)目,,開發(fā)了高吞吐CNN FPGA加速器,,將這種架構(gòu)更緊密的與神經(jīng)網(wǎng)絡(luò)算法實(shí)現(xiàn)綁在了一起;2015年,,陷入轉(zhuǎn)型焦慮的Intel直接選擇收購Altera,,這一舉動(dòng)后來甚至帶起了一波CPU+FPGA熱,但這一刻FPGA的魅力還沒有真正被展現(xiàn)出來,。直到一年后,,Intel終利用BP算法在FPGA上實(shí)現(xiàn)了5GOPS處理能力,這一架構(gòu)的優(yōu)勢(shì)終鋒芒初現(xiàn),。
一步一步,,伴隨著深度學(xué)習(xí)的應(yīng)用和滲透,F(xiàn)PGA架構(gòu)技術(shù)也越來越受各芯片廠商關(guān)注,,在多次大會(huì)的行業(yè)交流中,,多位芯片研發(fā)人員都指出:綜合考慮成本,、可行性等因素,在可見的未來里,,架構(gòu)創(chuàng)新是唯一算力提升解決方案,。而FPGA無疑為整個(gè)行業(yè)帶來架構(gòu)設(shè)計(jì)上的新思路。
第一次,,F(xiàn)PGA被用于產(chǎn)品端是在iPhone 7上,,蘋果集成了Lattice iCE40 FPGA,將其作為超低功耗的邏輯處理兼?zhèn)鞲衅鞑考?。從技術(shù)到產(chǎn)品端,,這一技術(shù)架構(gòu)只用了短短七年,而蘋果的成功嘗試也為這一技術(shù)架構(gòu)加分不少?,F(xiàn)在,,業(yè)內(nèi)人士也普遍將它列為舊有半導(dǎo)體甚至終端架構(gòu)的關(guān)鍵顛覆者,也因此,,F(xiàn)PGA這七年的持續(xù)熱度給出了整個(gè)行業(yè)的風(fēng)向標(biāo):半導(dǎo)體架構(gòu)進(jìn)入了新的征程,,尤其為AI芯片的設(shè)計(jì)提供了關(guān)鍵思路。
站在FPGA的肩膀上,,可重構(gòu)芯片誕生
對(duì)于AI芯片的優(yōu)勢(shì),,寒武紀(jì)陳天石曾這樣形象的描述道:“如果把深度學(xué)習(xí)看作切肉,傳統(tǒng)的處理器就是瑞士軍刀,,我們的專用神經(jīng)網(wǎng)絡(luò)處理器則相當(dāng)于菜刀,。瑞士軍刀通用性很好,什么都可以干,,但干得不快,,菜刀是專門用來做飯的,在切肉這件事情上,,效率當(dāng)然更高,。”
按理,,效率越高,,算力越高,芯片產(chǎn)業(yè)發(fā)展應(yīng)當(dāng)重回到此前活躍增長的階段,,但在近兩年整個(gè)產(chǎn)業(yè)卻出現(xiàn)了一種怪象:芯片產(chǎn)業(yè)進(jìn)入了一種低效的繁榮狀態(tài),,現(xiàn)有的AI產(chǎn)品的數(shù)量只有兩位數(shù),而單價(jià)幾乎不變,,尤其是AI終端產(chǎn)品,,產(chǎn)業(yè)利潤幾乎在個(gè)位數(shù)。在產(chǎn)業(yè)鏈端,,產(chǎn)品開發(fā)費(fèi)用,、產(chǎn)品難度都在持續(xù)上升,,在市場空間有限的條件下,產(chǎn)品的盈利空間直線下降,。
事實(shí)上,,僅僅融合FPGA架構(gòu)設(shè)計(jì)的高效對(duì)整個(gè)產(chǎn)業(yè)的發(fā)展來說是依然不夠的,菜刀終究還是菜刀,,AI芯片的應(yīng)用場景和變現(xiàn)能力實(shí)在十分有限,。對(duì)此,清華大學(xué)微電子所所長魏少軍就直接點(diǎn)出:“要想讓AI芯片能夠在使用中變得更‘聰明’,,架構(gòu)創(chuàng)新就是它不可回避的課題,。”
產(chǎn)業(yè)端,,為了打破這一現(xiàn)狀,,地平線、寒武紀(jì),、Arm等眾多新老玩家紛紛給出了各自的平臺(tái)性商用解決方案,但終不是長久之計(jì),。對(duì)此,,業(yè)內(nèi)的共同認(rèn)知是:若想釜底抽薪,設(shè)計(jì)出一款動(dòng)態(tài)可重構(gòu)的并行計(jì)算芯片,,以實(shí)現(xiàn)一塊芯片可以跑多種算法,,節(jié)省資源,大大提高通用性,,極大程度上促進(jìn)整個(gè)產(chǎn)業(yè)的發(fā)展,。
所幸,在國內(nèi),,目前尚有兩款芯片代表:一款是清華大學(xué)的Thinker可重構(gòu)AI芯片,,它獲得了2017年國際低功耗電子與設(shè)計(jì)會(huì)議設(shè)計(jì)競賽獎(jiǎng),這是一款由65nm工藝制成的芯片,,不過其峰值性能能夠達(dá)到410GOPS,,能效達(dá)5TOPS/W。第二款是南京大學(xué)RAPS可重構(gòu)芯片,,它由40nm工藝制成,,可以實(shí)現(xiàn)25種與信號(hào)處理有關(guān)的算法,峰值性能69GFLOPS,,能效達(dá)到32GFOPS/W,。與TMS320C6672多核DSP比較,性能能夠提高一個(gè)數(shù)量級(jí),。
值得一提的是,,兩款芯片制程一般,,工藝泛泛,卻收獲如此高效的性能,,架構(gòu)創(chuàng)新的四兩撥千斤功效可見一斑,。
最后
縱觀第三波AI浪潮下的半導(dǎo)體產(chǎn)業(yè),有兩個(gè)現(xiàn)象級(jí)事件奠定了當(dāng)下芯片產(chǎn)業(yè)的基調(diào):曾經(jīng)逃離半導(dǎo)體行業(yè)的風(fēng)投又紛紛重新回到了半導(dǎo)體行業(yè),;歷來觀潮的中國,,現(xiàn)在成了弄潮兒。
不言而喻,,這兩大趨勢(shì)撞在一起發(fā)生的化學(xué)效應(yīng)率先打破了整個(gè)半導(dǎo)體行業(yè)既有的產(chǎn)業(yè)形態(tài),。但不可忽視的是,作為工業(yè)的糧食,,芯片架構(gòu)創(chuàng)新帶動(dòng)的產(chǎn)業(yè)活力才將成為推動(dòng)第三波AI浪潮持久發(fā)展的動(dòng)力,。
如許衍居院士所言:未來10年,整個(gè)半導(dǎo)體產(chǎn)業(yè)將會(huì)從cSoC時(shí)代走向rSoC時(shí)代,。但是可重構(gòu)芯片發(fā)展還需要突破眾多難關(guān),,如基于可重構(gòu)計(jì)算搭建的硬件平臺(tái)是需要搭建一個(gè)統(tǒng)一的標(biāo)準(zhǔn)平臺(tái)還是僅僅只開發(fā)一個(gè)通用的編程模型?采用雙編程如何劃分軟硬件任務(wù)并處理好之間的通信問題,?這些問題依舊是纏繞在可重構(gòu)芯片發(fā)展之路上的藤蔓,,披荊斬棘,路且漫長,。