雖然英特爾(Intel),、NVIDIA等芯片大廠近期在人工智能(AI)、神經(jīng)網(wǎng)絡(luò)(NN),、深度學(xué)習(xí)(Deep Learning)等領(lǐng)域動作頻頻,,但半導(dǎo)體領(lǐng)域的其他業(yè)者也沒閑著,,而且其產(chǎn)品發(fā)展策略頗有以鄉(xiāng)村包圍城市的味道。 益華計算機(Cadence)旗下的CPU/DSP處理器核心授權(quán)公司Tensilica,,近期便發(fā)表針對神經(jīng)網(wǎng)絡(luò)算法設(shè)計的C5 DSP核心授權(quán)方案,。 在16奈米制程條件下,該核心所占用的芯片面積約僅1平方公厘,,卻可提供達到1TMAC的運算效能,,而且功耗遠比CPU、GPU等處理器更低,,適合各種嵌入式運算裝置使用,。
Cadence Tensilica營銷資深事業(yè)群總監(jiān)Steve Roddy表示,神經(jīng)網(wǎng)絡(luò)技術(shù)正以飛快的速度演進,。 根據(jù)該公司所收集的數(shù)據(jù)顯示,,在2012~2015年間,每幾個月就有新的神經(jīng)網(wǎng)絡(luò)算法問世,且復(fù)雜度均比先前的算法明顯增加,。 在短短3年內(nèi),,神經(jīng)網(wǎng)絡(luò)算法的復(fù)雜度已增加16倍,遠超過摩爾定律的發(fā)展速度,。
也由于神經(jīng)網(wǎng)絡(luò)算法演進的速度比半導(dǎo)體技術(shù)進步的速度還快,,因此神經(jīng)網(wǎng)絡(luò)算法的開發(fā)者只能用內(nèi)建更多處理器核心的硬件來執(zhí)行新的算法。 但這種作法只能在云端數(shù)據(jù)中心行得通,,無法適用于功耗,、體積與成本均受到嚴格限制的嵌入式裝置。
另一方面,,目前神經(jīng)網(wǎng)絡(luò)算法大多在通用型CPU,、GPU芯片上執(zhí)行,也是一種遷就于現(xiàn)實的結(jié)果,。 CPU,、GPU是已經(jīng)大量生產(chǎn)的芯片,取得容易且成本遠比自己打造ASIC來得低,,而且對算法開發(fā)者來說,,CPU跟GPU提供很好的編程環(huán)境與應(yīng)用設(shè)計靈活性,這也是ASIC所比不上的,。
事實上,,Tensilica也認為,利用硬件加速器這類ASIC來執(zhí)行神經(jīng)網(wǎng)絡(luò)算法,,絕對是一條行不通的路,。 因為ASIC設(shè)計通常需要數(shù)個月到1年時間,至于芯片要大量生產(chǎn),,應(yīng)用在終端產(chǎn)品上,,更常已是2~3年后的事。 在神經(jīng)網(wǎng)絡(luò)發(fā)展日新月異的情況下,,除非芯片設(shè)計者擁有未卜先知的能力,,精準預(yù)測出3年后神經(jīng)網(wǎng)絡(luò)算法會發(fā)展到何種地步,否則芯片開發(fā)者的產(chǎn)品可能還沒上市就已經(jīng)過時了,。
除了產(chǎn)品開發(fā)時程的問題,,單純從技術(shù)層面來看,用硬件加速器與通用處理器共同執(zhí)行神經(jīng)網(wǎng)絡(luò)算法,,也是問題重重,。 由于神經(jīng)網(wǎng)絡(luò)會牽涉到大量數(shù)據(jù)傳輸,若要將運算工作切割開來,,用兩顆芯片共同執(zhí)行,,則兩顆芯片間光是數(shù)據(jù)傳輸,,便很可能會占用掉一大半處理器資源,并帶來可觀的功耗量,。
因此,,如果有一種針對神經(jīng)網(wǎng)絡(luò)算法優(yōu)化的處理器核心,既能兼顧應(yīng)用設(shè)計靈活性,,又比通用型CPU,、GPU有更高的算法執(zhí)行效率,對于神經(jīng)網(wǎng)絡(luò)的普及應(yīng)用,,將是一大加分,。 這也是Tensilica決定推出專為神經(jīng)網(wǎng)絡(luò)算法設(shè)計的C5數(shù)字信號處理器(DSP)核心的原因。
C5 DSP核心在16奈米制程條件下所占用的芯片面積為1平方公厘,,能提供達1TMAC的乘法器效能給神經(jīng)網(wǎng)絡(luò)算法使用,。 若應(yīng)用需要更高的乘法器效能,C5 DSP也允許SoC設(shè)計者采取多核心架構(gòu),。 而且,,因為C5 DSP是針對神經(jīng)網(wǎng)絡(luò)運算優(yōu)化的核心,因此功耗極低,,不會像CPU或GPU,,芯片功耗動輒數(shù)十瓦以上,甚至上百瓦,,一般的嵌入式裝置也能輕松采用,。
Roddy透露,雖然C5 DSP核心才剛正式發(fā)布不久,,但早已有先導(dǎo)客戶正在利用C5 DSP核心開發(fā)下一代支持神經(jīng)網(wǎng)絡(luò)算法的SoC,。 據(jù)其預(yù)估,,最早在2017年第3季,,第一顆內(nèi)建C5 DSP核心的SoC產(chǎn)品就會Tape Out。