Cadence發(fā)業(yè)界首款獨(dú)立完整神經(jīng)網(wǎng)絡(luò)DSP核
2017-05-04
來(lái)源:電子技術(shù)應(yīng)用
2017年5月4日,,中國(guó)上?!请娮樱绹?guó)Cadence公司,NASDAQ: CDNS)今日正式公布業(yè)界首款獨(dú)立完整的神經(jīng)網(wǎng)絡(luò)DSP —Cadence? Tensilica? Vision C5 DSP,,面向?qū)ι窠?jīng)網(wǎng)絡(luò)計(jì)算能力有極高要求的視覺(jué)設(shè)備,、雷達(dá)/光學(xué)雷達(dá)和融合傳感器等應(yīng)用量身優(yōu)化。針對(duì)車(chē)載,、監(jiān)控安防,、無(wú)人機(jī)和移動(dòng)/可穿戴設(shè)備應(yīng)用,Vision C5 DSP 1TMAC/s的計(jì)算能力完全能夠勝任所有神經(jīng)網(wǎng)絡(luò)的計(jì)算任務(wù),。如需了解更多內(nèi)容,。
新聞要點(diǎn):
完整獨(dú)立的DSP核心,全面支持各級(jí)神經(jīng)網(wǎng)絡(luò)層
芯片面積不到1mm2,,計(jì)算速度可達(dá)每秒1 TeraMAC (TMAC)
通用的可編程解決方案,,為未來(lái)而生,滿(mǎn)足不斷演進(jìn)的技術(shù)需求
為視覺(jué)設(shè)備,、雷達(dá)/光學(xué)雷達(dá)和融合傳感器應(yīng)用度身優(yōu)化
隨著神經(jīng)網(wǎng)絡(luò)應(yīng)用的日益深入和復(fù)雜,,對(duì)計(jì)算的要求也與日俱增;同時(shí),,神經(jīng)網(wǎng)絡(luò)的自身架構(gòu)在不斷更新?lián)Q代,,新網(wǎng)絡(luò)、新應(yīng)用和新市場(chǎng)也層出不窮,。上述趨勢(shì)之下,,業(yè)界亟需一款針對(duì)嵌入式系統(tǒng)量身定制的高性能、通用型神經(jīng)網(wǎng)絡(luò)解決方案,,不僅應(yīng)該具備極低的功耗,,還應(yīng)擁有高度的可編程能力,以適應(yīng)未來(lái)變化,,降低風(fēng)險(xiǎn),。
神經(jīng)網(wǎng)絡(luò)DSP vs. 神經(jīng)網(wǎng)絡(luò)加速器
基于攝像頭的視覺(jué)系統(tǒng)在汽車(chē)、無(wú)人機(jī)和安防領(lǐng)域最為常見(jiàn),,這種架構(gòu)需要兩種最基礎(chǔ)的視覺(jué)優(yōu)化計(jì)算模式,。首先,利用傳統(tǒng)視覺(jué)算法對(duì)攝像頭捕捉到的照片或圖像進(jìn)行增強(qiáng),;其次,,使用基于神經(jīng)網(wǎng)絡(luò)的認(rèn)知算法對(duì)物體進(jìn)行檢測(cè)和識(shí)別?,F(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器解決方案皆依賴(lài)與圖像DSP連接的硬件加速器;神經(jīng)網(wǎng)絡(luò)代碼被分為兩部分,,一部分網(wǎng)絡(luò)層運(yùn)行在DSP上,,卷積層則運(yùn)行在硬件加速器上。這種架構(gòu)不但效率低下,,且耗能較高,。
Vision C5 DSP是專(zhuān)門(mén)針對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行了特定優(yōu)化的DSP,可以實(shí)現(xiàn)全神經(jīng)網(wǎng)絡(luò)層的計(jì)算加速(卷積層,、全連接層,、池化層和歸一化層),而不僅僅是卷積層的加速,。因此,,主視覺(jué)/圖像DSP能力得以釋放,獨(dú)立運(yùn)行圖像增強(qiáng)應(yīng)用,,Vision C5 DSP則負(fù)責(zé)執(zhí)行神經(jīng)網(wǎng)絡(luò)任務(wù)。通過(guò)移除神經(jīng)網(wǎng)絡(luò)DSP和主視覺(jué)/圖像DSP之間的冗余數(shù)據(jù)傳輸,,Vision C5 DSP的功耗遠(yuǎn)低于現(xiàn)有的神經(jīng)網(wǎng)絡(luò)加速器,。同時(shí),Vision C5 DSP還提供針對(duì)神經(jīng)網(wǎng)絡(luò)的單核編程模型,。
“我們的很多客戶(hù)都在糾結(jié)如何選擇理想的神經(jīng)網(wǎng)絡(luò)平臺(tái),,畢竟一款產(chǎn)品的開(kāi)發(fā)可能耗時(shí)數(shù)年,”Cadence公司Tensilica事業(yè)部市場(chǎng)高級(jí)總監(jiān)Steve Roddy表示,?!半S時(shí)在線(xiàn)(always-on)嵌入式系統(tǒng)的神經(jīng)網(wǎng)絡(luò)處理器不僅需要低功耗和較快的圖像處理速度,靈活性和永不過(guò)時(shí)(future-proof)的前瞻性也必不可少,。目前的平臺(tái)都不夠理想,,客戶(hù)亟需一個(gè)全新的解決方案。Vision C5 DSP通用型神經(jīng)網(wǎng)絡(luò)DSP應(yīng)運(yùn)而生,,它集成方便,、使用靈活,功耗能效較CNN加速器,、GPU和CPU也更為出色,。”
“現(xiàn)實(shí)世界中的深度學(xué)習(xí)應(yīng)用數(shù)量龐大,,種類(lèi)繁多,,對(duì)計(jì)算的要求非常苛刻,,”嵌入視覺(jué)聯(lián)盟(Embedded Vision Alliance)創(chuàng)始人Jeff Bier表示,?!癡ision C5 DSP作為神經(jīng)網(wǎng)絡(luò)專(zhuān)用編程處理器,可以幫助我們?cè)诘统杀?、低功耗設(shè)備上應(yīng)用深度學(xué)習(xí)技術(shù),。”
Vision C5 DSP的參數(shù)與性能
依托獨(dú)立引擎,,Vision C5 DSP具備領(lǐng)先的神經(jīng)網(wǎng)絡(luò)性能:
· 不到1mm2的芯片面積可以實(shí)現(xiàn)1TMAC/秒的計(jì)算能力(吞吐量較Vision P6 DSP提高4倍),,為深度學(xué)習(xí)內(nèi)核提供極高的計(jì)算吞吐量
· 1024 8-bit MAC或512 16-bit MAC 確保8-bit 和16-bit精度的出色性能
· 128路8-bit SIMD或64路16-bit SIMD的VLIW SIMD架構(gòu)
· 專(zhuān)為多核設(shè)計(jì)打造,以極少的資源代價(jià)獲得NxTMAC的處理能力
· 內(nèi)置iDMA和AXI4總線(xiàn)接口
· 使用與Vision P5和P6 DSP一致的經(jīng)驗(yàn)證軟件工具包
· 基于業(yè)界知名的AlexNet CNN Benchmark,,Vision C5 DSP的計(jì)算速度較業(yè)界的GPU最快提高6倍,;Inception V3 CNN benchmark,有9倍的性能提升,。
Vision C5 DSP是一款靈活前瞻的永不過(guò)時(shí)(future-proof)解決方案,,支持各類(lèi)內(nèi)核尺寸、深度和輸入規(guī)格,。Vision C5 DSP采用多項(xiàng)系數(shù)壓縮/解壓技術(shù),,支持未來(lái)添加的新計(jì)算層。與之相反,,CNN硬件加速器由于程序重編能力有限,,擴(kuò)展能力較差。
Vision C5 DSP搭載Cadence神經(jīng)網(wǎng)絡(luò)Mapping工具鏈,,可將Caffe和TensorFlow等映射為在Vision C5 DSP上高度優(yōu)化過(guò)的可執(zhí)行代碼,,充分發(fā)揮手動(dòng)優(yōu)化神經(jīng)網(wǎng)絡(luò)庫(kù)的豐富功能。
卷積神經(jīng)網(wǎng)絡(luò)示意圖