《電子技術應用》
您所在的位置:首頁 > 通信與網(wǎng)絡 > 業(yè)界動態(tài) > AI芯片的戰(zhàn)爭開打

AI芯片的戰(zhàn)爭開打

2016-12-30

對運算產(chǎn)業(yè)來說,,在過去的2016年應該沒有一個概念比人工智能(AI)更熱門,;跨入2017年,,專家們表示,,人工智能生態(tài)圈的需求成長會更加迅猛。主要集中在為深度神經(jīng)網(wǎng)絡找尋性能和效率更適合的“推理(inference)引擎”,。

現(xiàn)在的深度學習系統(tǒng)仰賴軟件定義網(wǎng)絡和巨量數(shù)據(jù)學習產(chǎn)生的超大型運算能力,,并靠此來實現(xiàn)目標;遺憾的是,,這類型的運算配置是很難嵌入到那些運算能力,、內(nèi)存容量大小和帶寬都有限制的系統(tǒng)中(例如汽車、無人機和物聯(lián)網(wǎng)設備),。

這為業(yè)界帶來了一個新的挑戰(zhàn)──如何透過創(chuàng)新將深度神經(jīng)網(wǎng)絡運算能力嵌入到終端設備中,。如(已經(jīng)被Intel收購的)計算機視覺處理器設計業(yè)者Movidius執(zhí)行長Remi El-Ouazzane在幾個月前就說過,將人工智能布署在網(wǎng)絡邊緣將會是一個大趨勢,。

在問到為什么人工智能會被“趕”到網(wǎng)絡邊緣的時候,,法國原子能委員會(CEA)架構、IC設計與嵌入式軟件(Architecture,, IC Design and Embedded Software)部門院士Marc Duranton提出三個原因:安全性(safety),、隱私(privacy)和經(jīng)濟(economy);他認為這三點是驅(qū)動業(yè)界在終端處理數(shù)據(jù)的重要因素,,而未來將會衍生更多「盡早將數(shù)據(jù)轉(zhuǎn)化為信息」的需求,。

Duranton指出,試想自動駕駛車輛,,如果其目標是安全性,,那些自動駕駛功能就不應該只仰賴永不中斷的網(wǎng)絡聯(lián)機;還有例如老人在家里跌倒了,,這種情況應該由本地監(jiān)測裝置在當場就判斷出來,,考慮到隱私因素,這是非常重要的,。而他補充指出,,不必收集家里10臺攝影機的所有影像并傳輸以觸發(fā)警報,這也能降低功耗,、成本與數(shù)據(jù)容量,。

AI競賽正式展開

從各方面看來,芯片供貨商已經(jīng)意識到推理引擎的成長需求,;包括Movidus (Myriad 2), Mobileye (EyeQ 4 & 5) 和Nvidia (Drive PX)在內(nèi)的眾多半導體公司正競相開發(fā)低功耗,、高性能的硬件加速器,,好讓機器學習功能在嵌入式系統(tǒng)中被更妥善執(zhí)行。

從這些廠商的動作和SoC的發(fā)展方向看來,,在后智能型手機時代,,推理引擎已經(jīng)逐漸成為半導體廠商追逐的下一個目標市場,。

在今年稍早,Google推出了張量處理單元(TPU),,可說是產(chǎn)業(yè)界積極推動機器學習芯片創(chuàng)新的一個轉(zhuǎn)折點,;Google在發(fā)表芯片時表示,TPU每瓦性能較之傳統(tǒng)的FPGA和GPU將會高一個等級,,此外并指出這個加速器還被已被應用于今年年初風靡全球的AlphaGo系統(tǒng),。但是迄今Google并未披露TPU的規(guī)格細節(jié),也不打算讓該組件在商業(yè)市場上銷售,。

很多SoC從業(yè)者從Google的TPU中得出了一個結(jié)論──機器學習需要客制化的架構,;但在他們針對機器學習進行芯片設計的時候,他們又會對芯片的架構感到疑惑,,同時想知道業(yè)界是否已經(jīng)有了一種評估不同形態(tài)下深度神經(jīng)網(wǎng)絡(DNN)性能的工具,。

性能評估工具即將問世

CEA表示,該機構已經(jīng)準備好為推理引擎探索不同的硬件架構,,他們已經(jīng)開發(fā)出一種名為N2D2的軟件架構,,能夠幫助設計工程師探索和生成DNN架構;Duranton指出:「我們開發(fā)這個工具之目的,,是為DNN選擇適合的硬件目標,。」CEA將會在2017年第一季釋出N2D2的開放源碼,。

N2D2的特色在于不僅是以識別精確度為基礎來比較硬件,,它還能從處理時間、硬件成本和功耗等多個方面執(zhí)行比較,;Duranton表示,,因為針對不同應用的深度學習,需求之硬件配置參數(shù)也會有所不同,,因此以上幾個比較非常重要,。N2D2能為現(xiàn)有CPU、GPU和FPGA等硬件(包括多核心與眾多核心)提供一個性能參考標準,。

1482996230254072398.png

N2D2運作原理

1482996230254026073.jpg

邊緣運算的障礙

CEA已經(jīng)針對如何把DNN完美地推展到邊緣運算(edge computing)進行了深入研究,;Duranton指出,其中最大的障礙在于因為功耗,、內(nèi)存容量尺寸和延遲等限制,,“浮點”式服務器方案不適用;而其他障礙還包括:「需要大量的MAC,、帶寬和芯片上內(nèi)存容量,。」

所以說,,采用整數(shù)(Integer)而非浮點運算是最需要優(yōu)先考慮的問題…還有別的嗎,?Duranton認為,,這種專屬架構也需要采用新的編碼方式,例如「棘波編碼(spike coding)」,;CEA的研究人員研究了神經(jīng)網(wǎng)絡的特性,,發(fā)現(xiàn)這種網(wǎng)絡能容忍運算誤差,使其適用于「近似運算(approximate computation)」,。

如此一來,,甚至于不需要采用二進制編碼;而Duranton解釋,,其好處在于諸如棘波編碼的時間編碼(temporal coding),,能在邊緣運算提供更具能源效益的結(jié)果。棘波編碼之所以具吸引力,,是因為棘波編碼──或是以事件為基礎(event-based)的──系統(tǒng)能展現(xiàn)實際神經(jīng)系統(tǒng)內(nèi)的數(shù)據(jù)如何被譯碼,。

此外,以事件為基礎的編碼能兼容專用的傳感器和預處理(pre-processing),。這種和神經(jīng)系統(tǒng)極度相似的編碼方式,,使得模擬和數(shù)字混合訊號更容易實現(xiàn),也能夠幫助研究者打造低功耗的小型硬件加速器,。

還有其他能加速將DNN推展到邊緣運算的因素,;例如CEA正在考慮把神經(jīng)網(wǎng)絡架構本身調(diào)整為邊緣運算的潛在可能。Duranton指出,,現(xiàn)在人們已經(jīng)開始討論采用「SqueezeNet」架構而非「AlexNet」架構的神經(jīng)網(wǎng)絡,,據(jù)了解,前者達到與后者相同精確度所需的參數(shù)規(guī)格是五十分之一,;這類簡單配置對于邊緣運算,、拓撲和降低MAC數(shù)量都十分關鍵。

而Duranton認為,,最終目標是將經(jīng)典DNN轉(zhuǎn)換成「嵌入式」網(wǎng)絡,。

CEA的雄心是開發(fā)神經(jīng)形態(tài)(neuromorphic)電路;該研究機構認為,,這類芯片在深度學習應用中,,是從接近傳感器的數(shù)據(jù)(data)提取信息(information)的有效補充。

在實現(xiàn)以上目標之前,,CEA考慮了數(shù)個權宜之計,;例如D2N2這樣的開發(fā)工具,對于芯片設計業(yè)者開發(fā)高水平每瓦TOPS (tera operations per second per Watt)性能的客制化DNN解決方案非常重要,。

對于那些想在邊緣運算利用DNN的人來說,,也有實際的硬件可以進行試驗──也就是CEA提供的超低功耗可程序加速器P-Neuro;目前的P-Neuro神經(jīng)網(wǎng)絡處理單元是以FPGA為基礎,不過Duranton表示,,CEA正要把該FPGA轉(zhuǎn)為ASIC。

Duranton在CEA的實驗室利用了以FPGA為基礎的P-Neuro展示了搭建了用于臉部是別的卷積神經(jīng)網(wǎng)絡(CNN),,并將P-Neuro與嵌入式CPU (在Raspberry Pi上的四核心ARM處理器,,以及采用Samsung Exynos處理器的Android平臺)進行比較,都執(zhí)行相同的嵌入式CNN應用,,任務是在內(nèi)含1萬8,,000張影像的數(shù)據(jù)庫進行“人臉特征提取”。

1482996230285074838.jpg

P-Neuro與嵌入式CPU/GPU執(zhí)行相同人臉識別任務的性能比較

如上表之比較結(jié)果,,P-Neuro的速度是每秒6,,942張圖片,能效則是每瓦2,,776張圖片,;與嵌入式GPU相較(Tegra K1),運作頻率為1000MHz的P-Neuro速度更快,、能效更高,。P-Neuro是以叢集式SIMD架構打造,該架構支持優(yōu)化內(nèi)存分層和內(nèi)部鏈接,。

1482996230597002588.jpg

P-Neuro功能區(qū)塊

不過對于CEA研究人員來說,,P-Neuro只是一個短期方案;目前的P-Neuro是以全CMOS組件打造,、采用二進制編碼,;該團隊也正在打造采用棘波編碼(spike coding)的全CMOS組件。為充分利用先進制程優(yōu)勢,,并且在密度和功率上有所突破,,該團隊設定了更高的目標。

如CEA-Leti的奈米電子技術營銷暨策略總監(jiān)Carlo Reita在接受采訪時表示,,利用先進芯片與內(nèi)存技術來進行專用零組件的實體設計非常重要,;其中一個方案是采用CEA-Leti的CoolCube常規(guī)monolithic 3D整合技術,另一種方案是采用電阻式內(nèi)存(Resistive RAM)做為突觸(synaptic)組件,。此外,,如FD-SOI與奈米線等先進技術也將發(fā)揮作用。

神經(jīng)形態(tài)處理器

在此同時,,歐盟在「EU Horizon 2020」計劃之下,,試圖打造神經(jīng)形態(tài)架構芯片,能支持最先進的機器學習,,以及基于棘波的學習機制,;該研究項目名為NeuRAM3,目標是以超低功耗,、可擴展與高度可配置的神經(jīng)架構,,打造在特定應用上功耗較傳統(tǒng)數(shù)字方案低50倍的組件,。

1482996230613026674.jpg

神經(jīng)形態(tài)處理器架構

1482996230613040898.jpg

神經(jīng)形態(tài)處理器基本規(guī)格

Reita表示,CEA也參與了NeuRAM3項目,,該機構的研究目標與該項目的使命緊密相關,,包括開發(fā)采用FD-SOI制程的單體(monolithically)整合式3D技術,以及整合電阻式內(nèi)存突觸組件的應用,;她并指出,,NeuRAM3項目開發(fā)的新一代混合訊號多核心神經(jīng)形態(tài)組件,與IBM的TrueNorth腦啟發(fā)(brain-inspired)操作數(shù)件相較,,能顯著降低功耗,。

1482996230925061485.jpg

NeuRAM3神經(jīng)形態(tài)組件與IBM TrueNorth的比較

NeuRAM3項目的參與者包括IMEC、IBM Zurich研究中心,、意法半導體(ST Microelectronics),,意大利研究機構 CNR (The National Research Council in Italy)、西班牙研究機構IMSE (El Instituto de Microelectronica de Sevilla in Spain),、瑞士蘇黎世大學(The University of Zurich)和德國的雅各布大學(Jacobs University),。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章、圖片,、音/視頻文件等資料的版權歸版權所有權人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者。如涉及作品內(nèi)容,、版權和其它問題,,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118;郵箱:[email protected],。