為了改善電腦系統(tǒng)在資料處理上的效能,,科學(xué)家將主意打到了人類的神經(jīng)網(wǎng)絡(luò)上。這個(gè)念頭并不是神來(lái)一筆,而是觀察到人類的腦神經(jīng)在處理視覺(jué),、聽(tīng)覺(jué)和語(yǔ)言方面,有非常卓越的表現(xiàn),。
這種參考人類神經(jīng)元結(jié)構(gòu)所產(chǎn)生的資料處理程序,,被稱為「類神經(jīng)網(wǎng)絡(luò)」或者「人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)」,,它就是一種模仿生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能的數(shù)學(xué)模型的演算法,。
ANN技術(shù)其實(shí)已問(wèn)世超過(guò)50年,且不斷的進(jìn)行改良和突破,,例如卷積類神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,,CNN)就是相當(dāng)著名的一支,由于它的結(jié)構(gòu)簡(jiǎn)單易用,,因此發(fā)展迅速,,并被廣泛的運(yùn)用在大型圖像的處理上。
到了近幾年,,隨著芯片技術(shù)的突破和人工智能應(yīng)用的崛起,,讓神經(jīng)網(wǎng)絡(luò)技術(shù)又進(jìn)一步受到重視。目前主要的推力則是機(jī)器學(xué)習(xí)(Machine Learning),,它是人工智能的基礎(chǔ)所在,,而機(jī)器學(xué)習(xí)的核心是基于神經(jīng)網(wǎng)絡(luò)的多層資料處理技術(shù)的「深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network)」,也因此,,想辦法來(lái)提升神經(jīng)網(wǎng)絡(luò)資料處理的效能,,就成了目前各家終端產(chǎn)品設(shè)計(jì)的突破點(diǎn)。
而眼前,,最火熱的戰(zhàn)場(chǎng),,就是智能型手機(jī)。
神經(jīng)網(wǎng)絡(luò)智能手機(jī)的新賣(mài)點(diǎn)
神經(jīng)網(wǎng)絡(luò)運(yùn)算有多項(xiàng)優(yōu)勢(shì),,包含平行處理,、內(nèi)容定址記憶、容錯(cuò)特性,、能處理一般演算法難以勝任的問(wèn)題等,,因此很適合運(yùn)用在經(jīng)常需要處理非常復(fù)雜的任務(wù)的應(yīng)用上,而手機(jī)就是一個(gè)這樣的產(chǎn)品,。
智能手機(jī)是當(dāng)代人們每天都要隨身的電子裝置,,它不僅時(shí)時(shí)要能連線上網(wǎng),而且經(jīng)常會(huì)同時(shí)開(kāi)啟多個(gè)App軟件,,影像和語(yǔ)音的處理更是家常便飯,。而隨著人工智能功能的導(dǎo)入,,更讓手機(jī)功能的優(yōu)化與執(zhí)行變得復(fù)雜,此時(shí),,神經(jīng)網(wǎng)絡(luò)技術(shù)就成了最好的解決方案之一,。
由于神經(jīng)網(wǎng)絡(luò)技術(shù)具有自我學(xué)習(xí)的能力,能學(xué)習(xí)使用者的操作特性,,并設(shè)定出一個(gè)最佳的輸入和輸出的路徑,。因此一旦學(xué)習(xí)完成之后,后續(xù)的各項(xiàng)操作皆能相對(duì)以往的軟件程序快上不少,,對(duì)于使用者體驗(yàn)有大幅的改善,。
目前主要的手機(jī)處理芯片供應(yīng)商也已經(jīng)在其解決方案中,加入了神經(jīng)網(wǎng)絡(luò)處理器的技術(shù),。
蘋(píng)果Bionic處理器加入神經(jīng)網(wǎng)絡(luò)引擎
蘋(píng)果的iPhone就是最著名的產(chǎn)品,。蘋(píng)果在2017年的iPhone A11 Bionic處理器上首度加入了神經(jīng)網(wǎng)絡(luò)處理引擎(Neural Engine)的技術(shù)。根據(jù)蘋(píng)果的資料,,這個(gè)神經(jīng)網(wǎng)絡(luò)引擎是一個(gè)雙核的設(shè)計(jì),,每秒運(yùn)算次數(shù)最高可達(dá)6000億次,能大幅提升機(jī)器學(xué)習(xí)的效能,。
圖一: 蘋(píng)果最新的A12處理器,,神經(jīng)網(wǎng)絡(luò)引擎的核心數(shù)已達(dá)8個(gè)。(source: Apple)
而實(shí)際的使用情形也證實(shí)蘋(píng)果所言不假,,神經(jīng)網(wǎng)絡(luò)處理技術(shù)的的確確讓機(jī)器學(xué)習(xí)有了脫胎換骨的表現(xiàn),。也因此,蘋(píng)果最新一代的處理器A12更進(jìn)一步增強(qiáng)了神經(jīng)網(wǎng)絡(luò)處理單元的性能,,更正確的說(shuō),,是增加了4倍。
在硬件設(shè)計(jì)上,,蘋(píng)果的神經(jīng)網(wǎng)絡(luò)引擎是透過(guò)一塊FPGA區(qū)域來(lái)達(dá)成,,因此在機(jī)器學(xué)習(xí)性能上有很強(qiáng)的自定義能力。而在最新使用7納米制程的A12處理器上,,神經(jīng)網(wǎng)絡(luò)引擎的核心數(shù)已達(dá)8個(gè)(A11是雙核),,且每秒可進(jìn)行5萬(wàn)億次運(yùn)算(約8.33倍),,至于執(zhí)行Core ML的速度則是上一代的9倍,,但功耗卻只有前代的十分之一。
圖二: 各家芯片商的神經(jīng)網(wǎng)絡(luò)運(yùn)算技術(shù)比較,。
也因?yàn)槿绱?,采用A12處理器的iPhone學(xué)習(xí)能力驚人,除了能快速甚至即時(shí)的運(yùn)行各項(xiàng)應(yīng)用程式外,,更能夠迅速的辨認(rèn)模式并做出預(yù)測(cè),,且不斷的進(jìn)行改良,,堪稱是當(dāng)代最聰明的智能型手機(jī)。也由于新的處理器,,iPhone在智能語(yǔ)音和影像辨識(shí)的能力有了絕倫的表現(xiàn),。
高通驍龍NPE技術(shù)以DSP突破運(yùn)算性能
神經(jīng)網(wǎng)絡(luò)技術(shù)的優(yōu)勢(shì)明顯,各家手機(jī)處理器芯片商當(dāng)然也就陸續(xù)投入相關(guān)的技術(shù)研發(fā),,高通(Qualcomm)就是其中一個(gè),。旗下的驍龍(Snapdragon)處理器就已經(jīng)搭載了神經(jīng)網(wǎng)絡(luò)處理引擎(Neural Processing Engine; NPE)技術(shù)。
圖三: 高通Hexagon DSP神經(jīng)網(wǎng)絡(luò)執(zhí)行性能,,相比在CPU上執(zhí)行,,能快出5至8倍。(source: 高通)
根據(jù)高通的資料,,驍龍的NPE是一種整合了多種軟硬件的元件,,用來(lái)加速終端裝置上(on-device)的AI功能,以改善使用者的體驗(yàn),,但原則上,,高通的NPE是以軟件為中心(software-centric)的解決方案。
而在軟件架構(gòu)上,,高通的NPE是屬于開(kāi)放的架構(gòu),,能支援多種神經(jīng)網(wǎng)絡(luò)的框架,包含Tensorflow,、Caffe,、Caffe2和ONNX,此外,,高通也開(kāi)發(fā)了自有的Hexagon Neural Network(NN)函式庫(kù),,讓開(kāi)發(fā)者可以讓其AI演算法在驍龍?zhí)幚砥骼锏腍exagon DSP上執(zhí)行。
而在最新一代的驍龍?zhí)幚砥?55上,,NPE已經(jīng)發(fā)展到了第四代,,其效能已較第三代有3倍的成長(zhǎng),可對(duì)影像,、影音,、AR/VR與游戲等智能功能進(jìn)一步優(yōu)化。只不過(guò)高通并沒(méi)有具體的說(shuō)明其N(xiāo)PE的技術(shù)細(xì)節(jié),,硬件的架構(gòu)也不得而知,,也沒(méi)有解釋為何是在DSP上運(yùn)行。但依據(jù)高通自己的說(shuō)法,,高通的Hexagon DSP 的神經(jīng)網(wǎng)絡(luò)執(zhí)行性能,,相比在CPU上執(zhí)行,能快出5至8倍,。
聯(lián)發(fā)科曦力處理器加入NeuroPilot與APU技術(shù)
臺(tái)灣的聯(lián)發(fā)科技(MediaTek)當(dāng)然也看到了人工智能在行動(dòng)裝置上的應(yīng)用商機(jī),,自2018年初起,,就推出了NeuroPilot的技術(shù),并將之首次運(yùn)用在其手機(jī)處理平臺(tái)曦力P60上,。
根據(jù)聯(lián)發(fā)科的說(shuō)法,,NeuroPilot是基于他們的核心監(jiān)控與調(diào)節(jié)技術(shù)CorePilot的進(jìn)階版。CorePilot在2014年就已經(jīng)被開(kāi)發(fā)出來(lái),,其主要作用就是動(dòng)態(tài)監(jiān)控手機(jī)多核處理器的每個(gè)核心的工作負(fù)載量,,并加調(diào)節(jié)和分配,以提高手機(jī)運(yùn)行的性能并降低電耗,。
到了人工智能時(shí)代,,聯(lián)發(fā)科也順勢(shì)推出了APU技術(shù),并運(yùn)用在CorePilot所積累的異構(gòu)運(yùn)算經(jīng)驗(yàn),,推出了NeuroPilot平臺(tái),,作為CPU、GPU和APU間的運(yùn)作協(xié)調(diào),,以提升整體的AI運(yùn)算效能,。
NeuroPilot平臺(tái)約可分為三個(gè)層級(jí),頂層是各種APP應(yīng)用程式,;中間層為程序編寫(xiě)和異構(gòu)運(yùn)算(軟件層),;最底層是各種硬件處理器。而其中最關(guān)鍵的就是中間的軟件層,。
聯(lián)發(fā)科指出,,中間層主要由演算法軟件構(gòu)成,包括各種軟件的API,、神經(jīng)網(wǎng)絡(luò)運(yùn)行(NN Runtime),、異構(gòu)運(yùn)行(Heterogeneous Runtime)。簡(jiǎn)單來(lái)說(shuō),,就是所謂的人工智能的運(yùn)行架構(gòu)(AI framewrok),,以及神經(jīng)網(wǎng)絡(luò)的演算法。
而聯(lián)發(fā)科的NeuroPilot也是屬于開(kāi)放式的架構(gòu),,支援目前市面上主流的AI framework,,包含TensorFlow、TF Lite,、Caffe,、Caffe2、Amazon MXNet,、Sony NNabla和ONNX等,。聯(lián)發(fā)科也提供NeuroPilot SDK,其包含Google神經(jīng)網(wǎng)絡(luò)API(Android NN API)和聯(lián)發(fā)科NeuroPilot擴(kuò)充元件,。
圖四: NeuroPilot平臺(tái)可分為三個(gè)層級(jí),,中間層為程序編寫(xiě)和異構(gòu)運(yùn)算,是最關(guān)鍵的一層,。(source: 聯(lián)發(fā)科)
而在硬件方面,,除了原本的CPU、GPU外,,則是增加了新的人工智能處理器APU,,用來(lái)提高人工智能應(yīng)用和神經(jīng)網(wǎng)絡(luò)處理的校能。在最新一款的旗艦處理器P90上,,聯(lián)發(fā)科的APU已升級(jí)至2.0版本,,比前一代快上四倍,算力達(dá)1127GMACs(電腦定點(diǎn)處理能力的量),。
中國(guó)海思攜手寒武紀(jì)主攻NPU技術(shù)
中國(guó)華為旗下的海思半導(dǎo)體(HiSilicon),,是手機(jī)處理器市場(chǎng)一家快速崛起的IC設(shè)計(jì)公司,目前屢屢在技術(shù)上有領(lǐng)先業(yè)界表現(xiàn),。該公司在2017年九月就率先發(fā)表了一款采用10納米制程的智能手機(jī)處理器-麒麟(Kirin)970,,該處理器是產(chǎn)界首款具有人工智能神經(jīng)處理元件(NPU)的手機(jī)處理芯片。
海思的NPU同樣是屬于AI應(yīng)用程式的加速處理單元,,也就是針對(duì)神經(jīng)網(wǎng)絡(luò)演算法的處理,,特別專注于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的應(yīng)用。根據(jù)海思的說(shuō)法,,在相簿模式中,,Kirin 970的NPU每秒能處理2,000張照片的處理;若沒(méi)有NPU介入,,單以處理器運(yùn)算只能處理約100張而已,。
圖五: 最新一代的Kirin 980處理器,其N(xiāo)PU核心數(shù)已增加至兩個(gè),。(source: 海思)
據(jù)了解,,Kirin 970的NPU,是由中國(guó)的芯片IP商寒武紀(jì)(Cambri0con)所提供,,并由海思與寒武紀(jì)共同合作進(jìn)行優(yōu)化的一個(gè)模組,。
而最新一代的Kirin 980處理器,其N(xiāo)PU核心數(shù)已增加至兩個(gè),。根據(jù)華為的資料,,雙核NPU的性能可達(dá)到每分鐘處理4,500張圖像,較前一代提升了120%的辨識(shí)速度,??梢钥焖賵?zhí)行人臉識(shí)別,物體偵測(cè)與辨識(shí),,物體識(shí)別,,影像分割和智能辨識(shí)等人工智能的應(yīng)用,。
AI需求成形處理器IP商也加入戰(zhàn)場(chǎng)
由于神經(jīng)網(wǎng)絡(luò)的性能卓越,因此除了IC設(shè)計(jì)商積極投入研發(fā)外,,處理器IP供應(yīng)商自然也開(kāi)始跨入此一領(lǐng)域,,包含前段所提到的中國(guó)寒武紀(jì)之外,以色列的IP商CEVA也開(kāi)始提供具備神經(jīng)網(wǎng)絡(luò)技術(shù)的IP方案,。
CEVA近期所發(fā)表的WhisPro就是一款基于神經(jīng)網(wǎng)絡(luò)技術(shù)的智能語(yǔ)音辨識(shí)方案,,它采用了可擴(kuò)展遞回神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network)技術(shù),可同時(shí)辨識(shí)多個(gè)觸發(fā)片語(yǔ),,能運(yùn)用在智能手機(jī),、智能音箱、藍(lán)牙耳機(jī)和其他語(yǔ)音設(shè)備中,。
然而有趣的是,,雖然神經(jīng)處器技術(shù)的勢(shì)頭已經(jīng)竄起,但處理器IP的龍頭Arm卻是動(dòng)作緩慢,,到目前為止,,仍未提供任何的神經(jīng)網(wǎng)絡(luò)解決方案。雖然Arm也看好人工智能的應(yīng)用市場(chǎng),,但就是遲遲未把具體的產(chǎn)品曝光,。
而依據(jù)Arm的時(shí)程,最快今年第一季才會(huì)推出具備人工智能功能的AI處理器-Arm ML CPU,。根據(jù)Arm的說(shuō)明,,Arm ML處理器也會(huì)是一個(gè)系列產(chǎn)品,提供多種規(guī)格給不同的應(yīng)用產(chǎn)品,,性能范圍是1至4 TOP/s,,可滿足不同的產(chǎn)品需求,包含智能手機(jī),、智能手機(jī),、智能家居和汽車(chē)等。
Arm指出,,其ML處理器主要有三個(gè)部分,,一個(gè)是MAC引擎,主要是執(zhí)行卷積云神經(jīng)網(wǎng)絡(luò)的運(yùn)算,;第二是可程式的運(yùn)算引擎,,可以支援未來(lái)新的運(yùn)算元和網(wǎng)絡(luò);第三是資料管理,,用來(lái)降低AI運(yùn)算的功耗,。
雖然推出的時(shí)間晚了,但Arm仍是自信滿滿,由于其處理器的生態(tài)系十分龐大且完整,,要后來(lái)居上也可能是易如反掌,。
「我們已經(jīng)看到機(jī)器學(xué)習(xí)技術(shù)正在成熟,市場(chǎng)需求也正在不斷增加,,我們認(rèn)為現(xiàn)在是進(jìn)入市場(chǎng)的最佳時(shí)機(jī),?!笰rm機(jī)器學(xué)習(xí)副總裁Dennis Laudick說(shuō),。