人工智能終端應(yīng)用的可能性無限,,舉凡智能型手機(jī)、汽車,、照明等,,都有機(jī)會(huì)成為所謂的邊緣運(yùn)算裝置。但在過去,,運(yùn)算處理器是在數(shù)據(jù)中心有較為明顯的需求。目前邊緣運(yùn)算此一產(chǎn)業(yè)走向的大逆轉(zhuǎn),,已可從各芯片供貨商,,如GPU、CPU等,,以及硅智財(cái)(IP)授權(quán)商紛紛針對(duì)人工智能展開布局,,推出各自處理器縮小化的解決方案,明顯可見一斑,。
隨著人工智能的發(fā)展,,有越來越多應(yīng)用產(chǎn)品開始在終端上進(jìn)行實(shí)時(shí)運(yùn)算,也就是所謂的邊緣運(yùn)算,。不過,,目前的處理器核心對(duì)許多終端裝置來說,功耗仍嫌偏高,。
AIoT浪潮興起 小型處理器核心滿足邊緣運(yùn)算需求
索思未來(Socionext)戰(zhàn)略銷售組銷售部銷售項(xiàng)目總監(jiān)張育豪(圖1)表示,,目前市場(chǎng)上主流的CPU或GPU核心規(guī)模很大,雖然運(yùn)算效能很強(qiáng),,但功耗也高,,而且不易針對(duì)應(yīng)用進(jìn)行客制化設(shè)計(jì)。 有鑒于此,,Socionext采取用小型核心堆棧的設(shè)計(jì)架構(gòu),,其好處在于從云到端都可以采用同樣的處理器核心,,且也較容易針對(duì)個(gè)別應(yīng)用進(jìn)行客制化,例如將CPU核心跟圖像處理核心(VPU)整合在單芯片上,。
圖1 Socionext戰(zhàn)略銷售組銷售部銷售項(xiàng)目總監(jiān)張育豪表示,,VPU在圖像處理的功耗/性能比,遠(yuǎn)勝過CPU跟GPU,。
張育豪觀察,,目前的人工智能應(yīng)用大多與影像相關(guān),但不管是CPU或GPU,,在進(jìn)行影像運(yùn)算時(shí),,功耗/性能比都不盡理想。這是因?yàn)镃PU跟GPU原本就不是為了處理影像而設(shè)計(jì)的芯片,。CPU的強(qiáng)項(xiàng)在于進(jìn)行數(shù)據(jù)運(yùn)算,,而GPU則適合用來進(jìn)行3D繪圖處理。 因此,,用CPU或GPU來進(jìn)行影像分析,,其實(shí)效率不是太好。相較之下,,專門為處理影像而設(shè)計(jì)的VPU,,在圖像處理的功耗/性能比方面,是遠(yuǎn)勝過CPU跟GPU的,。
舉例來說,,用CPU來對(duì)4K影像進(jìn)行處理跟分析,功耗預(yù)算大概是230瓦左右,;若用GPU來進(jìn)行,,功耗更可達(dá)到400?500瓦。 但如果是用Socionext的解決方案,,一顆核心的功耗只有5瓦左右,,就算串聯(lián)多顆核心,也會(huì)比CPU或GPU來得省電許多,。因此,,張育豪認(rèn)為,在人工智能進(jìn)駐各類終端裝置的趨勢(shì)下,,如果是與影像分析有關(guān)的人工智能應(yīng)用,,VPU將有非常大的發(fā)展?jié)摿Α? Socionext本身擁有業(yè)界領(lǐng)先的VPU技術(shù),更是目前市場(chǎng)上唯一已經(jīng)有8K圖像處理芯片的芯片業(yè)者,。
不管是針對(duì)大規(guī)模數(shù)據(jù)中心,,或是在各種終端裝置上直接進(jìn)行邊緣運(yùn)算,功耗都是非常關(guān)鍵的考慮,。功耗越高,,則系統(tǒng)的散熱設(shè)計(jì)也越昂貴,,不僅會(huì)增加終端裝置的生產(chǎn)制造成本,也會(huì)增加系統(tǒng)擁有者的總體持有成本(TCO),。
以數(shù)據(jù)中心為例,,冷卻系統(tǒng)的電費(fèi)是相當(dāng)可觀的,如果處理器能更省電,,空調(diào)冷卻的電費(fèi)也可以隨之降低,。其他形形色色的終端裝置也一樣,當(dāng)芯片的功耗太高時(shí),,就得采用更大的散熱片,,甚至用風(fēng)扇來散熱,這些都會(huì)造成產(chǎn)品的生產(chǎn)成本跟總體持有成本增加,。
單一叢集配置更彈性 DynamIQ推升大小核效率
針對(duì)小型處理器需求的增加,,安謀國際(ARM)日前在處理器架構(gòu)上,也宣布了大幅度調(diào)整,,也就是DynamIQ技術(shù),。 DynamIQ達(dá)成了上一代big.LITTLE架構(gòu)在單一運(yùn)算叢集上無法實(shí)現(xiàn)的大小核彈性配置,對(duì)異質(zhì)運(yùn)算及人工智能這類應(yīng)用帶來相當(dāng)明顯的效率提升,。其將作為未來ARM Cortex-A系列處理器的基礎(chǔ),,亦同時(shí)代表了業(yè)界在多核處理程序設(shè)計(jì)上的新紀(jì)元。
ARM行動(dòng)通訊暨數(shù)字家庭市場(chǎng)資深營銷經(jīng)理林修平(圖2)表示,,DynamIQ可以說是ARM big. LITTLE的第二代硬件架構(gòu),,其最主要的特點(diǎn)在于其可以在同一個(gè)叢集(Cluster)中同時(shí)擺放大小核,且電源(Power)與頻率(Clock)都可以單獨(dú)作管理,。在第一代的大小核架構(gòu)中,一個(gè)叢集只能擺放大核或小核,,因此在執(zhí)行轉(zhuǎn)換任務(wù)時(shí),,必須經(jīng)過快取(Cache)轉(zhuǎn)換,。但在DynamIQ中,,由于所有任務(wù)都將能在同個(gè)叢集中運(yùn)作,在任務(wù)切換上,,便會(huì)相對(duì)迅速很多,。
圖2 ARM行動(dòng)通訊暨數(shù)字家庭市場(chǎng)資深營銷經(jīng)理林修平表示,DynamIQ技術(shù)可在同一個(gè)叢集中同時(shí)擺放大小核,。
林修平指出,,由于人工智能所需要的運(yùn)算量很大,同時(shí)需要很多矩陣乘法,,透過DynamIQ的架構(gòu),,將能做1+3,、1+7、2+2+4等設(shè)計(jì)配置,。在過去的big. LITTLE架構(gòu)中,,由于一個(gè)叢集最多即是4核(大核(Big)4核,小核(LITTLE)4核),,是沒有辦法做到1+7的,。DynamIQ所帶來的多元變化SoC設(shè)計(jì)配置,將能幫助應(yīng)用達(dá)到CPU優(yōu)化,,進(jìn)而讓效能與功耗能更往上提升,。
DynamIQ的頻率可以單獨(dú)管理,也將帶來很大好處,。 第一代的大小核,,在同一個(gè)叢集當(dāng)中,頻率是統(tǒng)一的,,但DynamIQ可以讓同一叢集中的不同核心,,依據(jù)運(yùn)算需求在不同的頻率下運(yùn)作。
此外,,林修平也表示,,DynamIQ還可連接外部的硬件加速器。 以人工智能來說,,不同應(yīng)用會(huì)有不同的軟硬件加速需求,,例如加速器、DSP,、CPU,、GPU等,像是在高階智能型手機(jī)上,,可能會(huì)放置加速器,,來使其表現(xiàn)度達(dá)到最好、功耗達(dá)到最低,,不過這也會(huì)增加集成電路的成本,。 因此,若是比較大眾化的產(chǎn)品,,則可能會(huì)利用系統(tǒng)上現(xiàn)有的CPU,、GPU,來滿足人工智能的需要,。
GPU模型推論效能升級(jí)
邊緣運(yùn)算裝置AI能力更強(qiáng)大
然而,,隨著各種邊緣運(yùn)算裝置上所內(nèi)建的人工智能(AI)能力變得更加強(qiáng)大,GPU模型的推論效能也必須隨之提升,。 輝達(dá)(NVIDIA)旗下軟件目前已可協(xié)助客戶做8位與16位的神經(jīng)網(wǎng)絡(luò)運(yùn)算優(yōu)化,,不僅讓GPU模型的推論(Inference)更形完善,,同時(shí)對(duì)硬件資源的需求也明顯降低,只需要一小塊電路板就能支持AI算法,。
針對(duì)邊緣運(yùn)算日益漸增的需求,,NVIDIA近期推出了新款開發(fā)板Jetson TX2,將整套人工智能系統(tǒng)縮小在一塊電路板之上,,為商用無人機(jī),、工業(yè)機(jī)械、智能型攝影設(shè)備等領(lǐng)域,,提供進(jìn)階的導(dǎo)航,、影像與語音識(shí)別功能。相較前一代產(chǎn)品Jetson TX1,,Jetson TX2的效能提升了兩倍,,耗電量則不到7.5瓦,能源效率提升了兩倍多,。 這讓Jetson TX2可在終端裝置上運(yùn)行更大,、更深的神經(jīng)網(wǎng)絡(luò),進(jìn)而開發(fā)出更高智能化的裝置,,并提升影像分類,、導(dǎo)航以及語音識(shí)別等作業(yè)的精準(zhǔn)度與反應(yīng)速度。
NVIDIA技術(shù)營銷經(jīng)理蘇家興(圖3)表示,,對(duì)于訓(xùn)練好的模型,,NVIDIA也提供Tense RT軟件來協(xié)助客戶做模型優(yōu)化、縮小化,,其支持整數(shù)8位與浮點(diǎn)數(shù)16位的運(yùn)算,。 目前的主流是以32位的運(yùn)算去做訓(xùn)練,該16位運(yùn)算也就減少了一半,,增加了一倍的效能,,8位則增加了四倍的效能,因此在模型推論上能運(yùn)作的更好,。
圖3 NVIDIA技術(shù)營銷經(jīng)理蘇家興表示,以往在多GPU運(yùn)算時(shí),,受限于PCIe的帶寬問題,,HGX-1搭載了NVIDIA的8張GP 100的GPU,因此當(dāng)深度學(xué)習(xí)在做訓(xùn)練時(shí),,規(guī)模效果是相當(dāng)好的,。
AI算法日新月異 FPGA靈活特性優(yōu)勢(shì)顯著
即便目前人工智能(AI)算法日新月異,對(duì)嵌入式處理器的靈活性帶來許多挑戰(zhàn),,這卻也讓以靈活彈性著稱的現(xiàn)場(chǎng)可編程門陣列(FPGA)組件有了很大的發(fā)揮空間,。
賽靈思ISM營銷資深技術(shù)經(jīng)理羅霖(圖4)表示,,由于人工智能目前還處于發(fā)展階段,算法日新月異,,目前還沒有一個(gè)算法可以固定下來,,這為特殊應(yīng)用集成電路(ASIC)的設(shè)計(jì)帶來很大挑戰(zhàn),因客戶往往需要的是十分靈活的架構(gòu),。
圖4 賽靈思ISM營銷資深技術(shù)經(jīng)理羅霖表示,,在賽靈思旗下的芯片產(chǎn)品中,有許多并行運(yùn)算資源,,很適合用于計(jì)算量,、吞吐量大的卷積運(yùn)算。
有鑒于此,,賽靈思推出reVISION堆棧技術(shù),,其具備了可重組以及所有形式鏈接的特性,讓開發(fā)者能充分運(yùn)用堆棧技術(shù),,快速研發(fā)與部署升級(jí)方案,,這樣的特性對(duì)于開發(fā)未來需求的智能視覺系統(tǒng)是至關(guān)重要的的。 不僅如此,,該技術(shù)也使開發(fā)者在結(jié)合機(jī)器學(xué)習(xí),、計(jì)算機(jī)視覺、傳感器融合與連接的應(yīng)用時(shí),,能夠獲得顯著優(yōu)勢(shì),。 舉例而言,相較于其他嵌入式GPU與傳統(tǒng)SoC,,reVISION將機(jī)器學(xué)習(xí)推論的每秒每瓦影像效能,,提升了6倍、計(jì)算機(jī)視覺每秒每瓦每幀處理速度提升了42倍,,而延遲卻只有五分之一,。
羅霖分析,相較于同等級(jí)GPU技術(shù),,F(xiàn)PGA在低延遲(Low Latency)的部分,,本身就與傳統(tǒng)的架構(gòu)不同,傳統(tǒng)架構(gòu)是將收集到的數(shù)據(jù)送到DDR內(nèi)存中進(jìn)行緩存,,處理器要再從DDR中取出數(shù)據(jù)進(jìn)行運(yùn)算,,運(yùn)算完成后再送回DDR。 但FPGA則是采用像素流(Stream)的方式,,直接可以到模擬進(jìn)行運(yùn)算,,運(yùn)算完成后,輸出結(jié)果即可,由于省去了存取DDR的時(shí)間,,因此可以延遲可以降到非常低,。
從算法的層面來看,人工智能含有許多智能決策的部分,,因此需要有很強(qiáng)的平行運(yùn)算能力,。 這些算法進(jìn)而對(duì)處理器結(jié)構(gòu)產(chǎn)生了不同的需求,像是在神經(jīng)網(wǎng)絡(luò)中,,卷積運(yùn)算強(qiáng)調(diào)的是平行運(yùn)算,,適合在FPGA上運(yùn)行,但在傳感器融合的部分,,則比較適合在CPU上運(yùn)行,,因其必須將硬件進(jìn)行分割,再將不同的算法,,放到處理器中,。
羅霖指出,在脫機(jī)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練部分,,GPU的確是比較有優(yōu)勢(shì)的,,由于其要求的浮點(diǎn)運(yùn)算性能特別高,因此不少深度學(xué)習(xí)都是采用GPU,,而賽靈思的立場(chǎng)是不會(huì)以FPGA去進(jìn)攻這塊市場(chǎng),,不過若是以在線的任務(wù)來看,F(xiàn)PGA還是很有優(yōu)勢(shì)的,。 目前邊緣運(yùn)算對(duì)嵌入式處理器的要求除了傳感器的接口要夠多,,組件的I/O型態(tài)也十分多變,可能是高速率,、中速率或低速率,,這些處理器都要能支持,且在線處理的能力也相當(dāng)關(guān)鍵,。
蘇家興則表示,,無論是軟件還是硬件公司,都須要對(duì)訓(xùn)練好的深度學(xué)習(xí)模型進(jìn)行優(yōu)化,,除了邊緣設(shè)備會(huì)采用縮小化的模型,,在服務(wù)器與數(shù)據(jù)中心端,也會(huì)有某些情境需要采用這些優(yōu)化過的模型去做推論,。 舉例而言,,F(xiàn)acebook、百度在做語音識(shí)別的推論時(shí),,若能透過優(yōu)化的模型讓運(yùn)作更快,勢(shì)必能讓消耗的功耗越少。
不過,,并不是所有的應(yīng)用都適合做前端邊緣運(yùn)算,。 以AlphaGo來看,其是以32臺(tái)服務(wù)器在做運(yùn)算,,因AlphaGo運(yùn)算量非常大,,所以就不太可能進(jìn)行邊緣運(yùn)算,因1臺(tái)服務(wù)器與32臺(tái)服務(wù)器運(yùn)算的精準(zhǔn)度,,絕對(duì)是有差異的,。 若以語音識(shí)別來看,即便可以同時(shí)采用在線與脫機(jī)的方式進(jìn)行,,但精準(zhǔn)度也勢(shì)必會(huì)有落差,。
蘇家興指出,應(yīng)用開發(fā)商須盡快分辨出哪些運(yùn)算任務(wù)適合采用邊緣運(yùn)算,,哪些部分還是得留在服務(wù)器端執(zhí)行,。 舉例來說,當(dāng)無人機(jī)飛到有些沒有網(wǎng)絡(luò)的地方,,便必須運(yùn)用邊緣運(yùn)算,,設(shè)計(jì)出可承載范圍內(nèi)的推論。 NVIDIA相信,,未來數(shù)據(jù)中心與邊緣運(yùn)算將會(huì)并存,,但在瞄準(zhǔn)的應(yīng)用上必定會(huì)有所不同。
GPU模型推論效能升級(jí)
邊緣運(yùn)算裝置AI能力更強(qiáng)大
然而,,隨著各種邊緣運(yùn)算裝置上所內(nèi)建的人工智能(AI)能力變得更加強(qiáng)大,,GPU模型的推論效能也必須隨之提升。 輝達(dá)(NVIDIA)旗下軟件目前已可協(xié)助客戶做8位與16位的神經(jīng)網(wǎng)絡(luò)運(yùn)算優(yōu)化,,不僅讓GPU模型的推論(Inference)更形完善,,同時(shí)對(duì)硬件資源的需求也明顯降低,只需要一小塊電路板就能支持AI算法,。
針對(duì)邊緣運(yùn)算日益漸增的需求,,NVIDIA近期推出了新款開發(fā)板Jetson TX2,將整套人工智能系統(tǒng)縮小在一塊電路板之上,,為商用無人機(jī),、工業(yè)機(jī)械、智能型攝影設(shè)備等領(lǐng)域,,提供進(jìn)階的導(dǎo)航,、影像與語音識(shí)別功能。相較前一代產(chǎn)品Jetson TX1,,Jetson TX2的效能提升了兩倍,,耗電量則不到7.5瓦,,能源效率提升了兩倍多。 這讓Jetson TX2可在終端裝置上運(yùn)行更大,、更深的神經(jīng)網(wǎng)絡(luò),,進(jìn)而開發(fā)出更高智能化的裝置,并提升影像分類,、導(dǎo)航以及語音識(shí)別等作業(yè)的精準(zhǔn)度與反應(yīng)速度,。
NVIDIA技術(shù)營銷經(jīng)理蘇家興(圖3)表示,對(duì)于訓(xùn)練好的模型,,NVIDIA也提供Tense RT軟件來協(xié)助客戶做模型優(yōu)化,、縮小化,其支持整數(shù)8位與浮點(diǎn)數(shù)16位的運(yùn)算,。 目前的主流是以32位的運(yùn)算去做訓(xùn)練,,該16位運(yùn)算也就減少了一半,增加了一倍的效能,,8位則增加了四倍的效能,,因此在模型推論上能運(yùn)作的更好。
圖3 NVIDIA技術(shù)營銷經(jīng)理蘇家興表示,,以往在多GPU運(yùn)算時(shí),,受限于PCIe的帶寬問題,HGX-1搭載了NVIDIA的8張GP 100的GPU,,因此當(dāng)深度學(xué)習(xí)在做訓(xùn)練時(shí),,規(guī)模效果是相當(dāng)好的。
AI算法日新月異 FPGA靈活特性優(yōu)勢(shì)顯著
即便目前人工智能(AI)算法日新月異,,對(duì)嵌入式處理器的靈活性帶來許多挑戰(zhàn),,這卻也讓以靈活彈性著稱的現(xiàn)場(chǎng)可編程門陣列(FPGA)組件有了很大的發(fā)揮空間。
賽靈思ISM營銷資深技術(shù)經(jīng)理羅霖(圖4)表示,,由于人工智能目前還處于發(fā)展階段,,算法日新月異,目前還沒有一個(gè)算法可以固定下來,,這為特殊應(yīng)用集成電路(ASIC)的設(shè)計(jì)帶來很大挑戰(zhàn),,因客戶往往需要的是十分靈活的架構(gòu)。
圖4 賽靈思ISM營銷資深技術(shù)經(jīng)理羅霖表示,,在賽靈思旗下的芯片產(chǎn)品中,,有許多并行運(yùn)算資源,很適合用于計(jì)算量,、吞吐量大的卷積運(yùn)算,。
有鑒于此,賽靈思推出reVISION堆棧技術(shù),,其具備了可重組以及所有形式鏈接的特性,,讓開發(fā)者能充分運(yùn)用堆棧技術(shù),,快速研發(fā)與部署升級(jí)方案,這樣的特性對(duì)于開發(fā)未來需求的智能視覺系統(tǒng)是至關(guān)重要的的,。 不僅如此,,該技術(shù)也使開發(fā)者在結(jié)合機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺,、傳感器融合與連接的應(yīng)用時(shí),能夠獲得顯著優(yōu)勢(shì),。 舉例而言,,相較于其他嵌入式GPU與傳統(tǒng)SoC,reVISION將機(jī)器學(xué)習(xí)推論的每秒每瓦影像效能,,提升了6倍,、計(jì)算機(jī)視覺每秒每瓦每幀處理速度提升了42倍,而延遲卻只有五分之一,。
羅霖分析,,相較于同等級(jí)GPU技術(shù),F(xiàn)PGA在低延遲(Low Latency)的部分,,本身就與傳統(tǒng)的架構(gòu)不同,,傳統(tǒng)架構(gòu)是將收集到的數(shù)據(jù)送到DDR內(nèi)存中進(jìn)行緩存,處理器要再從DDR中取出數(shù)據(jù)進(jìn)行運(yùn)算,,運(yùn)算完成后再送回DDR,。 但FPGA則是采用像素流(Stream)的方式,直接可以到模擬進(jìn)行運(yùn)算,,運(yùn)算完成后,,輸出結(jié)果即可,由于省去了存取DDR的時(shí)間,,因此可以延遲可以降到非常低,。
從算法的層面來看,人工智能含有許多智能決策的部分,,因此需要有很強(qiáng)的平行運(yùn)算能力,。 這些算法進(jìn)而對(duì)處理器結(jié)構(gòu)產(chǎn)生了不同的需求,像是在神經(jīng)網(wǎng)絡(luò)中,,卷積運(yùn)算強(qiáng)調(diào)的是平行運(yùn)算,,適合在FPGA上運(yùn)行,但在傳感器融合的部分,,則比較適合在CPU上運(yùn)行,,因其必須將硬件進(jìn)行分割,再將不同的算法,,放到處理器中,。
羅霖指出,,在脫機(jī)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練部分,GPU的確是比較有優(yōu)勢(shì)的,,由于其要求的浮點(diǎn)運(yùn)算性能特別高,,因此不少深度學(xué)習(xí)都是采用GPU,而賽靈思的立場(chǎng)是不會(huì)以FPGA去進(jìn)攻這塊市場(chǎng),,不過若是以在線的任務(wù)來看,,F(xiàn)PGA還是很有優(yōu)勢(shì)的。 目前邊緣運(yùn)算對(duì)嵌入式處理器的要求除了傳感器的接口要夠多,,組件的I/O型態(tài)也十分多變,,可能是高速率、中速率或低速率,,這些處理器都要能支持,,且在線處理的能力也相當(dāng)關(guān)鍵。
蘇家興則表示,,無論是軟件還是硬件公司,,都須要對(duì)訓(xùn)練好的深度學(xué)習(xí)模型進(jìn)行優(yōu)化,除了邊緣設(shè)備會(huì)采用縮小化的模型,,在服務(wù)器與數(shù)據(jù)中心端,,也會(huì)有某些情境需要采用這些優(yōu)化過的模型去做推論。 舉例而言,,F(xiàn)acebook,、百度在做語音識(shí)別的推論時(shí),若能透過優(yōu)化的模型讓運(yùn)作更快,,勢(shì)必能讓消耗的功耗越少,。
不過,并不是所有的應(yīng)用都適合做前端邊緣運(yùn)算,。 以AlphaGo來看,,其是以32臺(tái)服務(wù)器在做運(yùn)算,因AlphaGo運(yùn)算量非常大,,所以就不太可能進(jìn)行邊緣運(yùn)算,,因1臺(tái)服務(wù)器與32臺(tái)服務(wù)器運(yùn)算的精準(zhǔn)度,絕對(duì)是有差異的,。 若以語音識(shí)別來看,,即便可以同時(shí)采用在線與脫機(jī)的方式進(jìn)行,但精準(zhǔn)度也勢(shì)必會(huì)有落差,。
蘇家興指出,,應(yīng)用開發(fā)商須盡快分辨出哪些運(yùn)算任務(wù)適合采用邊緣運(yùn)算,哪些部分還是得留在服務(wù)器端執(zhí)行,。 舉例來說,,當(dāng)無人機(jī)飛到有些沒有網(wǎng)絡(luò)的地方,,便必須運(yùn)用邊緣運(yùn)算,設(shè)計(jì)出可承載范圍內(nèi)的推論,。 NVIDIA相信,,未來數(shù)據(jù)中心與邊緣運(yùn)算將會(huì)并存,但在瞄準(zhǔn)的應(yīng)用上必定會(huì)有所不同,。