自動(dòng)駕駛是邊緣計(jì)算的重要應(yīng)用,,自動(dòng)駕駛需要100-1000TOPS邊緣AI算力,其具有高性能,、低功耗特點(diǎn)的邊緣AI(Edge AI)成了行業(yè)壁壘,。
AI計(jì)算需要域來(lái)優(yōu)化算法和數(shù)據(jù)流架構(gòu),摩爾定律已逼近極限,,若沒(méi)有正確的算法和架構(gòu),僅基于處理技術(shù)的驅(qū)動(dòng)性能將無(wú)法實(shí)現(xiàn)預(yù)期的結(jié)果。
整體邊緣計(jì)算市場(chǎng)規(guī)模高速增長(zhǎng),。圖片來(lái)源:IDC
未來(lái)計(jì)算平臺(tái)
第一類:馮·諾依曼人工智能架構(gòu)
哈佛大學(xué)推出了參數(shù)化深度學(xué)習(xí)基準(zhǔn)套件ParaDNN,這是一種系統(tǒng)化,、科學(xué)化的跨平臺(tái)基準(zhǔn)測(cè)試工具,,不僅可以比較運(yùn)行各種不同深度學(xué)習(xí)模型的各類平臺(tái)的性能,還可以支持對(duì)跨模型屬性交互作用的深入分析,、硬件設(shè)計(jì)和軟件支持,。
TPU(Tensor Processing Unit, 即TPU張量處理單元)是谷歌打造的處理器,專為機(jī)器學(xué)習(xí)量身定做的,,執(zhí)行每個(gè)操作所需的晶體管數(shù)量更少,,效率更高。TPU對(duì)CNN和DNN的大批量數(shù)據(jù)進(jìn)行了高度優(yōu)化,,具有最高的訓(xùn)練吞吐量,。
GPU表現(xiàn)出與TPU類似的性能,但對(duì)于不規(guī)則計(jì)算(如小批量和非MatMul計(jì)算)具有更好的靈活性和可編程性,。
CPU在針對(duì)RNN方面實(shí)現(xiàn)了最高的FLOPS利用率,,并且因其內(nèi)存容量大而支持最大模型。
第二類:非 馮·諾依曼人工智能架構(gòu)
內(nèi)存計(jì)算(CIM):基于SRAM,、NAND閃存以及新興內(nèi)存(如ReRAM,、CeRAM、MRAM)的CIM陣列被視為神經(jīng)網(wǎng)絡(luò)計(jì)算的可重新配置,、可重新編程加速器,。CIM優(yōu)點(diǎn):高性能、高密度,、低功耗和低延遲,。當(dāng)前的挑戰(zhàn):讀出位線模擬信號(hào)傳感和專用RAM處理技術(shù)的ADC。
神經(jīng)形態(tài)計(jì)算:神經(jīng)形態(tài)計(jì)算將AI擴(kuò)展到與人類認(rèn)知相對(duì)應(yīng)的領(lǐng)域,,如解釋和自主適應(yīng),。下一代人工智能必須能夠處理新的情況和抽象,以自動(dòng)化普通人類活動(dòng),。
量子計(jì)算:在量子計(jì)算中,,最小的數(shù)據(jù)單位是基于磁場(chǎng)自旋的量子位?;诹孔蛹m纏,,量子計(jì)算允許2個(gè)以上的狀態(tài),,糾纏速度非常快(比如:Google Sycamore,、Quantum Supremay,、53個(gè)Qbits、速度快1.5萬(wàn)億倍,、在200秒內(nèi)完成一項(xiàng)需要經(jīng)典計(jì)算機(jī)10000年才能完成的任務(wù)),。當(dāng)前的挑戰(zhàn):嘈雜中型量子(NISQ)計(jì)算機(jī)中的錯(cuò)誤率和消相干。
量子神經(jīng)形態(tài)計(jì)算:量子神經(jīng)形態(tài)計(jì)算在類腦量子硬件中物理實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò),,以加快計(jì)算速度。
邊緣AI與垂直應(yīng)用
邊緣人工智能將主導(dǎo)未來(lái)的計(jì)算,,人工智能是一種能實(shí)現(xiàn)未來(lái)水平和垂直應(yīng)用的技術(shù),。
水平人工智能應(yīng)用解決了許多不同行業(yè)的廣泛?jiǎn)栴}(例如計(jì)算機(jī)視覺(jué)和語(yǔ)音識(shí)別);
垂直人工智能應(yīng)用是針對(duì)特定領(lǐng)域進(jìn)行高度優(yōu)化的特定行業(yè)(例如高清地圖,、自動(dòng)駕駛定位與導(dǎo)航),。憑借深厚的領(lǐng)域知識(shí),高效的AI模型和算法可將計(jì)算速度提高10-100000倍,。這是未來(lái)人工智能中最核心,、最重要的自動(dòng)駕駛技術(shù)。
所有垂直應(yīng)用解決方案均需要用于多任務(wù)的多級(jí)AI模型,。
AI模型與算法
DNN是人工智能的基礎(chǔ),,如今的DNN使用一種稱為反向傳播的學(xué)習(xí)形式。如今的DNN訓(xùn)練速度慢,,訓(xùn)練后是靜態(tài)的,,有時(shí)在實(shí)際應(yīng)用中不能靈活應(yīng)變。
遷移學(xué)習(xí)是一種將先前開(kāi)發(fā)的DNN“回收”作為DNN學(xué)習(xí)第二項(xiàng)任務(wù)起點(diǎn)的方法,,有了遷移學(xué)習(xí),,DNN可用較少的數(shù)據(jù)訓(xùn)練DNN模型。
持續(xù)(終身)學(xué)習(xí)是指在保留先前學(xué)習(xí)經(jīng)驗(yàn)的同時(shí),,通過(guò)適應(yīng)新知識(shí)不斷學(xué)習(xí)的能力,。例如,與環(huán)境交互的自動(dòng)駕駛需從自己的經(jīng)驗(yàn)中學(xué)習(xí),,且必須能在長(zhǎng)時(shí)間內(nèi)逐步獲取,、微調(diào)和遷移知識(shí)。
強(qiáng)化持續(xù)學(xué)習(xí)(RCL)通過(guò)精心設(shè)計(jì)的強(qiáng)化學(xué)習(xí)策略,,為每個(gè)新任務(wù)尋找最佳的神經(jīng)結(jié)構(gòu),。RCL方法不僅在防止災(zāi)難性遺忘方面具有良好的性能,而且能很好地適應(yīng)新的任務(wù),。
自動(dòng)駕駛系統(tǒng) (ADS) – 功能框圖,。圖片來(lái)源:ARM
自主駕駛技術(shù)需要突破:
邊緣精確定位和導(dǎo)航–輕量化,、基于指紋的精確定位和導(dǎo)航。
關(guān)鍵實(shí)時(shí)響應(yīng)–20-30毫秒,,類似人腦
消除盲區(qū)–V2X,、V2I、DSRC,、5G
可升級(jí)–低功耗和低成本
圖片來(lái)源:ARM
自動(dòng)駕駛需要在高清地圖,、定位和環(huán)境感知中處理大量數(shù)據(jù),邊緣處理的所有數(shù)據(jù)都需要在關(guān)鍵的幾毫秒內(nèi)完成,。在感知,、定位、導(dǎo)航,、強(qiáng)化交互(駕駛策略)方面智能精確地減少數(shù)據(jù),,將使自動(dòng)駕駛系統(tǒng)縮短延遲,并快速響應(yīng)不斷變化的交通狀況,。
強(qiáng)大,、高性能的邊緣人工智能(Edge AI)是自動(dòng)駕駛汽車領(lǐng)域主要壁壘之一。5G連接支持可靠的MIMO連接,、低延遲,、高帶寬。在5G的加持下,,強(qiáng)大的邊緣AI,,加之高清地圖、定位和感知方面的創(chuàng)新,,將使真正的自動(dòng)駕駛成為現(xiàn)實(shí),。