《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 解決方案 > 打破內(nèi)存墻,、功耗墻 國(guó)產(chǎn)芯片AI-NPU的現(xiàn)在和未來(lái)

打破內(nèi)存墻、功耗墻 國(guó)產(chǎn)芯片AI-NPU的現(xiàn)在和未來(lái)

2022-07-09
作者:劉建偉,,愛(ài)芯元智聯(lián)合創(chuàng)始人
來(lái)源:愛(ài)芯元智

隨著5G的落地,物聯(lián)網(wǎng)的成本效益顯現(xiàn),工業(yè)數(shù)字化、城市智慧化等演進(jìn)趨勢(shì)日益明顯,,越來(lái)越多的企業(yè)和城市開(kāi)始在物聯(lián)網(wǎng)創(chuàng)新中加入數(shù)字孿生這種顛覆性的概念,來(lái)提高生產(chǎn)力和生產(chǎn)效率,、降低成本,加速新型智慧城市的建設(shè),。值得一提的是,,數(shù)字孿生技術(shù)已被寫(xiě)進(jìn)國(guó)家“十四五”規(guī)劃,為數(shù)字孿生城市建設(shè)提供國(guó)家戰(zhàn)略指引,。

1657188966264064341.png

關(guān)于數(shù)字孿生,,我們可以舉個(gè)例子,前幾年亞馬遜和京東推過(guò)的無(wú)人零售概念型實(shí)體店,,將線(xiàn)下零售店變成了線(xiàn)上淘寶店,,人們?nèi)サ昀镔?gòu)物前只需打開(kāi)APP,在設(shè)置中完成刷臉登錄,,臉部認(rèn)證成功后,,在刷臉開(kāi)門(mén)時(shí)即可自動(dòng)關(guān)聯(lián)賬戶(hù),購(gòu)物后不用排隊(duì)手動(dòng)結(jié)賬,,只靠刷臉即可離開(kāi),。看似無(wú)人管理,,但背后卻是人工智能的全程跟蹤,,消費(fèi)者的一舉一動(dòng)都被攝像頭捕捉了下來(lái),比如你把什么商品拿起來(lái)看了又看,,意味著你對(duì)這個(gè)商品很有興趣,,但是出于某種顧慮又沒(méi)買(mǎi),最終買(mǎi)了另外的商品,,這樣的數(shù)據(jù)會(huì)被抓取下來(lái),,進(jìn)行深層次的分析,形成基礎(chǔ)數(shù)據(jù)庫(kù),,之后就可以根據(jù)你所有的購(gòu)物記錄和消費(fèi)習(xí)慣進(jìn)行周期性的推送等,。

通過(guò)這個(gè)例子,,我們可以看到將物理世界數(shù)字化帶來(lái)的便利性。而視覺(jué)是人類(lèi)感知世界的一個(gè)重要手段,。人類(lèi)進(jìn)入智能社會(huì)的基礎(chǔ)是數(shù)字化,,感知是將物理世界數(shù)字化的前提,而前端視覺(jué)感知的種類(lèi),、數(shù)量和質(zhì)量決定了我們這個(gè)社會(huì)智能化程度的高低,。由此可見(jiàn),智能化未來(lái)的基礎(chǔ)是“感知+計(jì)算”,,AI視覺(jué)在智能化的進(jìn)程中會(huì)起到非常關(guān)鍵的作用,,具備非常廣闊的應(yīng)用前景。有行業(yè)分析師認(rèn)為,,數(shù)字孿生技術(shù)即將超越制造業(yè),,進(jìn)入物聯(lián)網(wǎng)、人工智能和數(shù)據(jù)分析等整合領(lǐng)域,。這也就是我們選擇了這個(gè)創(chuàng)業(yè)方向的原因,。

而視覺(jué)芯片作為物理世界到數(shù)字孿生世界最重要的入口,正受到廣泛關(guān)注,,尤其是能夠?qū)ξ锢硎澜邕M(jìn)行80%-90%還原的AI視覺(jué)感知芯片,。

那么什么是AI視覺(jué)感知芯片呢?從需求端的角度來(lái)看,,AI視覺(jué)感知芯片需要具備兩大功能:一是看得清,,二是看得懂,其中AI-ISP負(fù)責(zé)的就是看得清,,AI-NPU負(fù)責(zé)看得懂,。

事實(shí)上,從廣義上來(lái)講,,在人工智能應(yīng)用中能實(shí)現(xiàn)AI加速的芯片都可以被稱(chēng)為AI芯片,,而其中用來(lái)提高AI算法運(yùn)行效率的模塊往往被稱(chēng)為NPU(神經(jīng)網(wǎng)絡(luò)處理器)。目前,,使用NPU加速的AI視覺(jué)芯片已被廣泛地應(yīng)用于大數(shù)據(jù),、智能駕駛和圖像處理領(lǐng)域。

根據(jù)IDC發(fā)布的最新數(shù)據(jù)顯示,,2021年加速服務(wù)器市場(chǎng)規(guī)模達(dá)到53.9億美元,,同比增長(zhǎng)68.6%。其中,,GPU服務(wù)器以90%的市場(chǎng)份額占據(jù)主導(dǎo)地位,,ASIC和FPGA等非GPU加速服務(wù)器以43.8%的增速占有了11.6%的市場(chǎng)份額,達(dá)到6.3億美元。這意味著神經(jīng)網(wǎng)絡(luò)處理器NPU的應(yīng)用已走出早期試點(diǎn)階段,,正成為人工智能業(yè)務(wù)中的關(guān)鍵需求,。所以,今天我們就來(lái)聊聊負(fù)責(zé)“看得更清”以及“看得懂”的AI-NPU,。

為什么會(huì)說(shuō)看得更清和AI-NPU也有關(guān)系呢,?從人們直觀感受的角度出發(fā),“看得清”很好理解,,比如在夜間我們想要把東西看得比較清楚,,但傳統(tǒng)攝像頭拍攝出的圖片往往會(huì)出現(xiàn)過(guò)曝、色彩細(xì)節(jié)被淹沒(méi)的現(xiàn)象,,同時(shí)走動(dòng)的人和遠(yuǎn)處的建筑物周?chē)鷷?huì)布滿(mǎn)噪點(diǎn),。那么,在類(lèi)似這種情況下,,如何才能更好地實(shí)現(xiàn)“看得清”呢,?事實(shí)上,視覺(jué)芯片要“看得清”離不開(kāi)的正是AI-NPU大算力的支撐,。

以智慧城市為例,,我們已經(jīng)使用500萬(wàn)像素的攝像頭在做智能分析。傳統(tǒng)的視頻畫(huà)質(zhì)的改善使用的是傳統(tǒng)的ISP技術(shù),,在暗光的場(chǎng)景下,,會(huì)有大量的噪聲,,使用AI-ISP可以解決此問(wèn)題,,在暗光場(chǎng)景下依然可以給出清晰的畫(huà)面,但是使用AI-ISP的技術(shù),,就必須用AI算法全分辨率,、全幀率地對(duì)視頻進(jìn)行處理,而不能采用投機(jī)取巧的縮小分辨率或者跳幀的方式進(jìn)行,,因?yàn)槿搜蹖?duì)于畫(huà)質(zhì)的閃爍非常敏感,。而500萬(wàn)像素的視頻碼流,要做到全分辨率,、全幀率的處理,,就會(huì)對(duì)NPU的算力提出非常高的要求。

在智能分析的場(chǎng)景中,,比如車(chē)輛檢測(cè)和車(chē)牌識(shí)別的應(yīng)用,,目前常見(jiàn)的是采用500萬(wàn)的攝像頭來(lái)錄制30fps幀率的視頻,然后每3/5幀做一次檢測(cè),,在做檢測(cè)的時(shí)候分辨率降到720P的方法,,對(duì)于在視頻畫(huà)面中遠(yuǎn)處的車(chē)牌就會(huì)識(shí)別不出來(lái),對(duì)于高速行駛的車(chē)輛就可能會(huì)漏檢,解決方法也是盡量采用全分辨率,、更高幀率檢測(cè)的方式進(jìn)行處理,,而這種做法對(duì)NPU的算力同樣提出了非常高的要求。

此外,,如同前面提到的,,除了看得清之外,我們還需要看得懂,,所謂看得懂就是要做智能分析,,要做智能分析也需要AI-NPU大算力的支撐,我們可以從兩個(gè)角度來(lái)看這個(gè)問(wèn)題,。

首先,,我們知道AI本身是一個(gè)提高效率的工具,它最終還是要落入到場(chǎng)景里面去,,這也就是早期的AI+和最近的+AI的概念,。那么,當(dāng)AI落到行業(yè)里面去時(shí),,它能做些什么事情呢,?事實(shí)上,AI能做的事情很多,,比如可以把一些行業(yè)的專(zhuān)家系統(tǒng)用神經(jīng)網(wǎng)絡(luò)的方式做一些替代,,這就相當(dāng)于我們要把這樣一個(gè)“專(zhuān)家”裝到我們的AI芯片里,這個(gè)專(zhuān)家系統(tǒng)要足夠聰明,,對(duì)應(yīng)的就是一個(gè)比較聰明或者比較大的網(wǎng)絡(luò),,網(wǎng)絡(luò)比較大就相當(dāng)于腦容量比較大,它能夠維持存儲(chǔ)更多的權(quán)重值,,這就會(huì)對(duì)NPU算力提出很高的要求,。

其次,從部署的角度來(lái)看,,目前我們模型的訓(xùn)練大都是在大算力的Server上跑出來(lái)的,,而部署是在算力有限的端側(cè)設(shè)備上,只有將模型或算法的計(jì)算量降到端側(cè)能跑起來(lái)的程度,,才能在應(yīng)用側(cè)更好的落地,。因此需要模型壓縮的過(guò)程,而模型壓縮對(duì)技術(shù)人員的技術(shù)要求很高,。如果我們端側(cè)的算力比較高,,其實(shí)這個(gè)過(guò)程是可以縮短的。這類(lèi)似于做嵌入式軟件開(kāi)發(fā)的過(guò)程,,早期受限于算力瓶頸,,為了能夠跑更多的功能,,我們需要非常認(rèn)真地來(lái)壓榨硬件的性能,所以用匯編來(lái)寫(xiě)程序,,但如果算力比較高,,我們就可以用C語(yǔ)言來(lái)做開(kāi)發(fā)。換言之,,用一部分算力來(lái)?yè)Q取開(kāi)發(fā)效率的提升,、AI落地的加速是可行的,但這種做法又反過(guò)來(lái)提高了對(duì)NPU算力的要求,。

以上,,我們分析了AI視覺(jué)感知芯片公司為什么要開(kāi)發(fā)高性能大算力NPU的驅(qū)動(dòng)力,但要真正實(shí)現(xiàn)大算力的芯片開(kāi)發(fā)難度是非常大的,。

眾所周知,,算力是NPU性能的重要指標(biāo),然而很多早期AI芯片的算力其實(shí)是標(biāo)稱(chēng)值,,真正使用時(shí)并不能達(dá)到標(biāo)稱(chēng)的性能,。比如號(hào)稱(chēng)1T的算力,結(jié)果實(shí)際跑下來(lái)發(fā)現(xiàn)只能用到200G或者是3~400G的水平,。所以,,大家現(xiàn)在使用更加實(shí)用的FPS/W或FPS/$作為衡量先進(jìn)算法在計(jì)算平臺(tái)上運(yùn)行效率的評(píng)價(jià)指標(biāo)。

在自動(dòng)駕駛領(lǐng)域,,2017年特斯拉發(fā)布FSD芯片時(shí),,馬斯克用FSD和此前在特斯拉上應(yīng)用的英偉達(dá)DrivePX2相比,表示:“從算力的角度來(lái)看,,F(xiàn)SD是DrivePX2的3倍,,但在執(zhí)行自動(dòng)駕駛?cè)蝿?wù)時(shí),其FPS是后者的21倍,?!?/p>

在AI視覺(jué)芯片領(lǐng)域,,愛(ài)芯元智發(fā)布的第一款高性能,、低功耗的人工智能視覺(jué)處理器芯片AX630A,在公開(kāi)數(shù)據(jù)集下的不同神經(jīng)網(wǎng)絡(luò)運(yùn)行速度對(duì)比,,每秒處理幀數(shù)分別為3116和1356,,遠(yuǎn)超其他同類(lèi)芯片產(chǎn)品,且功耗僅約3W,。

到底是什么拉開(kāi)了這些NPU利用率的差距,?這背后其實(shí)是內(nèi)存墻和功耗墻的問(wèn)題。所謂內(nèi)存墻就是當(dāng)我們通過(guò)堆MAC單元來(lái)拉高算力指標(biāo)的同時(shí),,數(shù)據(jù)帶寬一定要跟上,,否則數(shù)據(jù)供應(yīng)能力不足,,就會(huì)帶來(lái)MAC單元不斷等待數(shù)據(jù)的現(xiàn)象,處理性能就會(huì)下降,。而功耗墻的問(wèn)題主要來(lái)自?xún)蓚€(gè)方面:MAC單元和DDR,。當(dāng)我們通過(guò)堆MAC單元來(lái)拉高算力指標(biāo)時(shí),MAC單元本身的耗電總量會(huì)提升,,同時(shí)還需要高帶寬的支撐,,在服務(wù)器側(cè)可以使用比較貴的HBM,如此一來(lái)DDR所需的功耗勢(shì)必會(huì)拉升上去,,而在端側(cè),,出于成本的考量,還沒(méi)有特別好的DDR方案,。

為了解決阻礙AI落地的內(nèi)存墻和功耗墻這兩個(gè)共性問(wèn)題,,業(yè)界常用的方法有兩種,一種是存算一體,,但會(huì)受到工藝節(jié)點(diǎn)瓶頸的限制,,距離量產(chǎn)還有一定的距離;另外一種是減少數(shù)據(jù)搬運(yùn),。愛(ài)芯元智就是通過(guò)混合精度技術(shù)減少了數(shù)據(jù)搬運(yùn),,從而在一定程度上減小了內(nèi)存墻和功耗墻的阻礙,提高了整個(gè)NPU的效率,。

那么,,混合精度是如何減少數(shù)據(jù)搬運(yùn)的呢?首先我們要明確混合精度的概念——混合精度就是將不同精度的浮點(diǎn)數(shù)/定點(diǎn)進(jìn)行數(shù)值計(jì)算,。

1657189069099071578.png

圖|神經(jīng)網(wǎng)絡(luò)示意圖(簡(jiǎn)化版)

如上圖所示,,其每一數(shù)列被稱(chēng)為一個(gè)layer層,最左邊的是輸入層,,最右邊的是輸出層,,中間的部分是隱藏層。圖中的每個(gè)圓圈代表一個(gè)神經(jīng)元,,每一個(gè)神經(jīng)元上都有很多鏈接,,鏈接上的數(shù)字是權(quán)重,它是參與計(jì)算的重要組成,。如果權(quán)重是小數(shù)的話(huà),,則代表著其為浮點(diǎn)數(shù)。

在整個(gè)神經(jīng)網(wǎng)絡(luò)中,,權(quán)重系數(shù)比較復(fù)雜,,傳統(tǒng)NPU的數(shù)據(jù)表示格式一般是8比特、16比特和浮點(diǎn)數(shù),,才能達(dá)到AI算法的精度,,所以運(yùn)算量繁重,。但愛(ài)芯元智發(fā)現(xiàn),在實(shí)際應(yīng)用中,,AI網(wǎng)絡(luò)中有的信息是有冗余的,,這意味著并不是所有的計(jì)算都需要高精度的浮點(diǎn)或是高精度的16比特,而是采用8比特或者4比特等低精度混合運(yùn)算就足夠了,。

在愛(ài)芯元智的AI-ISP應(yīng)用中,,就是基于混合精度技術(shù),網(wǎng)絡(luò)中許多中間層都是采用INT4精度,。相比原來(lái)的8比特網(wǎng)絡(luò),,數(shù)據(jù)搬運(yùn)量可能就變成原來(lái)的1/2,計(jì)算量縮減為1/4,。由此便可以提升NPU的使用率和效率,,在單位面積內(nèi)提供數(shù)倍于傳統(tǒng)NPU的等效算力,同時(shí)還能把成本和功耗降下來(lái),,更有利于端側(cè)和邊緣側(cè)AI落地,。

當(dāng)然,在AI落地的過(guò)程中,,除了要解決內(nèi)存墻和功耗墻問(wèn)題以外,,還需要考慮算法和硬件的結(jié)合問(wèn)題。尤其是在端側(cè)和邊緣側(cè),,芯片天生就和場(chǎng)景有一種弱耦合的關(guān)系,,所以愛(ài)芯元智在設(shè)計(jì)AI視覺(jué)芯片時(shí),采用了從應(yīng)用到算法再到NPU的聯(lián)合優(yōu)化設(shè)計(jì),。

具體來(lái)講,,在傳統(tǒng)的AI方案中,算法和硬件通常是相互獨(dú)立的兩部分,。但愛(ài)芯元智的算法團(tuán)隊(duì)會(huì)在NPU設(shè)計(jì)早期就將算法網(wǎng)絡(luò)的結(jié)構(gòu),、量化需求/算子需求、內(nèi)存訪(fǎng)問(wèn)的需求等很多詳細(xì)信息提供給NPU設(shè)計(jì)的架構(gòu)師,,硬件架構(gòu)師可以根據(jù)這些算法的需求來(lái)調(diào)整或優(yōu)化整個(gè)NPU的設(shè)計(jì),,從而使算法跑起來(lái)的效率達(dá)到優(yōu)化后的水平。與此同時(shí),,硬件工程師也會(huì)把算子硬件加速條件,,例如數(shù)據(jù)流優(yōu)化,、存儲(chǔ)優(yōu)化,、量化限制等硬件限制提供給算法工程師,如此算法工程師在設(shè)計(jì)算法時(shí),,可以考慮到硬件限制,,從算法的角度來(lái)規(guī)避一些硬件上的短板,。兩者結(jié)合,便可以兼顧NPU的硬件和軟件開(kāi)發(fā),,加快AI開(kāi)發(fā)的落地效率,。

基于以上優(yōu)勢(shì)與積累,愛(ài)芯元智先后推出了AX630A,、AX620A,、AX620U、AX170A兩代四顆端側(cè),、邊緣側(cè)AI視覺(jué)感知芯片,。其中,AX170A針對(duì)手機(jī)應(yīng)用場(chǎng)景,,可對(duì)4K30fps的影像進(jìn)行實(shí)時(shí)畫(huà)質(zhì)優(yōu)化,,配合主控芯片可實(shí)現(xiàn)超級(jí)夜景視頻和優(yōu)秀的暗光拍攝功能,實(shí)現(xiàn)夜晚低照度下高清影像的細(xì)膩呈現(xiàn),;AX620A針對(duì)智慧城市,、智能家居等應(yīng)用,不僅能實(shí)現(xiàn)暗光環(huán)境下優(yōu)異的畫(huà)質(zhì)效果,,同時(shí)還能兼顧約1W的低功耗優(yōu)越性能,,滿(mǎn)足電池應(yīng)用方案的功耗需求,兼顧IoT,、智能運(yùn)動(dòng)相機(jī),、手機(jī)等應(yīng)用場(chǎng)景;AX630A針對(duì)智慧城市,、智慧交通等密集場(chǎng)景,,以強(qiáng)大的暗光圖像視頻處理能力和20路1080p30fps的解碼能力,能將高畫(huà)質(zhì),、全智能,、全感知和實(shí)時(shí)分析的能力優(yōu)勢(shì)發(fā)揮到極致,可輕松滿(mǎn)足客戶(hù)“全天候”和“看得清”的核心訴求,。

愛(ài)芯元智深知垂直化生態(tài)是AI芯片的歸途,,所以在提供芯片的同時(shí),還提供demo板等開(kāi)發(fā)套件,、開(kāi)源軟件包,,降低用戶(hù)的開(kāi)發(fā)難度,縮短用戶(hù)的開(kāi)發(fā)周期,。

而從用戶(hù)的角度來(lái)講,,采用第三方的NPU芯片除了能夠降低自身研發(fā)難度,獲得充足的有效AI計(jì)算能力以外,,還能降低開(kāi)發(fā)成本,,這是AI-NPU使用量越大越好用的優(yōu)勢(shì),。

就像愛(ài)芯元智創(chuàng)始人兼CEO仇肖莘博士曾在2021世界人工智能大會(huì)上所說(shuō)的:“希望盡我們的一些努力,能夠?yàn)槭澜绲臄?shù)字化和智能化新基建,,提供更多在邊緣側(cè)和端側(cè)的支持,,給社會(huì)帶來(lái)更多深刻的變化?!?/p>




1文章最后空三行圖片 (1).jpg


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn),。轉(zhuǎn)載的所有的文章,、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,,請(qǐng)及時(shí)通過(guò)電子郵件或電話(huà)通知我們,,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失,。聯(lián)系電話(huà):010-82306118,;郵箱:[email protected]