目前,基于通用GPU的邊緣計(jì)算處理器無法滿足日益增長(zhǎng)的人工智能處理需求。以搭載有圖像識(shí)別和分析功能的邊緣計(jì)算設(shè)備為例,,其系統(tǒng)功耗和發(fā)熱量與通用GPU相比有明顯增加,,不得不通過提升成本擴(kuò)容設(shè)備等方式滿足AI處理需求。
量化DNN引擎
為提高AI處理性能并減少系統(tǒng)功耗,,Socionext開發(fā)了一款采用“量化DNN技術(shù)”的專有體系架構(gòu),它減少了深度學(xué)習(xí)所需的參數(shù)和激活位。該體系架構(gòu)將1-bit (binary),、2-bit (ternary) 低比特率技術(shù)、傳統(tǒng)8-bit技術(shù)及公司獨(dú)創(chuàng)的參數(shù)壓縮技術(shù)結(jié)合,,以較少的計(jì)算資源執(zhí)行大量計(jì)算處理,,并減少數(shù)據(jù)量。
除此以外,,Socionext還開發(fā)了一種新穎的片上存儲(chǔ)技術(shù),,可提供高效的數(shù)據(jù)傳輸,從而減少深度學(xué)習(xí)通常所需的大容量片上或外部存儲(chǔ)器,。
通過結(jié)合上述新技術(shù),,Socionext將AI芯片及“DNN引擎”原型化,并確認(rèn)了其功能和性能,。 原型化芯片通過“YOLO v3”以不到5W的低功耗及30fps的速度實(shí)現(xiàn)了目標(biāo)檢測(cè),,其效率是通用GPU的10倍。 此外,,該芯片還配備了高性能,、低功耗的Arm Cortex-A系列CPU,無需外部處理器即可以單芯片執(zhí)行整個(gè)AI處理,。
深度學(xué)習(xí)軟件開發(fā)環(huán)境
除硬件開發(fā)外,,Socionext還構(gòu)建了深度學(xué)習(xí)軟件開發(fā)環(huán)境,通過結(jié)合TensorFlow作為基本框架,,允許開發(fā)人員用原始低bit位進(jìn)行量化感知訓(xùn)練(Quantization Aware Training)和訓(xùn)練后量化(Post Training Quantization),。