早陣子,國(guó)內(nèi)清華大學(xué)研究團(tuán)隊(duì)發(fā)布了一篇論文,,里面談及了一款領(lǐng)先的芯片和設(shè)計(jì),。這個(gè)新聞在朋友圈引起了廣泛討論。那么這是個(gè)什么芯片,?對(duì)AI又意味著什么,?讓我們?cè)诒疚慕庾x一下。
以下為文章正文:
人工智能是目前半導(dǎo)體芯片行業(yè)最重要的市場(chǎng)驅(qū)動(dòng)力之一,,同時(shí)也是當(dāng)下最有潛力深刻改變整個(gè)人類社會(huì)的技術(shù),。當(dāng)前,最主流的人工智能算法加速芯片是GPU,,但是GPU加速人工智能有著自己的瓶頸,,就是能效比較低。GPU的功耗通常要幾百瓦,,這就使得大規(guī)模部署人工智能充滿了挑戰(zhàn):一方面大規(guī)模數(shù)據(jù)中心需要確保散熱足夠好,,不至于讓GPU過(guò)熱而無(wú)法工作;另一方面,,GPU很高的功耗又為數(shù)據(jù)中心帶來(lái)了很高的供電成本和需求,。
GPU,以及其他絕大多數(shù)人工智能加速芯片,,都屬于常規(guī)的數(shù)字邏輯的計(jì)算范式,。使用數(shù)字邏輯計(jì)算存在幾個(gè)重要的局限性:
首先,,信號(hào)必須要做數(shù)字化,而很多人工智能任務(wù)處理的輸入(例如機(jī)器視覺任務(wù))實(shí)際上并非人工的數(shù)字信息而是物理信號(hào),。這樣的物理信號(hào)數(shù)字化就會(huì)帶來(lái)能量的浪費(fèi),。
其次,在數(shù)字邏輯中,,有一個(gè)全局的時(shí)鐘,,而時(shí)鐘頻率則決定了整個(gè)系統(tǒng)的處理速度。數(shù)字邏輯的時(shí)鐘頻率往往決定于芯片工藝實(shí)現(xiàn)的邏輯門的速度(延遲),,而并非由處理任務(wù)的復(fù)雜程度決定,,因此這樣的數(shù)字時(shí)鐘事實(shí)上也限制了整體芯片處理任務(wù)能實(shí)現(xiàn)的速度。
最后,,數(shù)字邏輯的設(shè)計(jì)中,,尤其是對(duì)于處理人工智能相關(guān)的任務(wù),通常都需要配合一個(gè)存儲(chǔ)單元(尤其是像GPU需要配合DRAM使用),,這樣的數(shù)據(jù)存取和讀取事實(shí)上會(huì)消耗相當(dāng)大的能量,。
與傳統(tǒng)的數(shù)字邏輯計(jì)算范式相比,新模態(tài)計(jì)算則是使用了非常規(guī)的信號(hào)處理和計(jì)算方法(例如光學(xué)處理以及模擬信號(hào)處理),,從而可以很大程度上避免數(shù)字邏輯計(jì)算中的幾大局限,,并且有望為人工智能的高能效比計(jì)算帶來(lái)新的希望。
10月底,,來(lái)自中國(guó)清華大學(xué)的研究組在頂級(jí)期刊《自然》上發(fā)表了使用新模態(tài)計(jì)算加速人工智能的論文《All-analog photoelectronic chip for high-speed vision tasks》,。在該論文中,清華大學(xué)的研究團(tuán)隊(duì)提出了使用光學(xué)和模擬計(jì)算來(lái)加速人工智能計(jì)算的技術(shù),,即all-analog chip combining electronic and light computing (全模擬電子和光子計(jì)算芯片,,ACCEL),并且實(shí)現(xiàn)了相當(dāng)高的計(jì)算性能和能效比(等效算力4600TOP/s,,能效比74800TOP/s/W),,相當(dāng)于Nvidia A100 GPU的3000倍以上。
ACCEL的結(jié)構(gòu)如下圖所示,。
首先,,如論文標(biāo)題所說(shuō)的,ACCEL針對(duì)的是機(jī)器視覺任務(wù)(vision task),,因此輸入是一個(gè)圖像,。值得注意的是,這里的圖像并不是一個(gè)存儲(chǔ)于二進(jìn)制格式的圖像文件,,而是一個(gè)確確實(shí)實(shí)的圖像物理信號(hào)(即光場(chǎng)信號(hào))。我們會(huì)看到的是,,整個(gè)論文中的芯片都是直接處理物理模擬信號(hào),,而不會(huì)做任何模擬-數(shù)字信號(hào)轉(zhuǎn)換,,這里的輸入也因此是一個(gè)模擬物理信號(hào)。
輸入圖像光場(chǎng)信號(hào)首先進(jìn)入光學(xué)處理部分,,即optical analog computing,,OAC。OAC的主要任務(wù)是把圖像信號(hào)進(jìn)行降維處理,。例如,,在ImageNet數(shù)據(jù)集上,圖像輸入是224x224,,相當(dāng)于數(shù)據(jù)維度高達(dá)50000以上,,因此首先需要進(jìn)行降維(和傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)的降采樣層是同一原理和目的)。OAC從物理上是利用光學(xué)衍射讓圖像中的不同像素之間互相交互,,從而等價(jià)地實(shí)現(xiàn)一個(gè)矩陣相乘的過(guò)程,,從實(shí)現(xiàn)上來(lái)說(shuō),OAC可以根據(jù)矩陣的權(quán)重而使用二氧化硅蝕刻出相應(yīng)的圖形來(lái)完成,,換句話說(shuō)OAC的實(shí)現(xiàn)是無(wú)需任何功耗的,,僅僅就是把光透射過(guò)一層掩模版就完成了計(jì)算。在論文中,,作者提到通過(guò)OAC可以實(shí)現(xiàn)高達(dá)98%的降維而不影響計(jì)算精度——換句話說(shuō)OAC可以實(shí)現(xiàn)50倍的數(shù)據(jù)壓縮,,因此這個(gè)無(wú)需功耗的OAC實(shí)際上在整體系統(tǒng)中起到了相當(dāng)重要的作用。
光信號(hào)經(jīng)過(guò)OAC掩模版之后,,照射到ACCEL芯片上的光電二極管陣列上(論文中稱為電子模擬計(jì)算electronic analog computing,,EAC),因此光電二極管陣列中的每一個(gè)光電二極管都會(huì)根據(jù)OAC的輸出產(chǎn)生相應(yīng)的光電流,。此外,,這些光電二極管陣列中的每一個(gè)光電二極管的正極都通過(guò)開關(guān)連接到差分信號(hào)線的正極或者負(fù)極上(該連接可以根據(jù)存儲(chǔ)在SRAM中的內(nèi)容來(lái)配置),因此每一個(gè)光電二極管都會(huì)為差分線的正極或者負(fù)極放電,。最后差分線的正極和負(fù)極經(jīng)過(guò)模擬比較器獲得最終的0或者1的輸出,,同時(shí)也完成了模擬信號(hào)到數(shù)字信號(hào)的轉(zhuǎn)換。整個(gè)ACCEL芯片使用成熟的180nm工藝實(shí)現(xiàn),,可以在約2ns的時(shí)間內(nèi)完成一次計(jì)算,,而一次計(jì)算耗費(fèi)的能量為4.4nJ。
如果我們把OAC和EAC的部分結(jié)合到一起,,事實(shí)上ACCEL從數(shù)學(xué)的角度是實(shí)現(xiàn)了一個(gè)等效的神經(jīng)網(wǎng)絡(luò),,其中OAC是一個(gè)矩陣相乘運(yùn)算,而EAC則是實(shí)現(xiàn)了神經(jīng)網(wǎng)絡(luò)中的非線性激活部分,。根據(jù)論文中的數(shù)據(jù),,使用ACCEL可以在分類(MNIST,KMNIST,,F(xiàn)ashion-MNIST)等機(jī)器視覺任務(wù)中實(shí)現(xiàn)和傳統(tǒng)數(shù)字卷積神經(jīng)網(wǎng)絡(luò)類似的精度,,但是使用ACCEL可以在處理速度和處理能效比上實(shí)現(xiàn)幾個(gè)數(shù)量級(jí)的提升:這里的原因其實(shí)也很簡(jiǎn)單,,卷積神經(jīng)網(wǎng)絡(luò)使用傳統(tǒng)數(shù)字邏輯計(jì)算時(shí),最耗費(fèi)計(jì)算時(shí)間和能量的矩陣計(jì)算在這里直接使用光學(xué)計(jì)算完成了,,而光學(xué)計(jì)算耗費(fèi)的時(shí)間是0(光速),,能量也是0;另一方面,,ACCEL中決定任務(wù)處理速度的事實(shí)上是模擬電路部分,,比較器的積分和開關(guān)時(shí)間決定了總體的任務(wù)處理時(shí)間。
值得注意的是,,目前的ACCEL芯片是一個(gè)小型的芯片(使用了32x32陣列)并且使用了20多年前的180nm工藝,,主要用于概念驗(yàn)證。如果使用更先進(jìn)的工藝實(shí)現(xiàn)更大的陣列,,則首先可以支持更大的神經(jīng)網(wǎng)絡(luò)以支持更復(fù)雜的任務(wù),,其次可以實(shí)現(xiàn)更高的處理速度(模擬電路處理速度即使是使用28nm這樣的成熟工藝也會(huì)數(shù)倍于180nm)。因此,,本次報(bào)道的ACCEL的性能數(shù)字還遠(yuǎn)遠(yuǎn)沒有達(dá)到該技術(shù)可能實(shí)現(xiàn)的上限,。
對(duì)于未來(lái)人工智能和芯片的潛在影響
清華大學(xué)的ACCEL可謂是非常優(yōu)秀的科研工作,其實(shí)現(xiàn)的高性能也為未來(lái)應(yīng)用提供了新希望,。我們看到,,ACCEL可以實(shí)現(xiàn)非常高的處理速度和非常好的能效比;同時(shí),,該技術(shù)的局限性在于(1)由于使用光學(xué)計(jì)算,,因此最適合機(jī)器視覺任務(wù),而對(duì)于目前最火熱的語(yǔ)言類模型則難以支持,;(2)對(duì)于算法和算符的支持,,主要對(duì)于機(jī)器視覺任務(wù)中經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)支持最好,對(duì)于Transformer等模型的支持還需要進(jìn)一步的研究,。
基于該研究的優(yōu)勢(shì)(計(jì)算速度和低能耗)和局限(對(duì)于算法類型的支持),,我們認(rèn)為,ACCEL以及相關(guān)的研究對(duì)于未來(lái)人工智能最主要的影響可能在于對(duì)于一些特定的任務(wù)提供極致的性能,,而不是取代通用的GPU,。這事實(shí)上也和目前的領(lǐng)域?qū)S糜?jì)算(domain-specific computing)來(lái)提供更好的性能及能效比的思路一致。具體來(lái)說(shuō),,以下領(lǐng)域有可能成為ACCEL的應(yīng)用場(chǎng)景:
首先,,是需要超低延遲的應(yīng)用場(chǎng)景,例如汽車或其他高速行駛的場(chǎng)景,。在這樣的場(chǎng)景中,,ACCEL搭配超高幀率的攝像頭(例如目前正在興起的DVS攝像頭芯片,峰值幀率可達(dá)1000fps以上),ACCEL的超低延遲可以滿足在超高幀率的兩幀之間完成人工智能算法的推理,,從而滿足整體系統(tǒng)的需求,。
此外,,ACCEL還可望在觸發(fā)式人工智能系統(tǒng)中得到應(yīng)用,。這里的觸發(fā)式人工智能系統(tǒng)是指人工智能系統(tǒng)有多個(gè)模型組成,在大多數(shù)時(shí)候運(yùn)行常開(always-on)的部分,,而其他更復(fù)雜的人工智能模型僅僅在常開的模塊發(fā)現(xiàn)有需要的時(shí)候才會(huì)觸發(fā)打開,。由于ACCEL的延遲和能效比都非常優(yōu)秀,因此非常適合在這樣的觸發(fā)式人工智能中擔(dān)任常開的模組,。
未來(lái)如果ACCEL以及相關(guān)的研究需要進(jìn)入更廣泛的應(yīng)用,,還需要研究人員進(jìn)一步努力以支持更復(fù)雜的算法和模型結(jié)構(gòu),但是我們認(rèn)為,,前景是光明的,,讓我們拭目以待。