深度學(xué)習(xí)全稱(chēng)深度神經(jīng)網(wǎng)絡(luò),,本質(zhì)上是多層次的人工神經(jīng)網(wǎng)絡(luò)算法,,即模仿人腦的神經(jīng)網(wǎng)絡(luò),,從最基本的單元上模擬了人類(lèi)大腦的運(yùn)行機(jī)制。近年來(lái),,其所取得的前所未有的突破掀起了人工智能新一輪的發(fā)展熱潮。
最早的神經(jīng)網(wǎng)絡(luò)的思想起源于 1943 年的 MCP 人工神經(jīng)元模型,,當(dāng)時(shí)是希望能夠用計(jì)算機(jī)來(lái)模擬人的神經(jīng)元反應(yīng)的過(guò)程,,但直到最近,它才真正讓人工智能火起來(lái),。主要原因在于:算法的突破,、數(shù)據(jù)量的激增和計(jì)算機(jī)能力/成本的下降。其中計(jì)算能力的提升的作為人工智能實(shí)現(xiàn)的物理基礎(chǔ),,對(duì)人工智能發(fā)展的意義不言而喻,。
本文我們就來(lái)分析目前主流的深度學(xué)習(xí)芯片的優(yōu)缺點(diǎn)。
CPU 不適合深度學(xué)習(xí)
深度學(xué)習(xí)與傳統(tǒng)計(jì)算模式最大的區(qū)別就是不需要編程,,它是從輸入的大量數(shù)據(jù)中自發(fā)地總結(jié)出規(guī)律,,而傳統(tǒng)計(jì)算模式更多都需要人為提取所需解決問(wèn)題的特征或者總結(jié)規(guī)律來(lái)進(jìn)行編程。也正因?yàn)槿绱?,深度學(xué)習(xí)對(duì)計(jì)算能力要求非常高,,以至于有人將深度學(xué)習(xí)稱(chēng)之為“暴力計(jì)算”。
因此,,傳統(tǒng)的 CPU 并不適用于深度學(xué)習(xí),。
從內(nèi)部結(jié)構(gòu)上來(lái)看,,CPU 中 70%晶體管都是用來(lái)構(gòu)建 Cache(高速緩沖存儲(chǔ)器)和一部分控制單元,負(fù)責(zé)邏輯運(yùn)算的部分(ALU 模塊)并不多,??刂茊卧饶K的存在都是為了保證指令能夠一條接一條的有序執(zhí)行。
這種通用性結(jié)構(gòu)對(duì)于傳統(tǒng)的編程計(jì)算模式非常適合,,但對(duì)于并不需要太多的程序指令,,卻需要海量數(shù)據(jù)運(yùn)算的深度學(xué)習(xí)的計(jì)算需求,這種結(jié)構(gòu)就顯得有心無(wú)力了,。
GPU 深度學(xué)習(xí)主流芯片
與 CPU 少量的邏輯運(yùn)算單元相比,,GPU 整個(gè)就是一個(gè)龐大的計(jì)算矩陣,GPU 具有數(shù)以千計(jì)的計(jì)算核心,、可實(shí)現(xiàn) 10-100 倍應(yīng)用吞吐量,,而且它還支持對(duì)深度學(xué)習(xí)至關(guān)重要的并行計(jì)算能力,可以比傳統(tǒng)處理器更加快速,,大大加快了訓(xùn)練過(guò)程,。GPU 是目前最普遍采用的深度學(xué)習(xí)運(yùn)算單元之一。
目前,,谷歌,、Facebook、微軟,、Twitter 和百度等互聯(lián)網(wǎng)巨頭,,都在使用 GPU 作為其深度學(xué)習(xí)載體,讓服務(wù)器學(xué)習(xí)海量的照片,、視頻,、聲音文檔,以及社交媒體上的信息,,來(lái)改善搜索和自動(dòng)化照片標(biāo)記等各種各樣的軟件功能,。而某些汽車(chē)制造商也在利用這項(xiàng)技術(shù)開(kāi)發(fā)無(wú)人駕駛汽車(chē)。
不過(guò),,由于 GPU 的設(shè)計(jì)初衷是為了應(yīng)對(duì)圖像處理中需要大規(guī)模并行計(jì)算,。因此,根據(jù)樂(lè)晴智庫(kù)介紹,,其在應(yīng)用于深度學(xué)習(xí)算法時(shí)有數(shù)個(gè)方面的局限性:
第一,, 應(yīng)用過(guò)程中無(wú)法充分發(fā)揮并行計(jì)算優(yōu)勢(shì)。深度學(xué)習(xí)包含訓(xùn)練和應(yīng)用兩個(gè)計(jì)算環(huán)節(jié),,GPU 在深度學(xué)習(xí)算法訓(xùn)練上非常高效,,但在應(yīng)用時(shí)一次性只能對(duì)于一張輸入圖像進(jìn)行處理, 并行度的優(yōu)勢(shì)不能完全發(fā)揮。
第二,, 硬件結(jié)構(gòu)固定不具備可編程性,。深度學(xué)習(xí)算法還未完全穩(wěn)定,若深度學(xué)習(xí)算法發(fā)生大的變化,,GPU 無(wú)法靈活的配置硬件結(jié)構(gòu)。
另外,,在能耗上面,,雖然 GPU 要好于 CPU,但其能耗仍舊很大,。
備受看好的 FPGA
FPGA,,即現(xiàn)場(chǎng)可編輯門(mén)陣列,是一種新型的可編程邏輯器件,,由于其具有靜態(tài)可重復(fù)編程和動(dòng)態(tài)在系統(tǒng)重構(gòu)的特性,,使得硬件的功能可以像軟件一樣通過(guò)編程來(lái)修改。
FPGA 作為人工智能深度學(xué)習(xí)方面的計(jì)算工具,,主要原因就在于其本身特性:可編程專(zhuān)用性,,高性能,低功耗,。
北京大學(xué)與加州大學(xué)的一個(gè)關(guān)于 FPGA 加速深度學(xué)習(xí)算法的合作研究,。展示了 FPGA 與 CPU 在執(zhí)行深度學(xué)習(xí)算法時(shí)的耗時(shí)對(duì)比。在運(yùn)行一次迭代時(shí),,使用 CPU 耗時(shí) 375 毫秒,,而使用 FPGA 只耗時(shí) 21 毫秒,取得了 18 倍左右的加速比,。
根據(jù)瑞士蘇黎世聯(lián)邦理工學(xué)院 (ETHZurich) 研究發(fā)現(xiàn),,基于 FPGA 的應(yīng)用加速比 CPU/GPU 方案,單位功耗性能可提升 25 倍,,而時(shí)延則縮短了 50 到 75 倍,,與此同時(shí)還能實(shí)現(xiàn)出色的 I/O 集成。而微軟的研究也表明,,F(xiàn)PGA 的單位功耗性能是 GPU 的 10 倍以上,,由多個(gè) FPGA 組成的集群能達(dá)到 GPU 的圖像處理能力并保持低功耗的特點(diǎn)。
根據(jù)英特爾預(yù)計(jì),,到 2020 年,,將有 1/3 的云數(shù)據(jù)中心節(jié)點(diǎn)采用 FPGA 技術(shù)。
不可估量的 ASIC
ASIC(Application Specific Integrated Circuits,,專(zhuān)用集成電路),,是指應(yīng)特定用戶(hù)要求或特定電子系統(tǒng)的需要而設(shè)計(jì)、制造的集成電路。ASIC 用于專(zhuān)門(mén)的任務(wù),,比如去除噪聲的電路,,播放視頻的電路,但是 ASIC 明顯的短板是不可更改任務(wù),。但與通用集成電路相比,,具有以下幾個(gè)方面的優(yōu)越性:體積更小、功耗更低,、可靠性提高,、性能提高、保密性增強(qiáng),、成本降低,。
從算力上來(lái)說(shuō),ASIC 產(chǎn)品的計(jì)算能力是 GK210 的 2.5 倍,。功耗上,,ASIC 功耗做到了 GK210 的 1/15。
當(dāng)然 ASIC 是能效最高的,,但目前,,都在早期階段,算法變化各異,。想搞一款通用的 ASIC 適配多種場(chǎng)景,,還是有很多路需要走的。但從比特幣挖礦機(jī)經(jīng)歷的從 CPU,、GPU,、FPGA 到最后 ASIC 的四個(gè)階段來(lái)推論,ASIC 將是人工智能發(fā)展的重要趨勢(shì)之一,。另外,,在通信領(lǐng)域,F(xiàn)PGA 曾經(jīng)也是風(fēng)靡一時(shí),,但是隨著 ASIC 的不斷發(fā)展和蠶食,,F(xiàn)PGA 的份額和市場(chǎng)空間已經(jīng)岌岌可危。
據(jù)了解,,谷歌最近曝光的專(zhuān)用于人工智能深度學(xué)習(xí)計(jì)算的 TPU,,其實(shí)也是一款 ASIC。