芯片作為產(chǎn)業(yè)鏈技術(shù)要求最高的環(huán)節(jié)之一,,往往是最難攻克的陣地,。2016年,我們談中國(guó)集成電路在芯片環(huán)節(jié)還比較薄弱,;2017上半年,,我們說我國(guó)與美國(guó)的差距主要在硬件方面,尤其是芯片環(huán)節(jié),;2017下半年及2018年,,我們看到一批本土AI芯發(fā)布,很多還帶有“首款”的榮譽(yù)稱號(hào),,首款嵌入式AI芯,、首款人臉識(shí)別AI芯、首款A(yù)I移動(dòng)芯片等等,。
似乎,,集成電路最難攻克的環(huán)節(jié)——芯片,在AI大環(huán)境下,,一切都變得那么EASY,。這是真的嗎?
以上是一位與非網(wǎng)友向小編表達(dá)出的疑惑,。近期,,小編收到很多網(wǎng)友關(guān)于AI芯的疑惑。那么,,在近期的《AI發(fā)現(xiàn)》中,,我們將結(jié)合與非網(wǎng)友的疑惑,講一講AI芯那些事,。
AI芯定義
廣義上講,,可以運(yùn)行AI算法的都可以稱為AI芯片,,只不過效率有高有低;狹義上說,,針對(duì)AI算法專門做了特殊加速設(shè)計(jì)的芯片才是AI芯片,。
AI芯的硬件核心
AI芯的核心就是神經(jīng)網(wǎng)絡(luò)加速器,或者叫深度學(xué)習(xí)加速器,。
AI芯分類
芯片架構(gòu),,四大類芯片
通用類芯片,,代表如CPU,、GPU、FPGA,;
基于FPGA的半定制化芯片,,代表如深鑒科技DPU、百度XPU等,;
全定制化ASIC芯片,,代表如TPU、寒武紀(jì) Cambricon-1A等,;
類腦計(jì)算芯片,,代表如IBM TrueNorth、westwell,、高通Zeroth等,。
功能,訓(xùn)練( Training)與推理(Inference)
訓(xùn)練(Training):通常需要通過大量的數(shù)據(jù)輸入,,或采取增強(qiáng)學(xué)習(xí)等非監(jiān)督學(xué)習(xí)方法,,訓(xùn)練出一個(gè)復(fù)雜的深度神經(jīng)網(wǎng)絡(luò)模型。
該過程對(duì)處理器的計(jì)算能力,、精度,、可擴(kuò)展性等性能要求很高,能勝任此環(huán)節(jié)工作的芯片有英偉達(dá)的GPU集群與Google TPU2.0,。
推理(Inference):利用訓(xùn)練好的模型,,使用新的數(shù)據(jù)去“推理”出各種結(jié)論。
相比訓(xùn)練過程,,推理的計(jì)算量像是個(gè)“小兒科”,,盡管如此,但此過程也涉及大量的矩陣運(yùn)算,。GPU,、FPGA和ASIC在此過程發(fā)揮作用。
應(yīng)用場(chǎng)景,,云端(Cloud/DataCenter)與設(shè)備端(Device/Embedded)
目前,,訓(xùn)練環(huán)節(jié)只能在云端實(shí)現(xiàn)。GPU、FPGA,、ASIC(Google TPU1.0/2.0)等都已應(yīng)用于云端訓(xùn)練環(huán)境,。
設(shè)備端對(duì)AI芯的需求差異大、數(shù)量龐大,,低功耗,、低延遲、低成本是該領(lǐng)域需求趨勢(shì),,如今的xPU與ASIC熱更多集中于該領(lǐng)域,。
搞清楚各類芯在AI格局中所在的位置后,我們就集中精力解答如下的問題:
AI芯與AI通用芯的趨勢(shì)是什么,?
AI通用芯的玩法有哪些,? 誰才是王道?
與非觀點(diǎn):
AI芯的趨勢(shì):從通用到專用,。
該趨勢(shì)包含兩個(gè)層次的含義:某些應(yīng)用場(chǎng)景,,AI專用芯取代AI通用芯;AI通用芯,,從通用到為AI定制,。
AI通用芯玩法:CPU、GPU,、FPGA和DSP共存,。
市場(chǎng)首批AI芯片,幾乎都是以現(xiàn)成的CPU,、GPU,、FPGA和DSP加以組合而成,是和平共處的局面,;如今,,他們卻被視作互撕的幾股勢(shì)力?;蛟S情況并不是這樣,,各種AI芯玩法都有存在的意義。
AI通用芯之間的競(jìng)爭(zhēng),,是一場(chǎng)舊勢(shì)力新套路的競(jìng)爭(zhēng),。
與非論據(jù):
AI芯的趨勢(shì)
曾經(jīng)提及AI通用芯的較量,主要是CPU與GPU兩股勢(shì)力,;后來CPU漸漸淡出大眾視線,,GPU成為AI界寵兒。2016~2017年,,英特爾與英偉在AI市場(chǎng)的地位及發(fā)展也能說明這一點(diǎn),。
黃仁勛曾在演講中表示,,CPU的時(shí)代結(jié)束了。
英特爾懟回去說:不單CPU不行了,,GPU也不行了,。
這說明,英特爾肯定了通用CPU在AI領(lǐng)域無力的事實(shí),,同時(shí)對(duì)通用GPU也提出了質(zhì)疑,。
那么,短板在哪,?是“通用”還是“處理器類型”,?
小編認(rèn)為是“通用”,而不同處理器類型是面向不同應(yīng)用場(chǎng)景總有自身可發(fā)揮的優(yōu)勢(shì),。
GPU贏過CPU就是因?yàn)镚PU比CPU專用,。GPU借助在深度學(xué)習(xí)方面的優(yōu)勢(shì),成為最有競(jìng)爭(zhēng)力的AI芯片,;CPU通用性強(qiáng),適用于串行計(jì)算,,對(duì)于AI算力而言,,較緩慢。當(dāng)然,,CPU與GPU都不是發(fā)展AI最專用的芯片,。
2017年12月,IBM推出首個(gè)為AI而生的服務(wù)器CPU POWER9,,旨在為數(shù)據(jù)密集型人工智能工作負(fù)載管理自由流動(dòng)數(shù)據(jù),、流傳感器及算法。該處理器采用14納米技術(shù),,嵌入80億個(gè)晶體管,。
POWER9試圖通過最新的技術(shù)和聯(lián)盟來解決系統(tǒng)短板——異構(gòu)處理器是否有足夠的帶寬與系統(tǒng)的其它部分進(jìn)行通信。
從通用CPU到AI定制CPU,,POWER9代表了CPU行業(yè)在AI領(lǐng)域的發(fā)展趨勢(shì),。
對(duì)于云端AI芯片市場(chǎng),小公司只能覬覦,,這是一場(chǎng)屬于寥寥可數(shù)大公司的權(quán)利游戲,,云端發(fā)展不只需要有高運(yùn)算力的芯片,還得營(yíng)造出生態(tài)系,,基本上供應(yīng)商就是這幾家巨頭,。但對(duì)于終端市場(chǎng),能實(shí)現(xiàn)更小功耗,、更低成本的xPU與ASIC將成為主流,。這就注定通用AI芯向?qū)S肁I芯發(fā)展的趨勢(shì),。
AI通用芯玩法
CPU & GPU
黃仁勛曾表示:GPU不會(huì)替代CPU,它是攜手和CPU共同工作的,,這也是我們?yōu)槭裁窗阉Q之為加速器,,CPU是通用型的,什么場(chǎng)景都可以適用,。但是GPU在一些專門的問題上是能量非常大的,。它的性能要比CPU超過10倍,50倍甚至百倍,。最完美的架構(gòu)就是“萬事皆能的CPU”+“勝任重大計(jì)算挑戰(zhàn)的GPU”,。
我們先來看看CPU與GPU的對(duì)比情況:
英特爾CPU與英偉達(dá)GPU性能對(duì)比圖
CPU功能模塊很多,能適應(yīng)復(fù)雜運(yùn)算環(huán)境,;GPU構(gòu)成相對(duì)簡(jiǎn)單,,對(duì)Cache需求小,大部分晶體管可以組成各類專用電路,、多條流水線,,使得GPU的計(jì)算速度有了突破性的飛躍,擁有了更強(qiáng)大的處理浮點(diǎn)運(yùn)算的能力,。
CPU與GPU結(jié)構(gòu)對(duì)比示意圖
GPU未來的主攻方向是高級(jí)復(fù)雜算法和通用性人工智能平臺(tái),。但GPU無法單獨(dú)工作,必須由CPU進(jìn)行控制調(diào)用才能工作,。這也就是黃仁勛為何強(qiáng)調(diào)“CPU+GPU”的模式了,。
CPU向AI發(fā)力的重要一大方向就是加速了CPU和GPU、FPGA甚至TPU之間的通信,。POWER9也印證了這一觀點(diǎn),,POWER9將加速POWER和GPU、FPGA,、TPU之間的合作,。比如支持最新的英偉達(dá)Nvida NVLINK技術(shù),可大幅提升GPU與CPU之間的數(shù)據(jù)交換速度,。
GPU未來的主攻方向是高級(jí)復(fù)雜算法和通用性人工智能平臺(tái),。
FPGA
FPGA兼顧了低功耗和高運(yùn)算能力的優(yōu)勢(shì),F(xiàn)PGA在AI領(lǐng)域的優(yōu)勢(shì)是加速和異構(gòu)計(jì)算,,比如騰訊云的FPGA加速可以實(shí)現(xiàn)比通用CPU型服務(wù)器快30倍的性能,。
FPGA和GPU未來在超級(jí)數(shù)據(jù)中心將成主流應(yīng)用,尤其是在深度學(xué)習(xí)方面,,在這方面GPU強(qiáng)在訓(xùn)練,,而FPGA強(qiáng)在推斷。
賽靈思曾表示:伙伴廠商利用FPGA芯片進(jìn)行基因體定序與優(yōu)化語音識(shí)別所需的深度學(xué)習(xí),,察覺FPGA的耗能低于GPU且處理速度較快,。相較于GPU只能處理運(yùn)算,,F(xiàn)PGA能以更快速的速度一次處理所有與AI相關(guān)的信息。
DSP
DSP是AI通用芯里面最低調(diào)的,,或者說最受重視的,。
我們先來看看驍龍845如何發(fā)揮AI實(shí)力吧。
與華為,、蘋果采用ASIC方式來不同,,高通驍龍845利用基于分布式架構(gòu)的神經(jīng)網(wǎng)路處理引擎(SNPE),運(yùn)行在驍龍異構(gòu)平臺(tái)的CPU,、GPU,、DSP等每一個(gè)單元上。
Hexagon 685 DSP不僅只是一塊用于處理語音和音頻的解碼器,,由于采用了異步計(jì)算架構(gòu),,支持矢量計(jì)算,因此可用于AI以及神經(jīng)運(yùn)算,,在虛擬現(xiàn)實(shí),、增強(qiáng)現(xiàn)實(shí)、圖像處理,、視頻處理,、計(jì)算視覺等功能中發(fā)揮作用。
DSP核心主要供貨商CEVA認(rèn)為,,若要在嵌入式系統(tǒng)中實(shí)現(xiàn)CNN(卷積神經(jīng)網(wǎng)絡(luò)),DSP將能取代GPU和CPU,,因CNN在本質(zhì)上,,就十分適合運(yùn)用DSP。
DSP能夠?qū)崿F(xiàn)平行處理,,核心利用率高,。據(jù)悉,相較GPU只能達(dá)到40~50%的使用率,,DSP甚至達(dá)到90%以上的核心使用率,。業(yè)內(nèi)專家表示,對(duì)于一些應(yīng)用場(chǎng)景,,以DSP架構(gòu)驅(qū)動(dòng)的CNN引擎,,在成本與功耗上皆具優(yōu)勢(shì)。
關(guān)于AI通用芯的情況就講完了,。
回顧2017,,我們發(fā)現(xiàn)我國(guó)的AI芯熱主要集中于半定制化芯片與全定制化ASIC芯片領(lǐng)域。與非網(wǎng)友關(guān)于“集成電路最難攻克的環(huán)節(jié)(芯片),,在AI大環(huán)境下,,一切都變得那么EASY,?”的問題,我們將在下期《AI發(fā)現(xiàn)》中找出答案,。