《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 業(yè)界動(dòng)態(tài) > AI芯片可能只是FPGA的附庸

AI芯片可能只是FPGA的附庸

2018-07-25
關(guān)鍵詞: AI芯片 人工智能

央行放水之后,催生出了一大批手握重金的投資機(jī)構(gòu),,而國(guó)內(nèi)優(yōu)秀的投資標(biāo)的,,特別是高科技領(lǐng)域的標(biāo)的極為稀缺,,AI芯片獲得投資易如反掌,,一時(shí)間冒出來(lái)幾百家AI芯片公司,,也給投機(jī)分子可乘之機(jī),。

微信圖片_20180725105900.jpg


作為國(guó)內(nèi)最優(yōu)秀的AI芯片公司,,深鑒科技被以3億美元的價(jià)格賣(mài)給FPGA巨頭賽靈思,。過(guò)去兩年,,深鑒科技是國(guó)內(nèi)AI芯片領(lǐng)域冉冉升起的一顆明星,。這家2016年3月成立的初創(chuàng)公司目前已完成三輪融資,投資方包括金沙江創(chuàng)投,、螞蟻金服,、三星風(fēng)投、賽靈思,、聯(lián)發(fā)科等知名機(jī)構(gòu)和公司,。據(jù)媒體報(bào)道,其估值遠(yuǎn)超過(guò)10億美金,。如今以3億美元賣(mài)出,,并且據(jù)稱(chēng)核心團(tuán)隊(duì)要鎖定4年內(nèi)不得離開(kāi)賽靈思。難道深鑒科技被賤賣(mài),?當(dāng)然沒(méi)有,!這是因?yàn)橹袊?guó)真正優(yōu)秀的企業(yè)太少,而追逐的資本太多,,優(yōu)秀企業(yè)的估值已經(jīng)到了完全沒(méi)有理性的地步,。如果這些企業(yè)在美國(guó),估值會(huì)萎縮數(shù)倍以上,。

 

為什么人工智能ASIC要賠錢(qián),?


人工智能算法不大可能用ASIC,因?yàn)锳SIC的開(kāi)發(fā)周期太長(zhǎng),,最少也需要3年才能量產(chǎn),,而人工智能算法迭代速度很快,幾乎是每半年就迭代一次,,所謂人工智能ASIC,,沒(méi)出廠就已經(jīng)過(guò)時(shí)。另一個(gè)原因是人工智能芯片需要7納米工藝,。

 

7納米時(shí)代,,不是90納米時(shí)代,除非你像谷歌的TPU那樣自產(chǎn)自銷(xiāo),,否則,,鐵定長(zhǎng)期虧損。根據(jù)Gartner推算,,10納米芯片的總設(shè)計(jì)成本約為1.2億美元,,7納米芯片則為2.71億美元,較10納米高出兩倍之多,!為什么人工智能芯片一定要用7納米,?

 

所謂制程納米,是CMOS FET晶體管閘極的寬度,,也就是閘長(zhǎng),。閘長(zhǎng)可以分為光刻閘長(zhǎng)和實(shí)際閘長(zhǎng),,光刻閘長(zhǎng)則是由光刻技術(shù)所決定的。由于在光刻中光存在衍射現(xiàn)象以及芯片制造中還要經(jīng)歷離子注入,、蝕刻,、等離子沖洗、熱處理等步驟,,因此會(huì)導(dǎo)致光刻閘長(zhǎng)和實(shí)際閘長(zhǎng)不一致的情況,。另外,同樣的制程技術(shù)下,,實(shí)際閘長(zhǎng)也會(huì)不一樣,,比如雖然三星也推出了 14nm 制程芯片,但其芯片的實(shí)際閘長(zhǎng)和 Intel 的 14nm 制程芯片的實(shí)際閘長(zhǎng)依然有一定差距,。

 

閘長(zhǎng)越短,,有兩大好處,一是可以提高晶體管密度,,在同樣大小的硅晶圓制造更多的晶體管,,需要的運(yùn)算資源越強(qiáng),對(duì)應(yīng)的晶體管數(shù)量就越多,。英偉達(dá)的Xavier Tegra處理器號(hào)稱(chēng)是“全球第一個(gè)AI汽車(chē)超級(jí)芯片”,,將采用臺(tái)積電16nm FinFET+工藝制造,集成多達(dá)70億個(gè)晶體管,,性能方面,,Xavier預(yù)計(jì)可以達(dá)到30 DL TOPS,比現(xiàn)在的Drive PX 2平臺(tái)提高50%,,同時(shí)功耗只有30W,。擁有多達(dá)八個(gè)NVIDIA自主設(shè)計(jì)的ARMv8-A 64位CPU核心,GPU則會(huì)基于下一代“Volta”(伏特)架構(gòu),,最多512個(gè)流處理器,,還有基于硬件的視頻流編碼解碼器,最高支持7680×4320 8K分辨率,,以及各種IO輸入輸出能力,。


英偉達(dá)還有一片GTX 1080 TI,同樣采用臺(tái)積電16nm FinFET+工藝制造,,集成多達(dá)120億個(gè)晶體管,,硅片面積是471平方毫米。英特爾至強(qiáng)E5 2600 V4,,引入了14nm工藝,,456平方毫米的核心面積里集成了72億個(gè)晶體管,相比之下上代22nm Haswell-EP Xeon E5-2600 v3只有56.9億個(gè)晶體管,,而核心面積達(dá)662平方毫米,。英偉達(dá)專(zhuān)為深度學(xué)習(xí)訂做的芯片Tesla P100,則在600平方毫米內(nèi)集成了150個(gè)晶體管,,仍然是臺(tái)積電的16nm FinFET+工藝制造,,單精度浮點(diǎn)運(yùn)算能力達(dá)9.3TFLOPS。高通的驍龍835則是集成了30億個(gè)晶體管,。


 另一個(gè)好處是降低功耗,。

微信圖片_20180725105925.jpg

電流從 Source(源極)流入 Drain(漏級(jí)),Gate(閘極)相當(dāng)于閘門(mén),,主要負(fù)責(zé)控制兩端源極和漏級(jí)的通斷,。電流會(huì)損耗,而柵極的寬度則決定了電流通過(guò)時(shí)的損耗,,表現(xiàn)出來(lái)就是手機(jī)常見(jiàn)的發(fā)熱和功耗,,寬度越窄,功耗越低,。

 

業(yè)內(nèi)公認(rèn),,10納米不是關(guān)鍵,關(guān)鍵是7納米,,10納米只是低功耗過(guò)渡工藝,,性能上與14納米相差無(wú)幾,意義不大,,7納米才是關(guān)鍵之戰(zhàn),。

 

ASIC性能與功耗比最好,但開(kāi)發(fā)周期長(zhǎng),,開(kāi)發(fā)成本最高,,靈活性最差,如果出貨量低的話(如果采用7納米工藝,,最低也要每年1億的出貨量,,才能將芯片單價(jià)降低到100美元以下),要么單價(jià)高到幾千美元,,要么廠家毛利率就是負(fù)的,。最終結(jié)果都一樣,長(zhǎng)期虧損,。

 

無(wú)人車(chē)領(lǐng)域?qū)⑹茿SIC的噩夢(mèng),,汽車(chē)領(lǐng)域?qū)r(jià)格非常敏感,有些汽車(chē)廠家為了省成本,,幾元錢(qián)的搖窗電機(jī)都要節(jié)約,。能用商規(guī)元件就不用工規(guī),成本也就差幾元。再有就是汽車(chē)出貨量低,,全球汽車(chē)市場(chǎng)每年不過(guò)1億輛,,遠(yuǎn)不能和手機(jī)與筆記本電腦比。高端車(chē)出貨量更低,,每年大約1000萬(wàn)輛,,無(wú)人車(chē)比高端車(chē)還要低。即便你市場(chǎng)占有率再高,,出貨量也是很低,。再有就是生命周期在縮短,以前一個(gè)車(chē)型可以有7-8年生命周期,,現(xiàn)在競(jìng)爭(zhēng)激烈,,尤其中國(guó)市場(chǎng),三四年不大改款的車(chē)就無(wú)人問(wèn)津,。雖然相對(duì)手機(jī)市場(chǎng)生命周期還算長(zhǎng),,但趨勢(shì)已經(jīng)很明顯,一款車(chē)型的生命周期正在迅速縮短,。


臺(tái)積電會(huì)把你的訂單放到最后一個(gè)


芯片代工領(lǐng)域,,臺(tái)積電拿下所有的7納米訂單,包括獨(dú)家供應(yīng)蘋(píng)果的A12,,這也是臺(tái)積電首次超越英特爾成為半導(dǎo)體制造工藝最先進(jìn)的廠家,,像人工智能這種強(qiáng)調(diào)運(yùn)算能力的數(shù)字類(lèi)邏輯芯片,先進(jìn)工藝是必須采用的,。所以說(shuō)臺(tái)積電也拿下了所有人工智能芯片訂單,, 三星毫無(wú)能力搶單。

 

韓國(guó)媒體報(bào)導(dǎo)三星的7奈米拿下高通驍龍855手機(jī)芯片訂單,,消息應(yīng)為誤傳,。高通還是會(huì)把90%訂單交給臺(tái)積電,只把10%產(chǎn)品轉(zhuǎn)向三星,,實(shí)際是為了降低供應(yīng)鏈風(fēng)險(xiǎn)采取的策略,。臺(tái)積電自然會(huì)優(yōu)先照顧蘋(píng)果、高通,、AMD,、英偉達(dá)、華為,、聯(lián)發(fā)科這些出貨量上億的大客戶,,把小客戶訂單排在最后,這對(duì)Mobileye來(lái)說(shuō)也非常不利,。

 

對(duì)于臺(tái)積電來(lái)說(shuō),,與一個(gè)大客戶合作需要的精力和一個(gè)小客戶合作所需要的精力是一致的,,臺(tái)積電自然要優(yōu)先照顧大客戶。三星一直是低價(jià)搶單,,但目前來(lái)看,,客戶完全不認(rèn)同,比如華為,,原本外界預(yù)估,,因?yàn)榕_(tái)積電代工費(fèi)用較高,,因此麒麟 710 處理器選擇三星的 10 奈米 LPP 制程來(lái)生產(chǎn)制造,。但是,如今根據(jù)華為官方公布的結(jié)果,,麒麟 710 處理器仍舊由臺(tái)積電的 12 奈米制程來(lái)進(jìn)行代工生產(chǎn),,而非原先傳出的三星 10 奈米制程。顯示之前一直傳三星以較低價(jià)格搶單的情況,,并沒(méi)有發(fā)生任何功效,。最新的 EUV 曝光機(jī)一臺(tái)價(jià)格超過(guò) 1 億歐元,是 DUV 曝光機(jī)價(jià)格的 2 倍多,,且使用 EUV 曝光機(jī)批量生產(chǎn)時(shí)會(huì)消耗 150萬(wàn)瓦電力,,遠(yuǎn)超過(guò)現(xiàn)有的 DUV 曝光機(jī)。最重要是EUV技術(shù)不夠成熟,,且成本略高,,而三星欲速則不達(dá),為了超越臺(tái)積電,,導(dǎo)入EUV技術(shù),,臺(tái)積電仍然是DUV技術(shù)。當(dāng)然,,等EUV成熟,,臺(tái)積電也會(huì)用。

 

為何臺(tái)積電總能在先進(jìn)制程上屢戰(zhàn)屢勝呢,?首先也是最重要的一點(diǎn),,臺(tái)積電從來(lái)不會(huì)試圖跳躍式發(fā)展,一步一步來(lái),,慢不代表錯(cuò),,快不代表對(duì)。其次不像其他競(jìng)爭(zhēng)者,,與臺(tái)積電無(wú)利益沖突的客戶群(蘋(píng)果,、賽靈思、英偉達(dá),、博通/華高,、瑞薩、谷歌、海思,、聯(lián)發(fā)科,、AMD等)數(shù)量龐大,不斷地追求先進(jìn)制程,,投入研發(fā),,改善設(shè)計(jì)規(guī)則,與臺(tái)積電共同改善制程良率,、降低成本,,來(lái)加快量產(chǎn)速度。也就是說(shuō),,臺(tái)積電不是一個(gè)人在戰(zhàn)斗,,臺(tái)積電背后有著全球所有最頂尖的IC設(shè)計(jì)公司在支持。而且臺(tái)積電有超過(guò)50%產(chǎn)能,,已完全折舊,、做成熟制程;而且五年折舊的新機(jī)器設(shè)備,,約可使用十五年以上,,這樣可提供足夠的現(xiàn)金流,來(lái)大量投資初期獲利較差的最先進(jìn)制程,。

 

而三星和英特爾因不具足夠晶圓客戶,,三星和英特爾盡量將舊制程轉(zhuǎn)換成新制程(機(jī)器設(shè)備多使用三至五年),并利用主流產(chǎn)品(三星的內(nèi)存,,英特爾的中央處理器)現(xiàn)金流,,來(lái)補(bǔ)助晶圓代工的投資;因此三星會(huì)出現(xiàn)虧損,,英特爾的營(yíng)業(yè)利潤(rùn)率和凈利率會(huì)遠(yuǎn)遠(yuǎn)落后臺(tái)積電,。臺(tái)積電則使用其優(yōu)異的布線,來(lái)微縮芯片尺寸和加快速度,,而不是一味追求最小硅間閘和金屬間閘(metal pitch or interconnects),,進(jìn)行可能威脅順利量產(chǎn)的微縮。

 

英特爾也深知晶圓代工這個(gè)領(lǐng)域與臺(tái)積電競(jìng)爭(zhēng)無(wú)異于自殺,,與臺(tái)積電合作是雙贏之路,。因此英特爾的FPGA大部分仍然由臺(tái)積電代工。


 FPGA已經(jīng)不是FPGA,,更接近于ASIC


不是短期盈利無(wú)望,,而是長(zhǎng)期盈利無(wú)望,賣(mài)身給FPGA廠家肯定是最明智的選擇,。在大部分人眼里,,F(xiàn)PGA缺乏技術(shù)含量,,純粹靠專(zhuān)利建立起護(hù)城河,F(xiàn)PGA只是個(gè)軀殼,,算法才是靈魂,。是深鑒讓FPGA獲得靈魂。果真如此的話,,那估值就不是3億美元,。實(shí)際上聲稱(chēng)有能力做機(jī)器學(xué)習(xí)算法的公司據(jù)說(shuō)超過(guò)3000家,而大規(guī)模生產(chǎn)FPGA的獨(dú)立廠家全球僅Xilinx一家,。

 

算法應(yīng)該說(shuō)像人的視覺(jué)系統(tǒng),,F(xiàn)PGA則是人的大腦和軀殼。現(xiàn)在的FPGA早已不是當(dāng)年的簡(jiǎn)單地把寄存器和LUT整合在一起的白紙了,,而是越來(lái)越像ASIC,,或者說(shuō)SoC。現(xiàn)在的FPGA都包含了復(fù)雜的接口資源,,收發(fā)器資源,存儲(chǔ)器資源,,有些則直接加入了多個(gè)ARM內(nèi)核,。單純的FPGA幾乎不存在了。

微信圖片_20180725105950.jpg

以深度學(xué)習(xí),、高性能運(yùn)算,、圖形科學(xué)領(lǐng)域最常見(jiàn)的Kintex FPGA來(lái)看,國(guó)內(nèi)百度,、騰訊,、阿里都采用了KU115做計(jì)算加速。這款FPGA集成了大量資源,,包括各種片上存儲(chǔ)器,,Xilinx的FPGA中主要有分布式RAM 和 Block RAM 兩種存儲(chǔ)器。用分布式RAM 時(shí)其實(shí)要用到其所在的SliceM,,所以要占用其中的邏輯資源,;而B(niǎo)lock RAM 是單純的存儲(chǔ)資源,但是要一塊一塊的用,,不像分布式RAM 想要多少bit都可以,。頂級(jí)的Virtex系列FPGA更繼承了高達(dá)8GB的HBM高寬帶內(nèi)存。時(shí)鐘方面,,有MMCM/PLL,。

 

MMCM(mixed-mode clock manager):混合模式時(shí)鐘管理器,用于在與給定輸入時(shí)鐘有設(shè)定的相位和頻率關(guān)系的情況下,,生成不同的時(shí)鐘信號(hào),。PLL(phase-locked loop):鎖相環(huán),,主要用于頻率綜合,使用一個(gè)PLL可以從一個(gè)輸入時(shí)鐘信號(hào)生成多個(gè)時(shí)鐘信號(hào),。這些主要用在收發(fā)器領(lǐng)域,。

 

KU115里還包含5520個(gè)DSP,能夠大幅度提高圖像和視頻類(lèi)任務(wù)的處理速度,,這是類(lèi)似GPU的并行運(yùn)算架構(gòu),,可以說(shuō)這片F(xiàn)PGA還包含一個(gè)小GPU。這個(gè)DSP可以對(duì)應(yīng)乘法累加器,、乘加器或單步/n步計(jì)數(shù)器,。級(jí)聯(lián)多個(gè)DSP48E邏輯片可執(zhí)行復(fù)雜的功能。例如,,不使用額外的FPGA架構(gòu)資源的情況下實(shí)現(xiàn)復(fù)雜乘法器或n階FIR濾波器,。對(duì)某些如FFT運(yùn)算,速度大大提升,。Virtex系列頂配有12288個(gè)DSP,,性能達(dá)21897GMAC/s。

微信圖片_20180725110020.jpg

Xilinx的Soc+FPGA系列產(chǎn)品則完全可以叫SoC了,,其不僅包含多個(gè)ARM CPU內(nèi)核,,還有針對(duì)安全領(lǐng)域的R5內(nèi)核,還有Mali 400這樣的GPU,,最夸張的是RFSoC把射頻的ADC/DAC也集成了,,還有SD-FEC。

 

目前集成電路設(shè)計(jì)基本上都是用IP核搭積木的形式,。IP核分為行為(Behavior),、結(jié)構(gòu)(Structure)和物理(Physical)三級(jí)不同程度的設(shè)計(jì),對(duì)應(yīng)描述功能行為的不同分為三類(lèi),,即軟核(Soft IP Core),、完成結(jié)構(gòu)描述的固核(Firm IP Core)和基于物理描述并經(jīng)過(guò)工藝驗(yàn)證的硬核(Hard IP Core)。軟核就是我們熟悉的RTL代碼,;固核就是指網(wǎng)表,;而硬核就是指指經(jīng)過(guò)驗(yàn)證的設(shè)計(jì)版圖。ARM還是以軟核為主的,。

 

IP軟核(Soft IP Core):通常是用硬件描述語(yǔ)言(hardware Description Language,,HDL)文本形式提交給用戶,它經(jīng)過(guò)RTL級(jí)設(shè)計(jì)優(yōu)化和功能驗(yàn)證,,但其中不含有任何具體的物理信息,。據(jù)此,用戶可以綜合出正確的門(mén)電路級(jí)設(shè)計(jì)網(wǎng)表,,并可以進(jìn)行后續(xù)的結(jié)構(gòu)設(shè)計(jì),,具有很大的靈活性,,借助于EDA綜合工具可以很容易地與其他外部邏輯電路合成一體,根據(jù)各種不同半導(dǎo)體工藝,,設(shè)計(jì)成具有不同性能的器件,。其主要缺點(diǎn)是缺乏對(duì)時(shí)序、面積和功耗的預(yù)見(jiàn)性,。而且IP軟核以源代碼的形式提供的,,IP知識(shí)產(chǎn)權(quán)不易保護(hù)。

 

IP硬核(Hard IP Core)是基于半導(dǎo)體工藝的物理設(shè)計(jì),,已有固定的拓?fù)洳季趾途唧w工藝,,并已經(jīng)過(guò)工藝驗(yàn)證,具有可保證的性能,。其提供給用戶的形式是電路物理結(jié)構(gòu)掩模版圖和全套工藝文件,。由于無(wú)需提供寄存器轉(zhuǎn)移級(jí)(Register transfer level,RTL)文件,,因而更易于實(shí)現(xiàn)IP保護(hù),。其缺點(diǎn)是靈活性和可移植性差。

 

IP固核(Firm IP Core)的設(shè)計(jì)程度則是介于軟核和硬核之間,,除了完成軟核所的設(shè)計(jì)外,,還完成了門(mén)級(jí)電路綜合和時(shí)序仿真等設(shè)計(jì)環(huán)節(jié)。一般以門(mén)級(jí)電路網(wǎng)表的形式提供給用戶,。

 

 深鑒只是做了最上層的基于PC的應(yīng)用算法,要想讓算法在嵌入式系統(tǒng)中流暢運(yùn)行,,還需要大量的工作,,而這正是Xilinx做的。這就好像圖像識(shí)別算法,,基于PC的幾百家都不止,,但要一直到車(chē)內(nèi)的ARM系統(tǒng)上,表現(xiàn)會(huì)大大折扣,,完全不具備實(shí)時(shí)性,,也就無(wú)法應(yīng)用。

微信圖片_20180725110042.jpg

上圖是一個(gè)典型的行人識(shí)別算法HOG+SVM所需要時(shí)間的對(duì)比,,硬核只需要79.3毫秒,,軟核需要3983毫秒,所以純軟核的設(shè)計(jì)要么用極簡(jiǎn)單的算法,,要么用英偉達(dá)貴到飛起的芯片,,即便如此,也不能和硬核比,。所以單純的算法公司,,特別是復(fù)雜視覺(jué)處理算法公司如果不能將算法用芯片來(lái)承載,,那就不可能成功。當(dāng)然,,融資還是能成功的,,畢竟還有很多投資者不是真正懂技術(shù)。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章,、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容,、版權(quán)和其它問(wèn)題,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118,;郵箱:[email protected],。