近年來,,美方持續(xù)升級(jí)相關(guān)AI芯片的對(duì)華出口,,即便是AI芯片龍頭英偉達(dá)推出符合要求的針對(duì)中國(guó)市場(chǎng)的“特供版”產(chǎn)品,也是一再遭到限制,。
早在2022年10月,,美國(guó)首次正式推出限制AI芯片對(duì)華出口的政策,要求ECCN 3A090,、4A090類目下的高性能計(jì)算設(shè)備,、芯片及組件,如果“同時(shí)滿足以下兩個(gè)條件的即為受管制的高性能計(jì)算芯片:
(1)芯片的I/O帶寬傳輸速率大于或等于600 Gbyte/s,;(2)數(shù)字處理單元/原始計(jì)算單元每次操作的比特長(zhǎng)度乘以TOPS 計(jì)算出的算力之和大于或等于4800TOPS,。”
此舉,,直接導(dǎo)致了英偉達(dá)的A100,、H100等高性能AI芯片無法對(duì)華出口。隨后,,英偉達(dá)為了挽回中國(guó)市場(chǎng),,針對(duì)中國(guó)市場(chǎng)推出了符合美國(guó)限制政策的AI芯片:A100和A800,主要是降低了互聯(lián)速率,。
但是,,在2023年10月17日,美國(guó)政府又推出了新的限制規(guī)則,,進(jìn)一步收緊了限制范圍:
(1)ECCN 3A090a針對(duì)最高性能芯片,,集成電路中包含一個(gè)或多個(gè)處理單元達(dá)到以下任一標(biāo)準(zhǔn):a) 綜合運(yùn)算性能(Total Processing Performance,,TPP)達(dá)到4800,或b) 綜合運(yùn)算性能達(dá)到1600,,同時(shí)“性能密度”(Performance Density,,PD)達(dá)到5.92。
(2)ECCN 3A090b針對(duì)次高性能芯片,,集成電路中包含一個(gè)或多個(gè)處理單元達(dá)到以下任一標(biāo)準(zhǔn):a) 綜合運(yùn)算性能達(dá)到2400但低于4800,,性能密度達(dá)到1.6但低于5.92;b) 綜合運(yùn)算性能達(dá)到1600,,性能密度達(dá)到3.2但低于5.92,。
但凡只要在上述兩項(xiàng)性能標(biāo)準(zhǔn)范圍內(nèi)的美國(guó)芯片都將會(huì)受到限制。這也直接導(dǎo)致了英偉達(dá)針對(duì)中國(guó)市場(chǎng)推出的A100和A800芯片的對(duì)華出口受限,,英偉達(dá)在A100和A800這兩款芯片上的投資也是損失不小,。此外,英偉達(dá)L40S,、高端顯卡RTX 4090等產(chǎn)品也受到了限制,。
不過,英偉達(dá)依舊不甘心放棄中國(guó)這個(gè)龐大的AI芯片市場(chǎng),。于是在去年四季度,,英偉達(dá)又針對(duì)中國(guó)市場(chǎng)開發(fā)出了符合美國(guó)最新限制政策的四款A(yù)I芯片,包括 HGX H20,、L20 PCle 和 L2 PCle,。同時(shí)還開發(fā)了符合新規(guī)的高端顯卡RTX 4090 D。
從公布的參數(shù)來看,,其中最強(qiáng)的H20的FP16,、INT8等主要算力參數(shù)僅為A100的不足1/2,更是僅為H100的約1/7,;L20的主要算力參數(shù)則相較于之前的L40,、L40S分別下降約1/3、2/3,。此前NVIDIA內(nèi)部人士在訪談中也承認(rèn),,H20單卡算力僅有H100的20%,相比某國(guó)產(chǎn)芯片,,其性能也只有其60%多,。
此外,RTX 4090 D的核心數(shù)量相較RTX 4090也減少約11%,,整體性能或降低了10%,!
顯然,英偉達(dá)這些最新針對(duì)中國(guó)市場(chǎng)定制的產(chǎn)品性能被大幅閹割,使得市場(chǎng)大多對(duì)其性能表現(xiàn),、性價(jià)比持悲觀或懷疑態(tài)度,。
不過,即便如此,,美國(guó)方面似乎還是不放心,。
近日,美國(guó)又公布了將于今年4月4日生效的新的限制規(guī)則,,4A003類目下 “數(shù)字計(jì)算機(jī)”,、“電子組件”及其相關(guān)設(shè)備和“組件”,對(duì)于所有目的地(除EAR第740部分第1號(hào)補(bǔ)充文件國(guó)家組E:1或E:2中的國(guó)家外),,“調(diào)整后峰值性能”(“APP”)超過70 Weighted TeraFLOPS(WT,,每秒計(jì)算萬億次浮點(diǎn)運(yùn)算,主要針對(duì)GPU性能,,CPU和NPU主要提供定點(diǎn)/整數(shù)算力)的計(jì)算機(jī)和4A003.c中所述的“電子組件”都需要許可證(NLR),。
這里需要補(bǔ)充說明的是,在AI訓(xùn)練方面,,通常使用浮點(diǎn)格式FP16和FP32,因?yàn)樗鼈兙哂凶銐蚋叩木取6贏I推理方面則通常使用整數(shù)數(shù)據(jù)格式INT8和INT4,。
也就是說,,現(xiàn)有的美國(guó)廠商的計(jì)算機(jī)產(chǎn)品或組件,如果其綜合浮點(diǎn)算力超過70 TFLOPS,,則需要申請(qǐng)?jiān)S可證才能出口,。而這似乎是針對(duì)的是英偉達(dá)此前針對(duì)中國(guó)市場(chǎng)新推出的RTX 4090-D以及H20。
數(shù)據(jù)顯示,,RTX 4090-D的FP16/FP32算力為74TFLOPS,,H20的TF32算力為74 TFLOPS(L20的FP32/16算力為60TFLOPS不到)。這也意味著,,英偉達(dá)RTX 4090-D以及H20對(duì)華出口可能需要申請(qǐng)?jiān)S可,,至于是否能夠獲批,則可能需要“逐案審查”(case-by-case review),。
雖然也有國(guó)內(nèi)媒體報(bào)道稱,,該政策可能將會(huì)限制到高性能的AI PC產(chǎn)品。但是,,芯智訊認(rèn)為,,目前AMD、英特爾,、高通,、蘋果等廠商所推出的集成了AI內(nèi)核的面向AI PC的處理器,其浮點(diǎn)運(yùn)算能力目前仍比較有限,更多還是提升整數(shù)運(yùn)算能力,,并不會(huì)受到新規(guī)限制,。
比如英特爾在去年底推出的Meteor Lake芯片(Core Ultra) 基于其AI引擎、NPU,、CPU和GPU,,可提供34TOPS(注意不是FLOPS)的算力。
不過,,以上只是筆者對(duì)于該規(guī)則的解讀,。目前英偉達(dá)官方面尚未有相關(guān)信息公布。芯智訊也有咨詢英偉達(dá)中國(guó)區(qū)相關(guān)負(fù)責(zé)人,,但對(duì)方并未對(duì)此進(jìn)行回應(yīng),。
值得注意的是,美國(guó)商務(wù)部長(zhǎng)雷蒙多在12月2日舉辦的“里根國(guó)防論壇”(Reagan National Defense Forum)上曾表示,,即便會(huì)讓企業(yè)難做,,美國(guó)政府仍將持續(xù)修改(change constantly)先進(jìn)芯片的出口管制,因?yàn)椤翱萍紩?huì)變,、對(duì)手也會(huì)變,,我們必須跟上”。
雷蒙多指出,,就算業(yè)者重新設(shè)計(jì)出一款能規(guī)避現(xiàn)有法令的芯片,,只要被關(guān)注國(guó)家將之用來發(fā)展AI,“我第二天就會(huì)立刻出手控管”(I’m going to control it the very next day),。
針對(duì)雷蒙多發(fā)言,,英偉達(dá)CEO黃仁勛(Jensen Huang)曾于12月6日在新加坡召開的記者會(huì)上表示,英偉達(dá)一直都在積極配合美國(guó)政府,,打造符合法規(guī)的產(chǎn)品,。“我們打算繼續(xù)配合美國(guó)政府,,開發(fā)符合新規(guī)定的全新系列產(chǎn)品”,。
黃仁勛之前還曾表示,美國(guó)對(duì)華半導(dǎo)體出口的限制,,也進(jìn)一步刺激了中國(guó)努力發(fā)展半導(dǎo)體產(chǎn)業(yè)的決心,,中國(guó)大陸目前已有數(shù)十家公司正在開發(fā)可與英偉達(dá)產(chǎn)品競(jìng)爭(zhēng)的技術(shù),這對(duì)英偉達(dá)在中國(guó)市場(chǎng)的發(fā)展也很不利,。過去多年來,,中國(guó)市場(chǎng)約占英偉達(dá)營(yíng)收的20%。