《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 模擬設(shè)計(jì) > 業(yè)界動(dòng)態(tài) > 英偉達(dá)斷供,,國(guó)產(chǎn)GPU能打嗎,?

英偉達(dá)斷供,,國(guó)產(chǎn)GPU能打嗎,?

2022-09-02
來源:光錐智能
關(guān)鍵詞: 英偉達(dá) GPU AMD 人工智能

英偉達(dá),、AMD將斷供中國(guó)高性能GPU芯片,,卡脖子又有了新的花樣,?

今日一早,,有媒體報(bào)道英偉達(dá)發(fā)布公告,表示之后向中國(guó)(包括香港)和俄羅斯的客戶出口兩款高端GPU芯片A100和H100需要新的出口許可,。一紙公告引發(fā)人工智能和芯片半導(dǎo)體兩個(gè)行業(yè)的雙重地震,。

事實(shí)上,我國(guó)高端GPU芯片進(jìn)口從2019年以來就一直有被限制,,只是之前主要針對(duì)的廠商是AMD,;而在應(yīng)用場(chǎng)景上又以超算中心為主,所以企業(yè)和消費(fèi)者在產(chǎn)品端的感知并不強(qiáng),。

而這一次范圍擴(kuò)大之后,,許多互聯(lián)網(wǎng)大廠也就受到了影響。因?yàn)橐訟100芯片為例,,其主要應(yīng)用場(chǎng)景除了超算中心之外,,還包括云計(jì)算服務(wù)器、數(shù)據(jù)中心,、AI訓(xùn)練等場(chǎng)景,。

實(shí)際上,隨著國(guó)內(nèi)云計(jì)算,、以及互聯(lián)網(wǎng)企業(yè)在云端儲(chǔ)存,,數(shù)據(jù)處理等方面需要的數(shù)據(jù)量越來越多。各大互聯(lián)網(wǎng)企業(yè),、云廠商最近幾年在AI芯片領(lǐng)域也都早有布局,。

但國(guó)內(nèi)大廠的AI芯片主要都是專用芯片,,雖然在特定領(lǐng)域能夠?qū)崿F(xiàn)對(duì)英偉達(dá)的部分替代,但從產(chǎn)業(yè)全局來看,,高端場(chǎng)景短期仍然很難擺脫對(duì)英偉達(dá)芯片的依賴,。

當(dāng)然,這也并不意味著國(guó)內(nèi)云廠商和互聯(lián)網(wǎng)大廠配置的英偉達(dá)服務(wù)器就要宕機(jī),,芯謀研究分析師商君曼對(duì)科創(chuàng)板日?qǐng)?bào)表示,,本次被限制的芯片處于一個(gè)很高端的位置,對(duì)國(guó)內(nèi)企業(yè)的影響有限,。

而在一些更普遍的應(yīng)用場(chǎng)景,,除了已經(jīng)擁有的部分國(guó)產(chǎn)GPU芯片可以替代之外,英偉達(dá)的一些低端產(chǎn)品并不在限制范圍內(nèi),。國(guó)內(nèi)大廠其實(shí)還有相當(dāng)?shù)臅r(shí)間可以輾轉(zhuǎn)騰挪,。

GPU為何卡脖子?

首先要講清楚的是,,這次針對(duì)英偉達(dá)被限制的GPU并不是常規(guī)意義上的顯卡,,而是非常高端的商用芯片,即A100和H100,。這兩款芯片都是專門針對(duì) AI,、數(shù)據(jù)分析和 HPC 應(yīng)用場(chǎng)景研發(fā)的。

其中,,A100芯片是2020年5月英偉達(dá)在GTC2020上發(fā)布的產(chǎn)品,。A100是一塊 3D 堆疊芯片,采用安培(Ampere)架構(gòu),,應(yīng)用了當(dāng)時(shí)臺(tái)積電最先進(jìn)的7nm工藝,,擁有 540 億個(gè)晶體管,GPU 的最大功率達(dá)到了 400W,,算力比上一代采用 Volta 架構(gòu)的Tesla V100提升了20倍,,號(hào)稱當(dāng)時(shí)全球最大的7nm芯片。

H100則是一款針對(duì)大模型專門優(yōu)化的產(chǎn)品,,在今年3月份在GTC大會(huì)上才發(fā)布,,采用了最新的Hopper構(gòu)架,應(yīng)用的也是臺(tái)積電最先進(jìn)的4nm工藝,,擁有800億個(gè)晶體管,,GPU最大功率800W。

除此之外,,H100還加入了全新的Transformer Engine和可擴(kuò)展性更高的Nvidia NVLink互連功能,,用于提升大型AI語言模型、深度推薦系統(tǒng)等等。當(dāng)然,,目前H100還未正式進(jìn)入商用,。

01221410171284.png

圖片來源:anandtech

目前,國(guó)內(nèi)GPU高端場(chǎng)景的GPU應(yīng)用基本上都由英偉達(dá)的A100覆蓋,,甚至今年3月份H100發(fā)布時(shí),,國(guó)內(nèi)主流廠商也都已經(jīng)預(yù)定。

比如,,英偉達(dá)A100發(fā)布時(shí),,首批應(yīng)用的OEM廠商包括浪潮、聯(lián)想等企業(yè),;云服務(wù)公司也有阿里,、騰訊、百度等主流廠商,;而H100發(fā)布時(shí),,阿里云、百度云和騰訊云等廠商也都計(jì)劃提供基于H100的實(shí)例,。8月底,,英偉達(dá)在第三財(cái)季展望上提到,,這一塊業(yè)務(wù)預(yù)計(jì)在中國(guó)有4億美元的潛在銷售,。

這個(gè)情況在國(guó)外也是如此,包括AWS,、Google Cloud,、微軟Azure、Oracle Cloud,;或者思科,、惠普等國(guó)際大廠采用的也都是英偉達(dá)的產(chǎn)品。目前,,英偉達(dá)在數(shù)據(jù)中心 GPU 市場(chǎng)占比超過 80%,,在云端訓(xùn)練市場(chǎng)上占比 90%,云端推理市場(chǎng)上占比 60%,。

簡(jiǎn)單來說,,就如同高通驍龍系列對(duì)于智能手機(jī)性能的決定性一樣,英偉達(dá)的高端GPU芯片決定了云服務(wù)的性能和性價(jià)比,,因此被國(guó)內(nèi)外云廠商廣泛采用,。

當(dāng)然,被廣泛采用的另一個(gè)潛臺(tái)詞,,其實(shí)是沒有可替代的產(chǎn)品(同等性能上),。

比如在高性能計(jì)算方面,借助HBM2e每秒超過2TB的帶寬和大容量?jī)?nèi)存,科研人員可以在A100上將原本要花費(fèi)10小時(shí)的雙精度模擬過程縮短到4小時(shí)之內(nèi),。但在國(guó)內(nèi),,目前沒有芯片公司能夠?qū)崿F(xiàn)FP64的技術(shù)能力。

顯然這一次美國(guó)對(duì)先進(jìn)GPU的出口限制也將對(duì)中國(guó)的云廠商帶來非常重大的影響,。但從另一方面來說,,這對(duì)中國(guó)自主GPU的發(fā)展也未嘗不是一件好事。

大廠造芯能否自給自足,?

雖然這次限制突如其來,,但國(guó)內(nèi)相關(guān)的云廠商和互聯(lián)網(wǎng)大廠也并非全無準(zhǔn)備。

早在幾年前,,隨著國(guó)內(nèi)云計(jì)算,、以及互聯(lián)網(wǎng)企業(yè)在云端儲(chǔ)存,數(shù)據(jù)處理等方面需要的數(shù)據(jù)量越來越多,。各大互聯(lián)網(wǎng)企業(yè),、云廠商就已經(jīng)在AI芯片領(lǐng)域開始布局了。

比如阿里在2019年發(fā)布了AI芯片含光800,,百度在2020年量產(chǎn)了第一代AI芯片昆侖,;稍微慢一點(diǎn)的騰訊也在2021年發(fā)布了視頻處理芯片“滄海”和AI芯片“紫霄”,。今年7月份,,字節(jié)在“2022 火山引擎原動(dòng)力大會(huì)”上也正式確認(rèn)了其在自主造芯方面的布局。目前,,字節(jié)的芯片研發(fā)已經(jīng)涉足視頻平臺(tái),、信息和娛樂應(yīng)用等。

雖然各大廠商進(jìn)入芯片領(lǐng)域的時(shí)間有先后,,但在具體的方向和應(yīng)用場(chǎng)景上,,大家的動(dòng)作反而是出奇一致的。目前為止,,國(guó)內(nèi)互聯(lián)網(wǎng)大廠研發(fā)的芯片,,或者方向都集中在云計(jì)算,視頻圖像處理等方面的專用或者通用芯片上,。

當(dāng)然,,大廠造芯除了解決技術(shù)自主問題之外,更重要的還在于成本和效率,。

比如2019年阿里拍立淘商品庫(kù)每天新增 10 億商品圖片,,使用傳統(tǒng) GPU 算力識(shí)別需要 1 小時(shí),但阿里同年推出的AI芯片“含光800”應(yīng)用之后,,這一時(shí)間被縮短到5分鐘,。

同時(shí),,自研芯片還能極大程度節(jié)省云服務(wù)器的成本。

比如過去十年在云服務(wù)市場(chǎng)一直保持領(lǐng)先的亞馬遜就因?yàn)橥ㄟ^自研服務(wù)器芯片Graviton替換英偉達(dá)來持續(xù)降低價(jià)格,。據(jù)The Information報(bào)道,,亞馬遜的客戶表示,他們通過租用Graviton服務(wù)器節(jié)省了10%~40%的計(jì)算成本,。

事實(shí)上,,不僅是阿里和亞馬遜,如今的互聯(lián)網(wǎng)大廠其實(shí)都面臨著數(shù)據(jù)爆炸來帶的處理效率,、能耗以及成本的問題,。對(duì)外提供云服務(wù)的企業(yè)更需要面對(duì)市場(chǎng)的競(jìng)爭(zhēng),不對(duì)外提供云服務(wù)企業(yè)也要考慮自身效率的提升,。

比如現(xiàn)在的抖音,,主屏已經(jīng)從過去的底部4欄,頂部?jī)蓹跀U(kuò)充到底部4欄,,頂部4欄等多個(gè)類目,。而復(fù)雜的內(nèi)容背后,往往意味著龐大的數(shù)據(jù)處理,。

有數(shù)據(jù)顯示,,2017年抖音租借的服務(wù)器僅3萬臺(tái),但到了2020就達(dá)到了42萬臺(tái),。除此之外,,這一年字節(jié)在美國(guó)弗吉尼亞租還有一個(gè)可容納10萬臺(tái)服務(wù)器的數(shù)據(jù)中心。

字節(jié)跳動(dòng)主管火山引擎,、數(shù)據(jù)中臺(tái)的副總裁楊震原表示,,如今字節(jié) 95% 的業(yè)務(wù)已經(jīng)跑在自己的數(shù)據(jù)中心上。龐大的數(shù)據(jù)處理成為推動(dòng)字節(jié)自研芯片的核心動(dòng)力,。

除了滿足內(nèi)部需要之外,以阿里,、百度為代表的大廠其實(shí)也在將自研芯片向外進(jìn)行“售賣”,。比如阿里“含光800”雖然不對(duì)外售賣,但張建峰也提到:“含光 800 將通過阿里云對(duì)外輸出 AI 算力,,未來企業(yè)可以通過阿里云獲取含光 800 的算力。”

基于云的芯片通過云走向市場(chǎng),。這其實(shí)也是為什么各大廠商的芯片主要都是自用的原因,。當(dāng)然,這種自用也并不是絕對(duì)的,,畢竟現(xiàn)在各大廠商其實(shí)都在通過云服務(wù)的方式,,將自身的能力分享給其他玩家,。

比如張建峰也提到:“含光 800 將通過阿里云對(duì)外輸出 AI 算力,未來企業(yè)可以通過阿里云獲取含光 800 的算力,?;诤?800 的阿里云性價(jià)比提升了 100%?!?/p>

據(jù)調(diào)研機(jī)構(gòu)Canalys發(fā)布的2022年一季度中國(guó)云計(jì)算市場(chǎng)報(bào)告顯示,,中國(guó)云市場(chǎng)總體規(guī)模達(dá)到73億美元,同比增長(zhǎng)21%,。阿里云以36.7%的市場(chǎng)份額保持領(lǐng)先位置,,華為云、騰訊云,、百度智能云分別以18.0%,、15.7%、8.4%的市場(chǎng)份額位居第二至第四位,。

從云服務(wù)分類來看,,目前IaaS的市場(chǎng)份額最大,2021年占比超過62.14%,。但如今,,IaaS產(chǎn)品的競(jìng)爭(zhēng)其實(shí)也趨向于同質(zhì)化,在這樣的背景下,,價(jià)格戰(zhàn)成為IaaS產(chǎn)品競(jìng)爭(zhēng)的主要方式,。2020年6月,字節(jié)的火山引擎上市后就喊出了“極致性價(jià)比”的口號(hào),。

要打價(jià)格戰(zhàn),,對(duì)于廠商來說,前提就是要降低成本,。而自研芯片就是降低成本的成本的最好方式,。

在國(guó)外,如亞馬遜,、谷歌等大廠,,率先開始了通過芯片自研來降低成本。比如,,自2015年亞馬遜收購(gòu)Annapurna開啟芯片自研之路以來,,AWS就先后歷經(jīng)了百余次降價(jià)。在國(guó)內(nèi),,火山引擎總經(jīng)理譚待也曾表示,,實(shí)現(xiàn)極致性價(jià)比的方式就是“全棧自研、軟硬一體”,。

舉個(gè)簡(jiǎn)單的例子,,對(duì)于龐大的云服務(wù)器而言,,電費(fèi)其實(shí)占了日常運(yùn)營(yíng)成本的很大一部分,而決定電費(fèi)的關(guān)鍵因素又在于服務(wù)器運(yùn)行的功耗,。

針對(duì)這個(gè)問題,,阿里推出的首款通用型CPU“倚天710”采用的就是以低功耗為特點(diǎn)的ARM構(gòu)架,并在設(shè)計(jì)上也采用了多核互聯(lián)網(wǎng)和芯片間互聯(lián)等低功耗技術(shù),。從阿里公布的數(shù)據(jù)來看,,“倚天710”的能效比要比業(yè)界標(biāo)桿提升50%以上。

去年底騰訊云與智慧事業(yè)群 CEO 湯道生在接受《中國(guó)企業(yè)家》采訪時(shí)稱,,騰訊造芯的核心思路是基于自身需求,,要么降低成本,要么更高效地使用基礎(chǔ)設(shè)施,。

整體而言,,業(yè)內(nèi)造芯的主要目的就是為了降本增效,盡管自研芯片的前期研發(fā)投入比較高,,但在規(guī)?;懂a(chǎn)后,單片成本一定比集中采購(gòu)低,?!币晃煌瑢倩ヂ?lián)網(wǎng)大廠芯片從業(yè)者向虎嗅解釋。

01221607683088.png

來源:周天財(cái)經(jīng)

是危險(xiǎn),,也是機(jī)遇

除了大廠自研AI芯片之外,,最近幾年隨著國(guó)內(nèi)芯片半導(dǎo)體產(chǎn)業(yè)的蓬勃發(fā)展,也隨之崛起了一大批的GPU芯片企業(yè),,比如芯原微電子,、燧原科技、摩爾線程,、壁仞科技等等,。其中如老牌CPU廠商龍芯、海光更是都已經(jīng)實(shí)現(xiàn)了上市,。

不過,,雖然業(yè)內(nèi)人士也指出,計(jì)算芯片最大的門檻其實(shí)不是硬件,,而是軟件。如果一個(gè)芯片沒有與之配套的軟件生態(tài),,則很難真的形成大面積的應(yīng)用,。而這其實(shí)也是許多國(guó)內(nèi)GPU公司的產(chǎn)品很難獲得客戶認(rèn)可的原因。

但這兩年,,國(guó)內(nèi)許多GPU芯片公司其實(shí)也在飛速成長(zhǎng),,海光DCU8系列Z100產(chǎn)品數(shù)據(jù)接近英偉達(dá)的MI100產(chǎn)品,,同時(shí)兼容CUDA生態(tài)而被市場(chǎng)廣泛看好。

除此之外,,國(guó)產(chǎn)GPU還面臨更多挑戰(zhàn),。比如之前產(chǎn)量的問題,雖然海光的芯片性能獲得了市場(chǎng)的認(rèn)可,,但由于其出貨量不足,,以及其主要產(chǎn)能又供給給國(guó)家的超算中心,以至于市場(chǎng)上能拿到海光的芯片其實(shí)并不多,。

另一方面也在于市場(chǎng),,在之前海外高端GPU芯片購(gòu)買暢通的時(shí)候,國(guó)內(nèi)芯片其實(shí)很難受到客戶的認(rèn)可,,大家普遍的選擇都是購(gòu)買最先進(jìn),、穩(wěn)定的產(chǎn)品。而這一次國(guó)外先進(jìn)的GPU受到限制之后,,其實(shí)也在提醒國(guó)內(nèi)的客戶重新考慮外部的實(shí)際情況,,從而也是給國(guó)產(chǎn)GPU企業(yè)進(jìn)入客戶供應(yīng)鏈提供了一次機(jī)會(huì)。

認(rèn)證為百度資深系統(tǒng)工程師的答主lychee在知乎提到,,“之前有 30% 的性能提升可能都不會(huì)考慮(生態(tài)不行),,現(xiàn)在有 30% 的性能差距可能都不是問題了,畢竟刀架在脖子上,,先用上再說,。”

除此之外,,在摩爾定律“失效”的大背景下,,世界芯片半導(dǎo)體亟需建立一套新的規(guī)則,這是中國(guó)芯片半導(dǎo)體前所未有的機(jī)會(huì),。

目前英偉達(dá)被限制的A100芯片采用的是7nm制程,,之前華登國(guó)際合伙人王林在于光錐智能的交流中就提到:“未來5nm、3nm的制程工藝可能還存在一些困難,,但7nm制程工藝突破只是時(shí)間問題,。”

而超過7nm之后,,制程工藝提升所帶來的能效提升與為了達(dá)到這個(gè)制程所付出的成本就開始不成正比了,。邊際效益遞減,企業(yè)投入重金研發(fā)先進(jìn)制程的動(dòng)力也開始不足,。

早在2018年,,國(guó)際芯片巨頭格羅方德就宣布放棄7nm的研發(fā),原因就是成本上升到無法承受的地步,。而作為國(guó)際芯片代工巨頭的臺(tái)積電,,最近也在3nm制程上也遇到了困難,。

按照臺(tái)積電的規(guī)劃,3nm工藝的節(jié)點(diǎn)共有 N3,、N3E,、N3P、N3X 四種工藝,。而目前市場(chǎng)卻有消息,,稱因?yàn)槌杀咎撸_(tái)積電也計(jì)劃放棄第一代3nm工藝,,轉(zhuǎn)而投入到N3E的研發(fā)中,。

與國(guó)外芯片半導(dǎo)體執(zhí)著于更先進(jìn)的制程不同,國(guó)內(nèi)卻已經(jīng)開始在其他方面另辟蹊徑,,比如更先進(jìn)的封裝工藝,,異構(gòu)芯片等領(lǐng)域。而在這些方面,,中國(guó)其實(shí)是有彎道超車的機(jī)會(huì)的,,因?yàn)榇蠹叶荚谝粋€(gè)起跑線上。

在國(guó)內(nèi),,壁仞科技的GPU芯片是率先采用Chiplet技術(shù)的芯片,。

8月初,壁仞科技在上海發(fā)布了首款通用GPU BR100,,該芯片集成了770億個(gè)晶體管,,其16位(半精度,英偉達(dá)最先進(jìn)的芯片達(dá)到64位,,雙精度)浮點(diǎn)算力能達(dá)到1000T以上,、8位定點(diǎn)算力能達(dá)到2000T以上,單芯片峰值算力達(dá)到了每秒千萬次計(jì)算(PFLOPS)的級(jí)別,。

雖然這款芯片只有半精度級(jí)別,,但作為對(duì)比同樣7nm制程的英偉達(dá)A100芯片在8位和16位定點(diǎn)的算力水平,壁仞科技的BR100已經(jīng)超過了英偉達(dá),。

壁仞科技聯(lián)合創(chuàng)始人,、總裁徐凌杰表示,BR100系列芯片以及相應(yīng)硬件計(jì)算產(chǎn)品將于今年年底量產(chǎn),。同時(shí),,壁仞科技也與包括浪潮信息在內(nèi)的多家服務(wù)器廠商達(dá)成了合作。

所以說,,雖然對(duì)我們來說,,外部環(huán)境越來越嚴(yán)苛,但中國(guó)在芯片領(lǐng)域仍然在穩(wěn)定的進(jìn)步,。給國(guó)內(nèi)的企業(yè)一些時(shí)間,,相信絕大部分問題都能夠逐步有序的被解決。



更多信息可以來這里獲取==>>電子技術(shù)應(yīng)用-AET<<

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章,、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容,、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118,;郵箱:[email protected],。