英偉達,、AMD將斷供中國高性能GPU芯片,,卡脖子又有了新的花樣?
今日一早,,有媒體報道英偉達發(fā)布公告,,表示之后向中國(包括香港)和俄羅斯的客戶出口兩款高端GPU芯片A100和H100需要新的出口許可。一紙公告引發(fā)人工智能和芯片半導體兩個行業(yè)的雙重地震,。
事實上,,我國高端GPU芯片進口從2019年以來就一直有被限制,只是之前主要針對的廠商是AMD,;而在應用場景上又以超算中心為主,,所以企業(yè)和消費者在產(chǎn)品端的感知并不強。
而這一次范圍擴大之后,,許多互聯(lián)網(wǎng)大廠也就受到了影響,。因為以A100芯片為例,其主要應用場景除了超算中心之外,,還包括云計算服務器,、數(shù)據(jù)中心、AI訓練等場景,。
實際上,,隨著國內(nèi)云計算、以及互聯(lián)網(wǎng)企業(yè)在云端儲存,,數(shù)據(jù)處理等方面需要的數(shù)據(jù)量越來越多,。各大互聯(lián)網(wǎng)企業(yè)、云廠商最近幾年在AI芯片領域也都早有布局,。
但國內(nèi)大廠的AI芯片主要都是專用芯片,,雖然在特定領域能夠?qū)崿F(xiàn)對英偉達的部分替代,但從產(chǎn)業(yè)全局來看,,高端場景短期仍然很難擺脫對英偉達芯片的依賴,。
當然,這也并不意味著國內(nèi)云廠商和互聯(lián)網(wǎng)大廠配置的英偉達服務器就要宕機,,芯謀研究分析師商君曼對科創(chuàng)板日報表示,本次被限制的芯片處于一個很高端的位置,,對國內(nèi)企業(yè)的影響有限,。
而在一些更普遍的應用場景,,除了已經(jīng)擁有的部分國產(chǎn)GPU芯片可以替代之外,英偉達的一些低端產(chǎn)品并不在限制范圍內(nèi),。國內(nèi)大廠其實還有相當?shù)臅r間可以輾轉(zhuǎn)騰挪,。
GPU為何卡脖子?
首先要講清楚的是,,這次針對英偉達被限制的GPU并不是常規(guī)意義上的顯卡,,而是非常高端的商用芯片,即A100和H100,。這兩款芯片都是專門針對 AI,、數(shù)據(jù)分析和 HPC 應用場景研發(fā)的。
其中,,A100芯片是2020年5月英偉達在GTC2020上發(fā)布的產(chǎn)品,。A100是一塊 3D 堆疊芯片,采用安培(Ampere)架構,,應用了當時臺積電最先進的7nm工藝,,擁有 540 億個晶體管,GPU 的最大功率達到了 400W,,算力比上一代采用 Volta 架構的Tesla V100提升了20倍,,號稱當時全球最大的7nm芯片。
H100則是一款針對大模型專門優(yōu)化的產(chǎn)品,,在今年3月份在GTC大會上才發(fā)布,,采用了最新的Hopper構架,應用的也是臺積電最先進的4nm工藝,,擁有800億個晶體管,,GPU最大功率800W。
除此之外,,H100還加入了全新的Transformer Engine和可擴展性更高的Nvidia NVLink互連功能,,用于提升大型AI語言模型、深度推薦系統(tǒng)等等,。當然,,目前H100還未正式進入商用。
圖片來源:anandtech
目前,,國內(nèi)GPU高端場景的GPU應用基本上都由英偉達的A100覆蓋,,甚至今年3月份H100發(fā)布時,國內(nèi)主流廠商也都已經(jīng)預定,。
比如,,英偉達A100發(fā)布時,首批應用的OEM廠商包括浪潮、聯(lián)想等企業(yè),;云服務公司也有阿里,、騰訊、百度等主流廠商,;而H100發(fā)布時,,阿里云、百度云和騰訊云等廠商也都計劃提供基于H100的實例,。8月底,,英偉達在第三財季展望上提到,這一塊業(yè)務預計在中國有4億美元的潛在銷售,。
這個情況在國外也是如此,,包括AWS、Google Cloud,、微軟Azure,、Oracle Cloud;或者思科,、惠普等國際大廠采用的也都是英偉達的產(chǎn)品,。目前,英偉達在數(shù)據(jù)中心 GPU 市場占比超過 80%,,在云端訓練市場上占比 90%,,云端推理市場上占比 60%。
簡單來說,,就如同高通驍龍系列對于智能手機性能的決定性一樣,,英偉達的高端GPU芯片決定了云服務的性能和性價比,因此被國內(nèi)外云廠商廣泛采用,。
當然,,被廣泛采用的另一個潛臺詞,其實是沒有可替代的產(chǎn)品(同等性能上),。
比如在高性能計算方面,,借助HBM2e每秒超過2TB的帶寬和大容量內(nèi)存,科研人員可以在A100上將原本要花費10小時的雙精度模擬過程縮短到4小時之內(nèi),。但在國內(nèi),,目前沒有芯片公司能夠?qū)崿F(xiàn)FP64的技術能力。
顯然這一次美國對先進GPU的出口限制也將對中國的云廠商帶來非常重大的影響,。但從另一方面來說,,這對中國自主GPU的發(fā)展也未嘗不是一件好事。
大廠造芯能否自給自足,?
雖然這次限制突如其來,,但國內(nèi)相關的云廠商和互聯(lián)網(wǎng)大廠也并非全無準備。
早在幾年前,隨著國內(nèi)云計算,、以及互聯(lián)網(wǎng)企業(yè)在云端儲存,,數(shù)據(jù)處理等方面需要的數(shù)據(jù)量越來越多,。各大互聯(lián)網(wǎng)企業(yè),、云廠商就已經(jīng)在AI芯片領域開始布局了。
比如阿里在2019年發(fā)布了AI芯片含光800,,百度在2020年量產(chǎn)了第一代AI芯片昆侖,;稍微慢一點的騰訊也在2021年發(fā)布了視頻處理芯片“滄海”和AI芯片“紫霄”,。今年7月份,,字節(jié)在“2022 火山引擎原動力大會”上也正式確認了其在自主造芯方面的布局。目前,,字節(jié)的芯片研發(fā)已經(jīng)涉足視頻平臺,、信息和娛樂應用等。
雖然各大廠商進入芯片領域的時間有先后,,但在具體的方向和應用場景上,,大家的動作反而是出奇一致的。目前為止,,國內(nèi)互聯(lián)網(wǎng)大廠研發(fā)的芯片,,或者方向都集中在云計算,視頻圖像處理等方面的專用或者通用芯片上,。
當然,,大廠造芯除了解決技術自主問題之外,更重要的還在于成本和效率,。
比如2019年阿里拍立淘商品庫每天新增 10 億商品圖片,,使用傳統(tǒng) GPU 算力識別需要 1 小時,但阿里同年推出的AI芯片“含光800”應用之后,,這一時間被縮短到5分鐘,。
同時,自研芯片還能極大程度節(jié)省云服務器的成本,。
比如過去十年在云服務市場一直保持領先的亞馬遜就因為通過自研服務器芯片Graviton替換英偉達來持續(xù)降低價格,。據(jù)The Information報道,亞馬遜的客戶表示,,他們通過租用Graviton服務器節(jié)省了10%~40%的計算成本,。
事實上,不僅是阿里和亞馬遜,,如今的互聯(lián)網(wǎng)大廠其實都面臨著數(shù)據(jù)爆炸來帶的處理效率,、能耗以及成本的問題。對外提供云服務的企業(yè)更需要面對市場的競爭,不對外提供云服務企業(yè)也要考慮自身效率的提升,。
比如現(xiàn)在的抖音,,主屏已經(jīng)從過去的底部4欄,頂部兩欄擴充到底部4欄,,頂部4欄等多個類目,。而復雜的內(nèi)容背后,往往意味著龐大的數(shù)據(jù)處理,。
有數(shù)據(jù)顯示,,2017年抖音租借的服務器僅3萬臺,但到了2020就達到了42萬臺,。除此之外,,這一年字節(jié)在美國弗吉尼亞租還有一個可容納10萬臺服務器的數(shù)據(jù)中心。
字節(jié)跳動主管火山引擎,、數(shù)據(jù)中臺的副總裁楊震原表示,,如今字節(jié) 95% 的業(yè)務已經(jīng)跑在自己的數(shù)據(jù)中心上。龐大的數(shù)據(jù)處理成為推動字節(jié)自研芯片的核心動力,。
除了滿足內(nèi)部需要之外,,以阿里、百度為代表的大廠其實也在將自研芯片向外進行“售賣”,。比如阿里“含光800”雖然不對外售賣,,但張建峰也提到:“含光 800 將通過阿里云對外輸出 AI 算力,未來企業(yè)可以通過阿里云獲取含光 800 的算力,?!?/p>
基于云的芯片通過云走向市場。這其實也是為什么各大廠商的芯片主要都是自用的原因,。當然,,這種自用也并不是絕對的,畢竟現(xiàn)在各大廠商其實都在通過云服務的方式,,將自身的能力分享給其他玩家,。
比如張建峰也提到:“含光 800 將通過阿里云對外輸出 AI 算力,未來企業(yè)可以通過阿里云獲取含光 800 的算力,?;诤?800 的阿里云性價比提升了 100%?!?/p>
據(jù)調(diào)研機構Canalys發(fā)布的2022年一季度中國云計算市場報告顯示,,中國云市場總體規(guī)模達到73億美元,同比增長21%,。阿里云以36.7%的市場份額保持領先位置,,華為云,、騰訊云、百度智能云分別以18.0%,、15.7%,、8.4%的市場份額位居第二至第四位。
從云服務分類來看,,目前IaaS的市場份額最大,,2021年占比超過62.14%。但如今,,IaaS產(chǎn)品的競爭其實也趨向于同質(zhì)化,,在這樣的背景下,價格戰(zhàn)成為IaaS產(chǎn)品競爭的主要方式,。2020年6月,字節(jié)的火山引擎上市后就喊出了“極致性價比”的口號,。
要打價格戰(zhàn),,對于廠商來說,前提就是要降低成本,。而自研芯片就是降低成本的成本的最好方式,。
在國外,如亞馬遜,、谷歌等大廠,,率先開始了通過芯片自研來降低成本。比如,,自2015年亞馬遜收購Annapurna開啟芯片自研之路以來,,AWS就先后歷經(jīng)了百余次降價。在國內(nèi),,火山引擎總經(jīng)理譚待也曾表示,,實現(xiàn)極致性價比的方式就是“全棧自研、軟硬一體”,。
舉個簡單的例子,,對于龐大的云服務器而言,電費其實占了日常運營成本的很大一部分,,而決定電費的關鍵因素又在于服務器運行的功耗,。
針對這個問題,阿里推出的首款通用型CPU“倚天710”采用的就是以低功耗為特點的ARM構架,,并在設計上也采用了多核互聯(lián)網(wǎng)和芯片間互聯(lián)等低功耗技術,。從阿里公布的數(shù)據(jù)來看,“倚天710”的能效比要比業(yè)界標桿提升50%以上,。
去年底騰訊云與智慧事業(yè)群 CEO 湯道生在接受《中國企業(yè)家》采訪時稱,,騰訊造芯的核心思路是基于自身需求,,要么降低成本,要么更高效地使用基礎設施,。
整體而言,,業(yè)內(nèi)造芯的主要目的就是為了降本增效,盡管自研芯片的前期研發(fā)投入比較高,,但在規(guī)?;懂a(chǎn)后,單片成本一定比集中采購低,?!币晃煌瑢倩ヂ?lián)網(wǎng)大廠芯片從業(yè)者向虎嗅解釋。
來源:周天財經(jīng)
是危險,,也是機遇
除了大廠自研AI芯片之外,,最近幾年隨著國內(nèi)芯片半導體產(chǎn)業(yè)的蓬勃發(fā)展,也隨之崛起了一大批的GPU芯片企業(yè),,比如芯原微電子,、燧原科技、摩爾線程,、壁仞科技等等,。其中如老牌CPU廠商龍芯、海光更是都已經(jīng)實現(xiàn)了上市,。
不過,,雖然業(yè)內(nèi)人士也指出,計算芯片最大的門檻其實不是硬件,,而是軟件,。如果一個芯片沒有與之配套的軟件生態(tài),則很難真的形成大面積的應用,。而這其實也是許多國內(nèi)GPU公司的產(chǎn)品很難獲得客戶認可的原因,。
但這兩年,國內(nèi)許多GPU芯片公司其實也在飛速成長,,海光DCU8系列Z100產(chǎn)品數(shù)據(jù)接近英偉達的MI100產(chǎn)品,,同時兼容CUDA生態(tài)而被市場廣泛看好。
除此之外,,國產(chǎn)GPU還面臨更多挑戰(zhàn),。比如之前產(chǎn)量的問題,雖然海光的芯片性能獲得了市場的認可,,但由于其出貨量不足,,以及其主要產(chǎn)能又供給給國家的超算中心,以至于市場上能拿到海光的芯片其實并不多,。
另一方面也在于市場,,在之前海外高端GPU芯片購買暢通的時候,,國內(nèi)芯片其實很難受到客戶的認可,大家普遍的選擇都是購買最先進,、穩(wěn)定的產(chǎn)品,。而這一次國外先進的GPU受到限制之后,其實也在提醒國內(nèi)的客戶重新考慮外部的實際情況,,從而也是給國產(chǎn)GPU企業(yè)進入客戶供應鏈提供了一次機會,。
認證為百度資深系統(tǒng)工程師的答主lychee在知乎提到,“之前有 30% 的性能提升可能都不會考慮(生態(tài)不行),,現(xiàn)在有 30% 的性能差距可能都不是問題了,,畢竟刀架在脖子上,先用上再說,?!?/p>
除此之外,在摩爾定律“失效”的大背景下,,世界芯片半導體亟需建立一套新的規(guī)則,,這是中國芯片半導體前所未有的機會。
目前英偉達被限制的A100芯片采用的是7nm制程,,之前華登國際合伙人王林在于光錐智能的交流中就提到:“未來5nm、3nm的制程工藝可能還存在一些困難,,但7nm制程工藝突破只是時間問題,。”
而超過7nm之后,,制程工藝提升所帶來的能效提升與為了達到這個制程所付出的成本就開始不成正比了,。邊際效益遞減,企業(yè)投入重金研發(fā)先進制程的動力也開始不足,。
早在2018年,,國際芯片巨頭格羅方德就宣布放棄7nm的研發(fā),原因就是成本上升到無法承受的地步,。而作為國際芯片代工巨頭的臺積電,,最近也在3nm制程上也遇到了困難。
按照臺積電的規(guī)劃,,3nm工藝的節(jié)點共有 N3,、N3E、N3P,、N3X 四種工藝,。而目前市場卻有消息,稱因為成本太高,,臺積電也計劃放棄第一代3nm工藝,,轉(zhuǎn)而投入到N3E的研發(fā)中,。
與國外芯片半導體執(zhí)著于更先進的制程不同,國內(nèi)卻已經(jīng)開始在其他方面另辟蹊徑,,比如更先進的封裝工藝,,異構芯片等領域。而在這些方面,,中國其實是有彎道超車的機會的,,因為大家都在一個起跑線上。
在國內(nèi),,壁仞科技的GPU芯片是率先采用Chiplet技術的芯片,。
8月初,壁仞科技在上海發(fā)布了首款通用GPU BR100,,該芯片集成了770億個晶體管,,其16位(半精度,英偉達最先進的芯片達到64位,,雙精度)浮點算力能達到1000T以上,、8位定點算力能達到2000T以上,單芯片峰值算力達到了每秒千萬次計算(PFLOPS)的級別,。
雖然這款芯片只有半精度級別,,但作為對比同樣7nm制程的英偉達A100芯片在8位和16位定點的算力水平,壁仞科技的BR100已經(jīng)超過了英偉達,。
壁仞科技聯(lián)合創(chuàng)始人,、總裁徐凌杰表示,BR100系列芯片以及相應硬件計算產(chǎn)品將于今年年底量產(chǎn),。同時,,壁仞科技也與包括浪潮信息在內(nèi)的多家服務器廠商達成了合作。
所以說,,雖然對我們來說,,外部環(huán)境越來越嚴苛,但中國在芯片領域仍然在穩(wěn)定的進步,。給國內(nèi)的企業(yè)一些時間,,相信絕大部分問題都能夠逐步有序的被解決。
更多信息可以來這里獲取==>>電子技術應用-AET<<