出品|虎嗅科技組
作者|宇多田
頭圖|視覺中國(guó)
一個(gè)記者的提問,讓黃仁勛在2019年12月一場(chǎng)媒體溝通會(huì)上,,二話不說拿起話筒朝頭頂狠狠敲了好幾下,。對(duì)了,,巨大的回音可以證明他是用力砸的,。
這個(gè)略顯可愛的舉動(dòng)和他接下來的話,,讓包括我在內(nèi)的全部記者都笑出聲來:
“完了,,聽到這個(gè)問題,,我在臺(tái)上滴水未進(jìn),,嗓子冒煙的兩個(gè)小時(shí)算是白費(fèi)了?!?/p>
這個(gè)記者的問題有些含糊,,但也問出了很多人心中的疑惑——
英偉達(dá)這次為何沒發(fā)芯片?
這樣理解其實(shí)也沒錯(cuò),。2019年末,,當(dāng)“英特爾們”每隔幾天就通過收購(gòu)、發(fā)布新產(chǎn)品等方式,,向外界360度無死角“吹風(fēng)”自己的AI芯片戰(zhàn)略時(shí),,所有人都在等著英偉達(dá)如何在自己的GTC技術(shù)大會(huì)上,“回應(yīng)”向自己挑釁的各路人馬,。
然而,,這場(chǎng)會(huì)上,除了一塊名為Orin的自動(dòng)駕駛專用芯片,這家全球最具價(jià)值的人工智能芯片巨頭發(fā)布的產(chǎn)品全都是“軟件”,。而且Orin,,還要等到2022年才會(huì)投產(chǎn)。
這場(chǎng)會(huì)議,,完美契合了他在2019年Q3季度財(cái)報(bào)業(yè)績(jī)電話會(huì)議上的一個(gè)重要觀點(diǎn)——
“英偉達(dá)已經(jīng)成為了一家軟件公司,。”
這家“軟件公司”,,在2020年2月中旬公布了2020財(cái)年第四季財(cái)報(bào)后,,市值一度摸高至接近2000億美元,創(chuàng)了歷史新高,。盡管現(xiàn)在已回落至1600多億美元,,但過去兩年,英偉達(dá)(NASDAQ:NVDA)毫無疑問是華爾街上傳奇般的“金股”,。隨著市場(chǎng)對(duì)數(shù)據(jù)中心越來越強(qiáng)勁的需求,,英偉達(dá)跟新舊芯片玩家之間的戰(zhàn)爭(zhēng),,注定將越發(fā)血腥,。
它崛起背后是什么樣的技術(shù)動(dòng)能、巨頭爭(zhēng)奪,?它的未來,,又暗示著什么樣的巨大市場(chǎng)?
無可比擬的軟件優(yōu)勢(shì)
由于英偉達(dá)越來越多地“露骨”地開始利用其軟件實(shí)力來銷售那些看上去只是硬件的產(chǎn)品,,因此我們有理由相信,,這家芯片公司已經(jīng)開始奉行“軟件第一”戰(zhàn)略。
這很容易讓人想起蘋果公司的發(fā)展路徑,,以及2007年那個(gè)已經(jīng)被傳爛了的喬布斯“軟件?!薄?/p>
在第5屆全數(shù)字化大會(huì)(All Things Digital conference)上,喬布斯曾與比爾·蓋茨談話時(shí)指出,,iPhone其實(shí)是包在一個(gè)漂亮外殼下的軟件,,蘋果是一家軟件公司。
股票分析網(wǎng)站Seeking Alpha 證券投資分析師DoctoRx證實(shí)過另一個(gè)相似故事——
也是在2007年,,喬布斯在一場(chǎng)關(guān)于iPhone的路演上,,被一位投資經(jīng)理提出質(zhì)疑: “雖然你把觸摸屏做的很酷炫,但如何避免陷入價(jià)格競(jìng)爭(zhēng)呢,?難道不是每個(gè)競(jìng)爭(zhēng)對(duì)手都能做觸摸屏,? ” 喬布斯回復(fù):“我們是一家軟件公司?!?/p>
讓我們?cè)倩氐接ミ_(dá)身上,。如果按照這樣一個(gè)思路,那么就可以很好解釋:為何在近三年來AI芯片市場(chǎng)烽火彌漫,英偉達(dá)每年在數(shù)十份AI芯片公司的PPT里被“吊打”的“壓倒性劣勢(shì)”中,,股價(jià)還能穩(wěn)步走高了,。
就像大家很容易遺忘在iPhone發(fā)布前,蘋果已經(jīng)在電腦上做了十幾年操作系統(tǒng)一樣,;AI芯片公司們也忘記英偉達(dá)是一家顯卡供應(yīng)商的同時(shí),,手里還握著另一個(gè)殺器:Cuda。
可愛的老黃
在上世紀(jì)90年幾乎左右了芯片產(chǎn)業(yè)發(fā)展方向的英特爾傳奇總裁安迪·格魯夫,,有一個(gè)逼自己一定要遵守的產(chǎn)業(yè)規(guī)則:“在這個(gè)行業(yè)里,,要想預(yù)見十年后會(huì)發(fā)生什么,就要回顧過去十年中發(fā)生的事情,?!?/p>
對(duì)于英偉達(dá)如今在人工智能訓(xùn)練芯片市場(chǎng)確立的壟斷性地位,某種程度上也要?dú)w功于十年前英偉達(dá)首席科學(xué)家戴維·柯克一系列在當(dāng)時(shí)看來風(fēng)險(xiǎn)極高的瘋狂決策,。
一方面,,他竭盡全力勸服CEO黃仁勛把GPU通用化——讓一塊只能渲染圖形的獨(dú)立顯卡,變成一個(gè)通用計(jì)算圖形處理器(GPGPU),;另一方面強(qiáng)烈要求英偉達(dá)現(xiàn)有與即將推出的所有GPU都必須支持Cuda程序,。
據(jù)自動(dòng)駕駛公司文遠(yuǎn)之行技術(shù)總監(jiān)鐘華回憶,十幾年前還在卡內(nèi)基梅隆念書時(shí),,那個(gè)時(shí)候給GPU編程需要用機(jī)器碼深入到顯卡內(nèi)核才能完成任務(wù),,非常困難。
“我們用匯編語言寫代碼,,寫起來真的非常燒腦,。英偉達(dá)推出了Cuda以后,相當(dāng)于把復(fù)雜的顯卡編程包裝成了一個(gè)簡(jiǎn)單的接口,,造福了廣大程序員?,F(xiàn)在主流的深度學(xué)習(xí)框架基本都是基于Cuda進(jìn)行GPU并行加速?!?/p>
2007年,,英偉達(dá)正式推出GPU統(tǒng)一計(jì)算架構(gòu)平臺(tái)Cuda。這一架構(gòu)的里程碑意義在于,,讓GPU不再單獨(dú)存在于個(gè)人用戶的顯卡中,,僅為自己的“一畝三分地”工作;而是讓GPU通用化,,把“個(gè)人計(jì)算機(jī)”變成可以并行運(yùn)算的“超級(jí)計(jì)算機(jī)”,。
雖然初期推廣并不順利,但2009年,,由于基于Cuda的高性能運(yùn)算研究成果陸續(xù)在眾多知名期刊發(fā)表并獲得認(rèn)可,,英偉達(dá)終于迎來了業(yè)務(wù)轉(zhuǎn)機(jī),,并奠定了之后10年的AI芯片市場(chǎng)絕對(duì)霸主地位,為業(yè)界提供了強(qiáng)大的并行運(yùn)算能力,。
“Cuda是當(dāng)時(shí)已經(jīng)瀕臨破產(chǎn)的英偉達(dá)再度崛起不可忽視的推動(dòng)力,。” 高精地圖公司極奧科技CTO通過歷史上一系列相似產(chǎn)品的發(fā)展路徑總結(jié)出一個(gè)經(jīng)驗(yàn)——給硬件找到簡(jiǎn)單易用的軟件接口形態(tài),,才能在市場(chǎng)中迅速被接受并推廣至各個(gè)細(xì)分領(lǐng)域,。
2019年,“Cuda之父”柯克博士被美國(guó)電氣和電子工程師協(xié)會(huì)(IEEE)授予了協(xié)會(huì)最高獎(jiǎng)項(xiàng)Seymour Cray 計(jì)算機(jī)工程獎(jiǎng),,以表彰他對(duì)高性能計(jì)算機(jī)系統(tǒng)創(chuàng)新的巨大貢獻(xiàn),。
如今我們可以看到,英偉達(dá)已經(jīng)在Cuda基礎(chǔ)上開發(fā)和積累了針對(duì)不同領(lǐng)域的大量算法與軟件,,讓數(shù)不清的開發(fā)者不用寫一行代碼,,就能先讓一套深度學(xué)習(xí)基礎(chǔ)模型跑起來,站在巨人的肩膀上升級(jí)與優(yōu)化軟件堆棧,。
Cuda構(gòu)建的強(qiáng)大生態(tài),,支持所有主流深度學(xué)習(xí)框架,支持主流云上機(jī)器學(xué)習(xí)訓(xùn)練平臺(tái)
因此,,對(duì)于許多AI芯片創(chuàng)業(yè)公司,,如果可以支持的深度學(xué)習(xí)框架都不全,能夠?qū)拥木幊陶Z言也有限,,也就無法對(duì)許多那些已習(xí)慣了從基于Cuda的算法庫上傳和下載算法,、通過Cuda架構(gòu)使用英偉達(dá)跨代產(chǎn)品的開發(fā)者,產(chǎn)生足夠的吸引力,。
這相當(dāng)于,當(dāng)你面對(duì)眼前的一堆沙子思考如何設(shè)計(jì)一堵墻時(shí),,對(duì)手的護(hù)城墻不僅已高達(dá)數(shù)十丈,,還廣招兼職砌墻工,并為他們提供云梯和入城資格,。
“國(guó)內(nèi)很多自動(dòng)駕駛公司,,用的是英偉達(dá)PX2片上系統(tǒng),這個(gè)架構(gòu)最大的好處是方便,。
“譬如直接就能把車道線識(shí)別,,障礙物識(shí)別都搭建起來,因?yàn)橄嚓P(guān)算法都可以在網(wǎng)上下載完并進(jìn)行快速部署,,而且還能做配套的硬件加速,。而這些算法,也是之前開發(fā)者上傳的訓(xùn)練模型,?!?/p>
一位不具姓名的自動(dòng)駕駛技術(shù)人士做如上表示,。他稱,國(guó)內(nèi)不少人工智能公司就是搭了英偉達(dá)的便車發(fā)展起來的:“所以你看,,英偉達(dá)一下子占領(lǐng)了兩塊兒,,一塊兒是訓(xùn)練端,一塊兒應(yīng)用端,。短期內(nèi),,不可能有人撼動(dòng)他們的地位?!?/p>
下一個(gè)十年的支撐點(diǎn)
2020年2月,,美國(guó)財(cái)經(jīng)網(wǎng)站MarketWatch用“華爾街為之震驚”,來形容英偉達(dá)2020財(cái)年Q4財(cái)報(bào)上數(shù)據(jù)中心板塊的強(qiáng)勢(shì)表現(xiàn)——
英偉達(dá)的芯片銷售額達(dá)到創(chuàng)紀(jì)錄的9.68億美元,。
這的確是一個(gè)令人瞠目結(jié)舌的數(shù)字,。要知道,2017財(cái)年英偉達(dá)剛披露這一業(yè)務(wù)數(shù)據(jù)時(shí),,收入為2.8億美元,;此后,英偉達(dá)的服務(wù)器芯片歷史銷售數(shù)據(jù)歷經(jīng)跌宕起伏,,但最好成績(jī)也從未超過8億美元,。
因此,這個(gè)數(shù)字可以直接向我們證明:數(shù)據(jù)中心,,特別是超大型數(shù)據(jù)中心對(duì)人工智能芯片的需求不僅沒有放緩,,反而在加速擴(kuò)張。
從2017年Q4到2020年Q4英偉達(dá)各個(gè)業(yè)務(wù)板塊的收入變化,。圖片來自商業(yè)定量分析機(jī)構(gòu)Business Quant
實(shí)際上,,GTC大會(huì)有一點(diǎn)被很多人忽視了。老黃發(fā)布產(chǎn)品的順序,,與產(chǎn)品對(duì)應(yīng)細(xì)分市場(chǎng)在英偉達(dá)財(cái)報(bào)中占據(jù)的份額,,一直呈現(xiàn)正相關(guān)關(guān)系。
先是游戲,,再是云計(jì)算應(yīng)用,、最后是自動(dòng)駕駛(汽車)。
根據(jù)英偉達(dá)最新的2020財(cái)年Q4財(cái)報(bào)數(shù)據(jù),,”游戲“仍然是多年來英偉達(dá)的營(yíng)收支柱板塊,,收入高達(dá)14.9億美元,約占總營(yíng)收的47%,;
而增長(zhǎng)強(qiáng)勁的數(shù)據(jù)中心板塊,,如今已經(jīng)躍升為英偉達(dá)最具有市場(chǎng)拓展?jié)摿Φ臉I(yè)務(wù)分支。收入同比增長(zhǎng)43%,,逼近10億美元大關(guān),;
通常放在財(cái)報(bào)電話會(huì)議上最后說的,,是包含了車載信息娛樂與自動(dòng)駕駛解決方案的汽車業(yè)務(wù)相關(guān)收入。這一部分看似表現(xiàn)平平,,只有1.63億美元,,同比增長(zhǎng)1%,卻是一個(gè)不可忽視的長(zhǎng)線市場(chǎng),。
這三個(gè)板塊,,更像是對(duì)應(yīng)了英偉達(dá)的“過去”、“現(xiàn)在”和“未來”,。
雖然“游戲”是圖像處理與滿足神經(jīng)網(wǎng)絡(luò)計(jì)算的應(yīng)用與創(chuàng)新源頭,,也是英偉達(dá)必須守住的老本行。
但趨于飽和,、不斷被移動(dòng)端擠壓的PC游戲市場(chǎng),,遠(yuǎn)沒有新興市場(chǎng)帶給英偉達(dá)的誘惑力更大。
根據(jù)游戲市場(chǎng)研究機(jī)構(gòu)Peddie Research的最新數(shù)據(jù),,過去近5年里,,英偉達(dá)在PC獨(dú)立顯卡市場(chǎng),一直占據(jù)著70%以上的市場(chǎng)份額,,特別是其Geforce系列顯卡,,極受游戲與挖礦產(chǎn)業(yè)的歡迎。
不過,,整個(gè)PC GPU市場(chǎng),,英特爾才是老大。
圖片來自Peddie Research
再?gòu)挠螒蛘w市場(chǎng)來看,,英偉達(dá)的GPU產(chǎn)品并不占據(jù)明顯優(yōu)勢(shì),。特別是主機(jī)與移動(dòng)游戲的GPU市場(chǎng),英偉達(dá)常年分別被AMD與ARM壓一頭,。
換句話說,,PC游戲市場(chǎng)在某種程度上決定了英偉達(dá)游戲業(yè)務(wù)的增長(zhǎng)速度。
對(duì)于2019及未來3年的全球游戲市場(chǎng)發(fā)展趨勢(shì),,游戲與電競(jìng)市場(chǎng)分析平臺(tái)NewZoo給出了一個(gè)可參考的判斷——
在2019年全球游戲市值將達(dá)到1488億美元的基礎(chǔ)上,移動(dòng)游戲占比高達(dá)46%,;與之相比,,單機(jī)游戲與PC游戲市場(chǎng)份額分別為453億與353億,兩者加起來占比僅為23.3%,。 到2022年,,從PC端向移動(dòng)端轉(zhuǎn)移的趨勢(shì)將愈加明顯,PC市場(chǎng)游戲份額將被擠壓至20%以下,,而且收入的增長(zhǎng)速度將慢于移動(dòng)和主機(jī)游戲收入的增長(zhǎng)速度,。
這多少會(huì)對(duì)英偉達(dá)的游戲業(yè)務(wù)產(chǎn)生影響,。
此外,從英偉達(dá)2020全財(cái)年的游戲收入來看,,55.2億美元的營(yíng)收額已經(jīng)比去年減少了近12%,。
圖片來自NewZoo
實(shí)際上,幾乎所有華爾街分析師近年來給予英偉達(dá)股票高評(píng)級(jí)的理由,,都是“對(duì)這家公司在數(shù)據(jù)中心市場(chǎng)的增長(zhǎng)潛力抱有積極態(tài)度”,。
云,才是人工智能發(fā)展的重心,,也是英偉達(dá)的下一個(gè)野心,。
對(duì)于所有神經(jīng)網(wǎng)絡(luò)算法模型來說,訓(xùn)練一般都要在云上進(jìn)行,。因此,,這對(duì)計(jì)算能力、速度以及單位數(shù)據(jù)傳輸量有著極高的要求,。
特別是由大量神經(jīng)元組成的深度學(xué)習(xí)框架,,是建立在“矩陣運(yùn)算”的基礎(chǔ)上。雖然“矩陣”的運(yùn)算形式是簡(jiǎn)單的加法與乘法,,但涉及的數(shù)據(jù)量非常龐大,。
與擅長(zhǎng)復(fù)雜邏輯運(yùn)算、但核心數(shù)較少的CPU相比,,GPU雖然只能進(jìn)行簡(jiǎn)單運(yùn)算,,但它是由成千上萬個(gè)小處理器核心構(gòu)成的,而且這些小核心可以同時(shí)處理任務(wù),。
這就好比我想把墻角的幾百塊磚頭挪走,,比起雇傭幾個(gè)大學(xué)教授,雇傭100個(gè)小學(xué)生不僅效率更高,,而且更劃算,。
因此,如果只是進(jìn)行圖片分類,,在GPU上計(jì)算出答案的速度可能只比在CPU的速度要快上一兩秒,;但當(dāng)神經(jīng)網(wǎng)絡(luò)在進(jìn)行訓(xùn)練時(shí),GPUs在“并行計(jì)算”上的優(yōu)勢(shì)就會(huì)十分明顯,,因?yàn)橛?xùn)練時(shí)需要進(jìn)行數(shù)百萬次的反向傳播迭代,。
2019年年底的GTC上,英偉達(dá)與阿里,、百度等中國(guó)企業(yè)的高調(diào)合作,,進(jìn)一步凸現(xiàn)了GPU在云端人工智能算法訓(xùn)練中扮演的重要角色—— “搜索的時(shí)代已經(jīng)結(jié)束,智能推薦的時(shí)代已經(jīng)到來,?!?/p>
圖片來自GTC現(xiàn)場(chǎng)
對(duì)于普通消費(fèi)者來說,,GPU對(duì)深度學(xué)習(xí)推薦模型的貢獻(xiàn)其實(shí)不難理解。
打開手機(jī)淘寶,,“有好貨”,,“每日好店”,“猜你喜歡”……都是深度學(xué)習(xí)推薦模型在根據(jù)你瀏覽及購(gòu)買數(shù)據(jù),,挑出與你喜好相匹配的商品,。而這些推薦模型,建立在十億級(jí)商品與用戶數(shù)據(jù)集之上,。
此外,,抖音以及快手中的推薦系統(tǒng),也有著過千萬的視頻上傳量與過億用戶的數(shù)據(jù)基礎(chǔ),。
而英偉達(dá)的Tesla T4 ,、V100等處理器與配套加速軟件,發(fā)揮的主要作用,, 便是為基于億級(jí)數(shù)據(jù)的推薦算法模型訓(xùn)練進(jìn)行資源分配,、量化與加速。
這些相關(guān)應(yīng)用,,便是數(shù)據(jù)中心市場(chǎng)引發(fā)的新一輪硬件部署潛在增長(zhǎng)趨勢(shì),。
如果說上一個(gè)10年中的數(shù)據(jù)中心芯片市場(chǎng)急劇擴(kuò)張,主要取決于2B客戶對(duì)機(jī)房?jī)?nèi)部基礎(chǔ)硬件的瘋狂采購(gòu),;那么新一輪增長(zhǎng)動(dòng)力,,則來自于數(shù)據(jù)中心需要處理的越來越復(fù)雜的推理計(jì)算工作。
如今在數(shù)據(jù)中心市場(chǎng),,Tesla系列毫無疑問是AI加速方面的主流處理器,,用阿里云某工程師的話來說就是:“你當(dāng)然也可以用CPU去訓(xùn)練,但是解1路視頻就要耗掉一塊CPU,,但卻只會(huì)消耗GPU的一部分帶寬,。”
云產(chǎn)業(yè)調(diào)研機(jī)構(gòu)Liftr Cloud Insights在2019年做出一個(gè)估算:截至2019年5月,,全球排名前四的公有云服務(wù)商,,部署有英偉達(dá)專用AI加速器的IaaS計(jì)算實(shí)例類型,就高達(dá)97.4%,。
很明顯,,盡管英特爾與AMD等競(jìng)爭(zhēng)對(duì)手在這方面的動(dòng)作不容小覷,但在未來3~5年內(nèi),,但他們的GPU解決方案不太可能大幅削減英偉達(dá)在數(shù)據(jù)中心AI加速器領(lǐng)域的市場(chǎng)。
來自傳統(tǒng)巨頭的撕咬
歷史證明,,芯片企業(yè)是永遠(yuǎn)不可能睡上安穩(wěn)覺的,。
20世紀(jì)80年代,,在日本存儲(chǔ)芯片廠商強(qiáng)大的低價(jià)攻勢(shì)下,英特爾曾徘徊在垂死邊緣,,最后孤注一擲,,決然放棄存儲(chǔ)芯片市場(chǎng);
2006年,,AMD收購(gòu)了英偉達(dá)在顯示芯片市場(chǎng)的最大敵人ATI,。但這筆收購(gòu)費(fèi)太貴,外加在與英特爾的長(zhǎng)期價(jià)格戰(zhàn)中耗費(fèi)大量資金,,AMD此后10年,,再無爭(zhēng)奪行業(yè)老大的任何機(jī)會(huì)與條件;
而說到英偉達(dá),,2009年則是決定它命運(yùn)的一年,。
在英偉達(dá)的Cuda還沒有被業(yè)內(nèi)廣泛采納的不到1年時(shí)間里,由于推出的高端筆記本獨(dú)立顯卡出現(xiàn)了一系列質(zhì)量問題,,英特爾與AMD又趁機(jī)“火上澆油”,,英偉達(dá)股價(jià)由最高時(shí)的30多美元,跌至6美元左右,。
“每次有困難的季度出現(xiàn),,就會(huì)有人想順勢(shì)搞砸一切。但為了在未來某個(gè)節(jié)點(diǎn)做出偉大的成就,,你就必須在今天承擔(dān)風(fēng)險(xiǎn),。”
黃仁勛說出這句話的時(shí)候,,正是10年前股票跌至最低點(diǎn),,整個(gè)公司處于十字路口的關(guān)鍵時(shí)刻。
但他隨后便做出了選擇——
裁員以削減成本,,延長(zhǎng)回購(gòu)股票計(jì)劃,,在GPU處理器和配套軟件上面砸更多的錢,集中精力“籠絡(luò)”流媒體公司,、游戲玩家,,以及那時(shí)還為數(shù)不多,但要求卻最為苛刻的科學(xué)家與AI工程師,。
如此這般若干年后,,英偉達(dá)迎來當(dāng)下的黃金年代。
但哪有一勞永逸可言,。一路搏斗,、一旦選錯(cuò)方向就永無翻身之日的芯片公司們,最不缺的就是危機(jī)感,以及總想趁機(jī)踩一腳的競(jìng)爭(zhēng)對(duì)手,。
因此,,在利潤(rùn)豐厚,且仍然是一片藍(lán)海的數(shù)據(jù)中心AI芯片市場(chǎng),,無論是敵人還是客戶,,你能想到的一切企業(yè),基本都可以對(duì)英偉達(dá)構(gòu)成生存威脅:
英特爾,、AMD,、高通、ARM,、三星,、英飛凌等半導(dǎo)體制造商們;
運(yùn)營(yíng)著超大數(shù)據(jù)中心,,急切需要多樣化AI芯片組技術(shù)的亞馬遜,、微軟、谷歌,、阿里以及IBM等云服務(wù)廠商們,;
以及如今看起來還不成氣候,但卻數(shù)量驚人的創(chuàng)業(yè)公司們,。
我們需要清楚地認(rèn)識(shí)到,,英特爾一直占據(jù)著數(shù)據(jù)中心服務(wù)器CPU市場(chǎng)90%以上的市場(chǎng)份額,即便這個(gè)細(xì)分市場(chǎng)被2017年重回?cái)?shù)據(jù)中心陣地的AMD蠶食掉4.5%,。
當(dāng)然,,也正是因?yàn)楸椴际澜绲臄?shù)據(jù)中心塞滿了至強(qiáng)X86處理器,英特爾2019年Q3財(cái)報(bào)上的數(shù)據(jù)中心板塊才取得了有史以來最好看的業(yè)績(jī)——95億美金,,占總營(yíng)收的半壁江山,。
但是,云端AI加速器市場(chǎng),,卻可能是英特爾有史以來首次失去主導(dǎo)者地位的領(lǐng)域,。這家全球最具影響力的芯片企業(yè),不僅正處于“芯片制程工藝停滯不前”的鎮(zhèn)痛轉(zhuǎn)型期,,還需要努力解決公司內(nèi)部設(shè)計(jì)與制造團(tuán)隊(duì)之間的隔閡與分歧,。
其實(shí)在10年前,已經(jīng)在數(shù)據(jù)中心具備影響力的英特爾,,本是有機(jī)會(huì)將英偉達(dá)“消滅”在襁褓中的,。
與游戲市場(chǎng)很不一樣,作為典型的2B行業(yè),,數(shù)據(jù)中心市場(chǎng)接受一款全新的處理器產(chǎn)品往往是相當(dāng)困難的,,因?yàn)榭蛻魝兺矚g自己熟悉且習(xí)慣的東西,。
這也是很長(zhǎng)一段時(shí)間里,英偉達(dá)向2B客戶拼命宣傳Tesla系列芯片,,卻收效甚少的重要原因,。那時(shí)GPU只受到實(shí)驗(yàn)室以及大型石油及天然氣公司的追捧,因?yàn)橹挥兴麄儗?duì)算力的要求最為“極端”,。
直到2010年,IBM同意把英偉達(dá)的Tesla系列顯卡塞進(jìn)自己的服務(wù)器里,。
這次看起來十分普通的聯(lián)姻,,對(duì)英偉達(dá)來說卻有著里程碑式的意義。因?yàn)镮BM,,是第一家給予Tesla系列認(rèn)可的主流服務(wù)公司,。
但對(duì)IBM來說,之所以會(huì)率先選擇與英特爾的對(duì)手們簽署合作項(xiàng)目,,是自己制造的Power服務(wù)器芯片與英特爾形成競(jìng)爭(zhēng)關(guān)系,。(也因此,在過去十年里,,你會(huì)發(fā)現(xiàn)IBM總是會(huì)首先推出基于AMD芯片的服務(wù)器,,或者是與索尼在芯片上建立合作,聯(lián)合抵制英特爾在視頻游戲機(jī)市場(chǎng)的進(jìn)攻,。)
當(dāng)然,,那個(gè)時(shí)候英偉達(dá)的GPGPU由于僅開放了幾個(gè)關(guān)鍵接口,并不夠通用,,很多數(shù)據(jù)中心如果替換處理器,,還需要重新寫很多代碼。
但故事的發(fā)展就是這么“恰到好處”:
一方面,,英特爾一再推遲對(duì)標(biāo)處理器的發(fā)布,,給了英偉達(dá)充分的迭代時(shí)間;而另一方面,,由于服務(wù)器CPU產(chǎn)品遭到英特爾的碾壓,,另一個(gè)對(duì)手AMD在2013年退出數(shù)據(jù)中心市場(chǎng),直到2018年才卷土重來,。
用當(dāng)時(shí)Tesla業(yè)務(wù)線負(fù)責(zé)人Andy Keane話來說就是:得到主流支持,,就像是為基于數(shù)年研發(fā)的Tesla芯片開了一道泄洪閘門,使英偉達(dá)的數(shù)據(jù)中心業(yè)務(wù)線徹底爆發(fā),。
因此,,總是錯(cuò)過關(guān)鍵時(shí)間節(jié)點(diǎn)的英特爾,現(xiàn)在真的著急了,。
“英特爾之前收購(gòu)的人工智能創(chuàng)業(yè)公司Nervana,,2014年就說要做芯片,但2019年才推出一個(gè)深度學(xué)習(xí)推理芯片,所以現(xiàn)在壓力很大,。
“在AI加速器方面,,很多云技術(shù)廠商的速度都幾乎跟他們同步了,更不用說英偉達(dá),?!?/p>
一位集成電路從業(yè)者告訴虎嗅,英特爾如今只能靠大量“收購(gòu)”來補(bǔ)齊這些缺失的模塊,,亦如他們大部分與AI能力相關(guān)的東西都是靠買得來的,。
2019年半導(dǎo)體界最為轟動(dòng)的并購(gòu)交易——英特爾耗資20億美元收購(gòu)以色列公司Habana,便是其抗擊英偉達(dá)頗為關(guān)鍵的一步棋,。
Habana迄今為止就推出了兩款處理器:訓(xùn)練芯片Gaudi與推理芯片Goya,。前者對(duì)標(biāo)英偉達(dá)的tesla V100,后者對(duì)標(biāo)推理芯片T4,。
鑒于V100與T4都是目前數(shù)據(jù)中心采用的主流AI加速器,,所以我們可以理解為,Habana就是為爭(zhēng)奪英偉達(dá)在數(shù)據(jù)中心市場(chǎng)份額的“存在”,。
其中,,Gaudi與許多AI專有訓(xùn)練芯片最大的不同在于,允許數(shù)據(jù)在多個(gè)計(jì)算節(jié)點(diǎn)之間共享的方式更加開放——一臺(tái)電腦可以通過另一個(gè)城市的另一臺(tái)電腦訪問內(nèi)存,,不會(huì)占用自己的CPU,,大大提升了使用效率。
這意味著,,該能力允許用戶更加高效地跨網(wǎng)絡(luò)或加速器結(jié)構(gòu)來共享數(shù)據(jù),,尤其適合在大規(guī)模并行計(jì)算機(jī)集群中使用。
Gaudi的系統(tǒng)開放連接與擴(kuò)展形式,,是被看做是其最大的優(yōu)勢(shì)之一
當(dāng)然,,除了靠“買”搶占市場(chǎng),英特爾更為直接粗暴的競(jìng)爭(zhēng)方式是——升級(jí)至強(qiáng)處理器,、或者直接推出專門用于數(shù)據(jù)中心的GPU方案,。
2019年4月,英特爾發(fā)布第二代至強(qiáng)處理器時(shí),,格外強(qiáng)調(diào)了“這是第一個(gè)內(nèi)置了人工智能加速處理模塊的CPU架構(gòu)”,;2020年中旬,一款基于Xe 架構(gòu)的GPU 也將面世,,而英特爾已經(jīng)承認(rèn),,這個(gè)產(chǎn)品是為數(shù)據(jù)中心量身定做的。
與英特爾相比,,重返數(shù)據(jù)中心市場(chǎng)沒多久的AMD,,暫時(shí)不會(huì)對(duì)英偉達(dá)在這個(gè)市場(chǎng)的產(chǎn)品線構(gòu)成威脅,。
但請(qǐng)記住,AMD在本月被曝光細(xì)節(jié)的代號(hào)為“Arcturus”的服務(wù)器加速卡Radeon Instinct MI100,,是一塊針對(duì)數(shù)據(jù)中心和重量級(jí)計(jì)算任務(wù)而設(shè)計(jì)的GPU,,旨在對(duì)標(biāo)英偉達(dá)的T4。
新對(duì)手登臺(tái):好戲在后頭
在英偉達(dá)GPU對(duì)數(shù)據(jù)中心不斷滲透的過程中,,除了老對(duì)手的夾擊,,數(shù)據(jù)中心經(jīng)營(yíng)者格局也在發(fā)生顯著變化——
AI相關(guān)應(yīng)用的急劇增長(zhǎng),引發(fā)了市場(chǎng)對(duì)超大型數(shù)據(jù)中心的強(qiáng)勁需求,。
超級(jí)數(shù)據(jù)中心不同于典型的數(shù)據(jù)中心,,從字面意義來看,他們的體量顯然更為龐大,,有成千上萬臺(tái)服務(wù)器以及數(shù)百萬臺(tái)虛擬機(jī)。 因此,,他們有足夠的能力來處理一個(gè)小型數(shù)據(jù)中心所不能承受的“AI計(jì)算之痛”,。
而云服務(wù)專業(yè)媒體CRN在2019年底給出了兩組有趣的調(diào)查數(shù)字:
首先,以公共云巨頭亞馬遜AWS,、微軟Azure,、阿里、谷歌,、騰訊等科技巨頭為首的超大規(guī)模數(shù)據(jù)中心運(yùn)營(yíng)商,,正在迅速搶占數(shù)據(jù)中心市場(chǎng)的支出份額。目前,,數(shù)據(jù)中心硬件和軟件上每3美元的支出,,就有1美元來自這類企業(yè)。
其次,,自2013年以來,,這類超大型數(shù)據(jù)中心的數(shù)量增加了兩倍。截至2019年第三季度末,,共有504個(gè)由巨頭運(yùn)營(yíng)的超大規(guī)模數(shù)據(jù)中心,,正在建設(shè)的則至少有150個(gè)。
因此,,結(jié)合超級(jí)數(shù)據(jù)中心的成本支出與增長(zhǎng)情況,,一方面,服務(wù)器以及其他配套硬件還會(huì)源源不斷被送進(jìn)機(jī)房,;
另一方面,,AI處理任務(wù)的持續(xù)增長(zhǎng),又會(huì)倒逼服務(wù)器的配置要得到持續(xù)的升級(jí),。
根據(jù)人工智能非營(yíng)利組織Open.AI公布的調(diào)查數(shù)據(jù),,深層神經(jīng)網(wǎng)絡(luò)的規(guī)模與復(fù)雜性,,每3.5個(gè)月翻一番。因此,,在被賦予更多更艱巨的計(jì)算任務(wù)的過程中,,這些硬件的復(fù)雜程度與處理器性能也被提出了更高的要求。
舉個(gè)例子,,亞馬遜AWS自2015年以后,,便陸續(xù)在每個(gè)地區(qū)的數(shù)據(jù)中心部署了大量T4。原因就在于英這些GPGPU擅長(zhǎng)執(zhí)行像“對(duì)話式AI”,、“人工智能推薦”這種高性能計(jì)算工作負(fù)載,。
而像商湯、曠視這樣的人臉識(shí)別獨(dú)角獸企業(yè),,需要在建立的超算中心里部署超萬塊GPU,。據(jù)商湯內(nèi)部工程師透露,他們每天在算法平臺(tái)上進(jìn)行數(shù)據(jù)訓(xùn)練迭代的單次成本,,就高達(dá)數(shù)十萬元,。
因此,我們可想而知,,亞馬遜,、微軟、阿里,、谷歌等Top級(jí)云服務(wù)商的云計(jì)算數(shù)據(jù)中心,,為了支持自己與客戶的深度學(xué)習(xí)訓(xùn)練任務(wù),所需要的GPU量級(jí)到底有多大,。
顯然,,這個(gè)變化對(duì)所有數(shù)據(jù)中心的建設(shè)參與者,包括創(chuàng)業(yè)公司在內(nèi),,都是一個(gè)絕對(duì)不能放手的巨大利益池,。
特別是云數(shù)據(jù)中心經(jīng)營(yíng)商,高昂的訓(xùn)練時(shí)間與資金成本讓他們也甘愿下海一搏,。
亞馬遜的數(shù)據(jù)中心
在一場(chǎng)不久前清華閉門交流會(huì)上,,虎嗅有幸聽到了阿里達(dá)摩院資深算法專家楊永霞對(duì)云上如何訓(xùn)練若干種卷積神經(jīng)網(wǎng)絡(luò)模型的深度解析,而她在不經(jīng)意間,,也流露出因硬件跟不上計(jì)算要求而產(chǎn)生的焦慮:
“一點(diǎn)幾PB的數(shù)據(jù)量,,用8卡Tesla V100計(jì)算就要超過20個(gè)小時(shí),而我們其實(shí)有幾百PB的數(shù)據(jù),。一塊V100就幾萬塊,,真的是用不起啊?!?/p>
在這樣的需求形勢(shì)下,,谷歌推出自稱性能可達(dá)同等級(jí)GPU產(chǎn)品15~30倍的AI專有芯片TPU,;亞馬遜與阿里陸續(xù)推出旨在以極低成本交付高吞吐量的云端AI推理芯片;微軟為了能夠追上這股“造芯新時(shí)尚”,,急忙在2019年11月宣布,,將在云上釋放英國(guó)AI芯片創(chuàng)業(yè)公司Graphcore(這家企業(yè)的“成名作”是一塊被稱為IPU的“智能處理單元”IPU及其配套軟件Poplar,專門為人工智能應(yīng)用程序所需的并行計(jì)算而設(shè)計(jì))提供的復(fù)雜圖像模型處理能力……
無論商用效果如何,,以上都是云服務(wù)商不得已而為之的一個(gè)選擇,。
阿里2015年在張北成立的數(shù)據(jù)中心
但需要注意的是,這些云服務(wù)企業(yè)自研的大多是推理芯片,。
由于神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練階段需要處理大量數(shù)據(jù),,同時(shí)也要完成不同的學(xué)習(xí)任務(wù),因此GPU具備的大量平行運(yùn)算單元,,能夠充分滿足“訓(xùn)練”對(duì)運(yùn)算的效率與通用性要求,。
但進(jìn)入執(zhí)行階段,也就是“推理階段”,,一個(gè)算法模型可以根據(jù)一堆量級(jí)不大的新數(shù)據(jù)得出結(jié)論,。GPU當(dāng)然也可以做到這些,但多少有點(diǎn)“大材小用”,。
沒錯(cuò),這就是亞馬遜,、阿里為何研發(fā)定制推理芯片的另一個(gè)重要原因——對(duì)于大量推理工作,,通用性或許不足,但專用肯定是有余了,。
但有不愿透露姓名的業(yè)內(nèi)人士對(duì)這些“自研芯片”存有疑慮,。因?yàn)樗J(rèn)為,無論是自己做,,還是部署其他公司的商用芯片,,難度其實(shí)不相上下。
“云服務(wù)商如果真的打算在AI加速器上花錢,,那么他們想要的一定是這項(xiàng)工具的靈活性,,而非只滿足于實(shí)現(xiàn)單一目的?!?/p>
目前來看,,只有英偉達(dá)GPU等少數(shù)幾家公司具備這樣的優(yōu)勢(shì)——讓一塊芯片駕馭不同的工作類型,譬如GaaS(游戲圖像渲染),、高性能計(jì)算加速以及模型訓(xùn)練與推理,。
因此,在“更專業(yè)的精英”與“全能卻稍微平庸的人”之間,,趨利的市場(chǎng)暫時(shí)會(huì)傾向于后者,。
此外,,即便某塊專有芯片比GPGPU更擅長(zhǎng)處理某個(gè)任務(wù),但后續(xù)卻可能需要一大批人為這塊芯片開發(fā)新的人工智能代碼,。
說到底,,這仍然少不了生態(tài)之間的較量。
在微軟選擇與Graphcore合作后,,技術(shù)分析機(jī)構(gòu)Moor Insights分析師Karl Freund曾公開表示,,這種芯片雖然看起來像是“名校高材生”,但靈活性仍然讓人懷疑,。
“沒有證據(jù)表明其具備更好的可編程性,,這讓工程師們不足以去開發(fā)新的應(yīng)用程序。即便是可編程性能做到,,但在訓(xùn)練和推理方面都能取得好成績(jī)嗎,?對(duì)于芯片創(chuàng)業(yè)公司來說,這很困難,?!?/p>
的確,Graphcore曾強(qiáng)調(diào)自己的芯片“特別適合”完成那些超大人工智能模型或時(shí)間數(shù)據(jù)的訓(xùn)練任務(wù),。但是,,他們自己創(chuàng)建的軟件框架Poplar,目前看起來也不太可能對(duì)抗在AI開發(fā)者群體具有極高威望的谷歌深度框架Tensorflow,。而后者被英偉達(dá)的GPU產(chǎn)品所支持,。
甚至于投資分析師DoctoRx對(duì)谷歌的TPU也心存質(zhì)疑。
他認(rèn)為,,在部署時(shí),,谷歌構(gòu)建的規(guī)范并沒有他們想象的那么有效,這很大程度上是因?yàn)槌杀舅隆?/p>
“雖然我不確定谷歌在宣布對(duì)外出租TPU能力后的接下來會(huì)實(shí)施什么樣的計(jì)劃,,但與專業(yè)芯片供應(yīng)商的方案相比,,我覺得這樣一個(gè)出于‘家用’目的的解決方案的確值得懷疑?!?/p>
有意思的是,,他把TPU那些在業(yè)績(jī)、效率和成就方面取得的“第一”,,稱為“更具有公關(guān)性質(zhì)的里程碑”,。
“在我看來,谷歌總是在努力追趕或超越NVDA的P100s,、V100s以及T4s,。根據(jù)其公布的價(jià)格,TPU的使用定價(jià)幾乎對(duì)標(biāo)了V100,,但比T4s要貴,?!?/p>
谷歌的人工智能專用加速器TPU3.0
面對(duì)新老對(duì)手發(fā)起的密集攻勢(shì),英偉達(dá)又一次選擇了“合縱連橫”,。
雖然在高性能計(jì)算服務(wù)器與數(shù)據(jù)中心市場(chǎng),,英特爾x86處理器占據(jù)著最大的市場(chǎng)份額, 但隨著基于Arm內(nèi)核CPU的崛起,傳統(tǒng)x86 CPU產(chǎn)品正面臨著一定威脅,。
作為全球最有名的芯片知識(shí)產(chǎn)權(quán)(IP)供應(yīng)商之一,,ARM本身不做芯片,而是向芯片廠商出售芯片底層技術(shù),。截至目前,,華為、蘋果,、三星,、高通、飛利浦等芯片廠商都要被ARM授權(quán)使用底層架構(gòu)才能設(shè)計(jì)芯片,。
就在2019年中旬,,英偉達(dá)宣布自己的CUDA平臺(tái)將在年底全面支持Arm CPU,向Arm龐大的生態(tài)系統(tǒng)提供全堆棧的AI,、HPC軟件,,一起開發(fā)超級(jí)計(jì)算芯片,進(jìn)而擴(kuò)大在數(shù)據(jù)中心市場(chǎng)的份額,。
2019年底,,在GTC中國(guó)的ARM站展臺(tái)上,很多人都在圍觀一款由英偉達(dá)與ARM聯(lián)手提供算力支持的服務(wù)器,。不少人還在小聲嘟囔:
“我靠,ARM現(xiàn)在都搞服務(wù)器了,?!?/p>
不過ARM工程師一直在反復(fù)解釋:“我們不做服務(wù)器,也不做芯片,,這個(gè)樣機(jī)只是向大家展示Marvell(服務(wù)器品牌)基于ArmV8架構(gòu)的CPU處理器與英偉達(dá)GPU的配置,。”
在問及ARM支持的服務(wù)器與X86架構(gòu)CPU的機(jī)器之間存在哪些差異時(shí),,工程師承認(rèn),,兩者性能方面有時(shí)會(huì)出現(xiàn)差距,但不能忽視GPU服務(wù)器的市場(chǎng)需求,。
“這要看服務(wù)器的其他配置,,有些不同品牌服務(wù)器的整體性能可能會(huì)弱一些,品類也會(huì)少,。畢竟是基于(英特爾)X86的市場(chǎng),,很多運(yùn)行的代碼程序都是根據(jù)X86來寫的,,替換會(huì)有一定的工作量。 “但是用我們架構(gòu)的服務(wù)器芯片廠商越來越多,,而且很多服務(wù)器越來越需要GPU,。CUDA如果直接支持的話會(huì)省去很多麻煩,本質(zhì)上,,我們想做的是一個(gè)生態(tài)性的聯(lián)合,。”
GTC上,,ARM與英偉達(dá)互相邀請(qǐng)對(duì)方進(jìn)入自己的服務(wù)器芯片生態(tài)
與其他頭部企業(yè)一樣,,為了完成“樂高式”的系統(tǒng)性成長(zhǎng),英偉達(dá)也喜歡“買技術(shù)”,。
2019年3月,,英偉達(dá)放出消息,欲耗資69億美元,,收購(gòu)以色列服務(wù)器網(wǎng)絡(luò)架構(gòu)服務(wù)商Mellanox,。
這既是英偉達(dá)歷史上最大的一筆收購(gòu),也是這家AI芯片巨頭開始有意將核心業(yè)務(wù)從游戲向數(shù)據(jù)中心過渡的里程碑事件,。
在行業(yè)看來,,Mellanox最為擅長(zhǎng)的,是制造幾種用來提升數(shù)據(jù)傳輸效率的通信設(shè)備,。換句話說,,就是幫數(shù)據(jù)中心用最高效的方式,連接數(shù)據(jù)中心內(nèi)部所有的服務(wù)器,。
這意味著,,假如英偉達(dá)能夠通過一套連接系統(tǒng),將數(shù)據(jù)中心的數(shù)萬個(gè)計(jì)算節(jié)點(diǎn)上的GPU連接起來,,那么節(jié)點(diǎn)間形成的信息流動(dòng),,將匯聚成更加龐大的算力。
而巨量算力對(duì)應(yīng)的,,是云計(jì)算數(shù)據(jù)中心的擴(kuò)張速度,,呈爆發(fā)式增長(zhǎng)的數(shù)據(jù)量,更大更復(fù)雜的計(jì)算任務(wù),,以及2023年將突破500億美元的市場(chǎng)規(guī)模,。
圖片來自福布斯
總體來說,2020年仍然是英偉達(dá)“穩(wěn)贏”的一年,。
因?yàn)榘ㄓ⑻貭栐趦?nèi),,大多數(shù)聲勢(shì)響亮的AI芯片公司才剛剛出貨,或正在努力出貨的路上(有些可能還沒出貨自己就沒了),這又給了英偉達(dá)升級(jí)產(chǎn)品充裕的時(shí)間,。
譬如,,V100的性能就通過軟件升級(jí)在過去一年里提高了4倍,進(jìn)一步降低了數(shù)據(jù)中心客戶對(duì)額外硬件的需求,。
當(dāng)然,,在這個(gè)存在一系列涉及不同用例的巨大市場(chǎng)中,英偉達(dá)的芯片產(chǎn)品不可能形成絕對(duì)壟斷,。但筆者認(rèn)為,,英偉達(dá)在10年里建立起的開源帝國(guó),將會(huì)讓其在云計(jì)算市場(chǎng),,乃至邊緣計(jì)算市場(chǎng)長(zhǎng)期扮演關(guān)鍵性角色,。
而反過來看,英偉達(dá)在2019年第四季度數(shù)據(jù)中心業(yè)務(wù)上的漂亮數(shù)據(jù),,除了讓英特爾,、高通、英飛凌等老對(duì)手們思緒萬千,,也讓無數(shù)創(chuàng)業(yè)公司與背后的投資者松了一口氣——PPT里關(guān)于人工智能的某條未來增長(zhǎng)線是可期的,。在剛成立時(shí),他們就曾搭上過英偉達(dá)的順風(fēng)車,,這一次,,英偉達(dá)又讓他們看到了希望。
就在上周(2020年2月底),,上文提及的AI芯片創(chuàng)業(yè)公司Graphcore 公開宣布獲得1.5億美元新一輪融資,,估值達(dá)到19.5億美元;
本周,,近幾年來風(fēng)頭很足的AI芯片創(chuàng)業(yè)公司寒武紀(jì)選擇在此時(shí)曝光上市信息——已在2019年末與中信證券簽署A股上市輔導(dǎo)協(xié)議,,并計(jì)劃在科創(chuàng)板發(fā)行上市。
在寒冬凜冽的當(dāng)下,,這些消息,,的確能夠證明些什么。