在英偉達(dá)于2000年收購(gòu)3DFX,,以及AMD在2006年收購(gòu)ATI之后,,桌面GPU這個(gè)市場(chǎng)本來(lái)就已經(jīng)塵埃落定,。
英偉達(dá)是GPU市場(chǎng)當(dāng)之無(wú)愧的巨頭,AMD的GPU則掙扎前行,,而Intel則依靠其CPU的號(hào)召力,,在集成顯卡市場(chǎng)擁有絕對(duì)的號(hào)召力,但在獨(dú)立顯卡市場(chǎng),,無(wú)論是之前的Intel 740還是后續(xù)的Larrabee都無(wú)疾而終,。
但在Alex Krizhevsky使用英偉達(dá)GPU成功訓(xùn)練出了深度卷積神經(jīng)網(wǎng)絡(luò)AlexNet,并憑借該網(wǎng)絡(luò)在圖像分類識(shí)別領(lǐng)域大幅提升了性能之后,。人工智能新時(shí)代正式開(kāi)啟,。也正是從這個(gè)時(shí)候開(kāi)始,,GPU市場(chǎng)開(kāi)始進(jìn)入了一個(gè)新階段。英偉達(dá)則成為這個(gè)時(shí)代當(dāng)之無(wú)愧的大贏家,。
英偉達(dá)從2012年到現(xiàn)在的股價(jià)走勢(shì)
英偉達(dá)叱咤AI時(shí)代的兩大利器
回看圖形處理器的發(fā)展史,,據(jù)相關(guān)資料顯示,MIT在1951年制造的Whirlwind也許是世界上第一個(gè)3D圖形系統(tǒng),,但這不是現(xiàn)代GPU的基礎(chǔ),。據(jù)報(bào)道,現(xiàn)在的GPU雛形是基于上世紀(jì)70年代中期的所謂視頻移位器(video shifters)和視頻地址生成器(video address generators)組成的,。
在歷經(jīng)大型系統(tǒng),、小型工作站的發(fā)展后,圖像處理器在90年代中后期于PC上的3D游戲而發(fā)揚(yáng)光大,,在此期間,,不少公司涌入其中,英偉達(dá)也是其中的一家,。據(jù)英偉達(dá)官網(wǎng)介紹,在他們成立的1993年,,全球有超過(guò)二十家的圖形芯片公司,,到1997年,這個(gè)數(shù)字猛增至70家,。但到2006年,,英偉達(dá)是唯一仍在運(yùn)營(yíng)的獨(dú)立公司,他們也成為最后的贏家,。被其沖上沙灘的前浪包括了ATI,、S3 Graphics和3DFx等競(jìng)爭(zhēng)對(duì)手。
和其他玩家一樣,,英偉達(dá)最初成立的時(shí)候也只是聚焦于顯卡市場(chǎng),,最初推出的兩款產(chǎn)品NV1和NV2也市場(chǎng)反響平平平。但英偉達(dá)不氣餒,,投入大量的經(jīng)歷去研發(fā)NV3,,并在1997年推出。作為全球首個(gè)128位3D處理器,,NV3在推出四個(gè)月后的出貨就突破一百萬(wàn),。因?yàn)镹V3能對(duì)OpenGL的良好支持,英偉達(dá)自NV3開(kāi)始,,逐漸打敗了當(dāng)時(shí)市場(chǎng)占比高達(dá)85%的3DFx,,成為了顯卡市場(chǎng)的霸主。
值得一提的是,,英偉達(dá)表示,,他們?cè)?999年發(fā)明了GPU( 這是NVIDIA首創(chuàng)的詞匯,,GPU即是Graphics Processing Unit的縮寫),而當(dāng)年推出GeForce 256就是全世界第一款GPU,。
如果英偉達(dá)接下來(lái),,還是只盯著圖形市場(chǎng),那么他們的充其量就就只是下一個(gè)3DFx,,但黃仁勛有更大的野心,,那就是把GPU推到通用市場(chǎng),這就是大家所熟悉的GPGPU,。
據(jù)半導(dǎo)體行業(yè)觀察之前的報(bào)道:“在2000年左右,,學(xué)術(shù)界對(duì)于使用GPU做通用計(jì)算(GPGPU)產(chǎn)生了興趣。當(dāng)時(shí),,主要面向執(zhí)行通用算法的CPU是執(zhí)行科學(xué)計(jì)算的主力,,但是CPU為了能在通用算法上都有較好的性能,因此很多芯片面積事實(shí)上用在了片上內(nèi)存和分支預(yù)測(cè)等控制邏輯,,而真正用于計(jì)算的單元并不多,。相反,GPU架構(gòu)中的控制邏輯較為簡(jiǎn)單,,絕大多數(shù)芯片面積都用于渲染,、多邊形等計(jì)算。學(xué)術(shù)界發(fā)現(xiàn),,科學(xué)運(yùn)算中的矩陣等計(jì)算可以很簡(jiǎn)單地映射到GPU的處理單元,,因此能實(shí)現(xiàn)非常高的計(jì)算性能?!?/p>
報(bào)道進(jìn)一步指出,,當(dāng)時(shí),GPGPU最主要的瓶頸在于難以使用,。由于GPU是面向圖像應(yīng)用而開(kāi)發(fā),,因此要在其編程模型中支持通用高性能計(jì)算并不容易,需要許多手工調(diào)試和編碼,,因此造成了很高的門檻,,能熟練使用的人并不多。
為了讓GPU從軟硬件都走向通用,,英偉達(dá)在2006年推出了Tesla架構(gòu),,一改之前使用矢量計(jì)算單元做渲染的做法,而是把一個(gè)矢量計(jì)算單元拆成了多個(gè)標(biāo)量計(jì)算渲染單元,。這就使得基于這個(gè)架構(gòu)的GPU除了渲染能力強(qiáng)以外,,還適合做通用計(jì)算。
也就是在這一年,,英偉達(dá)推出了CUDA,。按照他們的說(shuō)法,,這是一種用于通用GPU計(jì)算的革命性架構(gòu)。CUDA將使科學(xué)家和研究人員能夠利用GPU的并行處理能力來(lái)應(yīng)對(duì)其最復(fù)雜的計(jì)算挑戰(zhàn),。
正是得益于這兩個(gè)方向的布局,,英偉達(dá)在AI時(shí)代如魚(yú)得水。
據(jù)行業(yè)專家所說(shuō),,現(xiàn)在的云端AI芯片市場(chǎng),,除了谷歌自用的TPU外,其他絕大多數(shù)的廠商都是使用英偉達(dá)的GPU來(lái)做相關(guān)的模型訓(xùn)練,,這讓英偉達(dá)在云端AI芯片的市場(chǎng)居高不下,。這也讓英偉達(dá)的業(yè)績(jī)?cè)谶^(guò)去幾年屢創(chuàng)新高。根據(jù)賽迪顧文的預(yù)測(cè)數(shù)據(jù)顯示,,光是國(guó)內(nèi)的云端AI芯片市場(chǎng),,在2019年到2021年間的累計(jì)增長(zhǎng)將高達(dá)152%,麥肯錫也預(yù)測(cè),,在未來(lái)幾年,,訓(xùn)練市場(chǎng)將成長(zhǎng)迅猛,且在未來(lái)十年,,這還將是英偉達(dá)GPU的天下,。
看到這個(gè)數(shù)據(jù)需求和預(yù)測(cè),國(guó)外就涌現(xiàn)出了類似Graphcore IPU和Google TPU等ASIC產(chǎn)品,,計(jì)劃在訓(xùn)練市場(chǎng)挑戰(zhàn)英偉達(dá)。Intel和AMD則希望在GPU硬扛英偉達(dá),。
AMD和Intel的蠢蠢欲動(dòng)
其實(shí)早在英偉達(dá)進(jìn)軍GPGPU的前后,,AMD也有了相應(yīng)的計(jì)劃。但和英偉達(dá)屬在過(guò)去多年里大力投入推行CUDA開(kāi)發(fā)環(huán)境不一樣,,AMD將雞蛋都放在了“OpenCL”這個(gè)籃子里面,,這就導(dǎo)致即使他們?cè)?017年發(fā)布了ROCm平臺(tái)來(lái)提供深度學(xué)習(xí)支持,但也改變不了他們GPU在AI時(shí)代幾無(wú)所獲的結(jié)局,。
但AMD不甘心,。為了與Nvidia競(jìng)爭(zhēng),AMD在今年三月份推出了新的CDNA架構(gòu),。據(jù)介紹,,這是AMD針對(duì)數(shù)據(jù)中心和其他用途的,專注于計(jì)算的GPU體系結(jié)構(gòu),。AMD針對(duì)CDNA的目標(biāo)既簡(jiǎn)單又直接:構(gòu)建一個(gè)大型的,,功能強(qiáng)大的GPU系列,這些GPU針對(duì)一般的計(jì)算和數(shù)據(jù)中心使用進(jìn)行了優(yōu)化,。
據(jù)介紹,,新架構(gòu)中很大一部分的性能提升將會(huì)體現(xiàn)在機(jī)器學(xué)習(xí)方面,,這意味著支持更快地執(zhí)行較小數(shù)據(jù)類型(例如INT4 / INT8 / FP16),而AMD在介紹新架構(gòu)的時(shí)候也明確提到了張量運(yùn)算,。此外,,新架構(gòu)可以通過(guò)Infinity Fabric互連總線靈活設(shè)計(jì)性能,并支持增強(qiáng)的企業(yè)級(jí)RAS特性,、安全,、虛擬化技術(shù),還將提供更高的能效比,,從而降低企業(yè)TCO成本,。
基于這個(gè)架構(gòu),AMD在本月中發(fā)布了新一代的Instinct MI100計(jì)算卡,。數(shù)據(jù)顯示,,新的架構(gòu)可提供高達(dá)11.5 TFLOPS的FP64峰值吞吐量,這使其成為第一個(gè)在FP64中突破10 TFLOPS的GPU,。與上一代MI50相比,,新加速卡的性能提高了3倍。它還在FP32工作負(fù)載中擁有23.1 TFLOPS的峰值吞吐量,。數(shù)據(jù)顯示,,AMD的新加速卡在這兩個(gè)類別中都擊敗了Nvidia的A100 GPU。
Instinct MI100還支持AMD的新Matrix Core技術(shù),,該技術(shù)可提高FP32,,F(xiàn)P16,bFloat 16,,INT8和INT4等單精度和混合精度矩陣運(yùn)算的性能,,還可將FP32性能提高到46.1 TFLOPS。
為了更好地與英偉達(dá)競(jìng)爭(zhēng),,AMD還表示,,其開(kāi)源ROCm 4.0開(kāi)發(fā)人員軟件現(xiàn)在具有開(kāi)源編譯器,并統(tǒng)一支持OpenMP 5.0,,HIP,,PyTorch和Tensorflow。
除了AMD外,,Intel在最近幾年也加大在其GPU的投入,,想在AI這個(gè)市場(chǎng)分一杯羹。
據(jù)英特爾介紹,,公司的Xe架構(gòu)GPU將覆蓋從集成顯卡到高性能計(jì)算的所有范圍,。其中代號(hào)為Ponte Vecchio的獨(dú)立GPU則是公司面對(duì)HPC建模和仿真以及AI訓(xùn)練而推出的設(shè)計(jì)。Ponte Vecchio將采用英特爾的7納米技術(shù)制造,并將成為英特爾首款針對(duì)HPC和AI工作負(fù)載進(jìn)行了優(yōu)化的基于Xe的GPU,。但直到目前為止,,尚未看到Intel的這款新品。
此外,,為了更好地在包括AI在內(nèi)的應(yīng)用市場(chǎng)中發(fā)揮其包括CPU,、GPU、FPGA和AISC在內(nèi)的芯片的為例,,方便開(kāi)發(fā)者編程,,Intel還推出了擁有遠(yuǎn)達(dá)理想的OneAPI。在開(kāi)發(fā)者看來(lái),,這是一個(gè)不錯(cuò)的規(guī)劃,,但同時(shí)也是一個(gè)極具挑戰(zhàn)的任務(wù)。
中國(guó)廠商加速入局
在GPU重要性日益凸顯的今日,,國(guó)內(nèi)越來(lái)越多的廠商開(kāi)始投入到這個(gè)市場(chǎng)中去,。這些廠商中除了有之前一直在這個(gè)市場(chǎng)布局的景嘉微、兆芯和航錦外,,還有一些新進(jìn)入這個(gè)領(lǐng)域的企業(yè),。當(dāng)中尤其以壁仭、沐曦,、海飛科,、芯瞳最為知名。
首先看壁仞科技,,據(jù)官網(wǎng)介紹,,該公司創(chuàng)立于2019年,團(tuán)隊(duì)由國(guó)內(nèi)外芯片和云計(jì)算領(lǐng)域核心專業(yè)人員,、研發(fā)人員組成,,在GPU、DSA(專用加速器)和計(jì)算機(jī)體系結(jié)構(gòu)等領(lǐng)域具有深厚的技術(shù)積累和獨(dú)到的行業(yè)洞見(jiàn),。
在產(chǎn)品方面,壁仞科技致力于開(kāi)發(fā)原創(chuàng)性的通用計(jì)算體系,,建立高效的軟硬件平臺(tái),,同時(shí)在智能計(jì)算領(lǐng)域提供一體化的解決方案。從發(fā)展路徑上,,壁仞科技將首先聚焦云端通用智能計(jì)算,,逐步在人工智能訓(xùn)練和推理、圖形渲染,、高性能通用計(jì)算等多個(gè)領(lǐng)域趕超現(xiàn)有解決方案,,實(shí)現(xiàn)國(guó)產(chǎn)高端通用智能計(jì)算芯片的突破。
再看沐曦,則是由AMD前高管離職創(chuàng)立的公司,。據(jù)介紹,,沐曦集成電路成立于2020年9月,核心團(tuán)隊(duì)來(lái)自世界一流的GPU芯片公司,,平均擁有15年以上高性能GPU芯片設(shè)計(jì)經(jīng)驗(yàn)和豐富的5nm流片和7nm芯片量產(chǎn)經(jīng)驗(yàn),。公司致力于研發(fā)生產(chǎn)擁有自主知識(shí)產(chǎn)權(quán)的、安全可靠的高性能GPU芯片,,服務(wù)數(shù)據(jù)中心,、云游戲、人工智能等需要高算力的諸多重要領(lǐng)域,,填補(bǔ)國(guó)內(nèi)高性能GPU芯片自主可控的空白,。
海飛科(Hexaflake)則成立于2019年,是一家高科技初創(chuàng)公司,,致力于AI高性能處理器芯片和軟硬件全棧系統(tǒng)解決方案的研發(fā),,是能夠在該領(lǐng)域與國(guó)際巨頭并駕齊驅(qū)的頭部AI通用型處理器公司。主要?jiǎng)?chuàng)始人及核心團(tuán)隊(duì)匯聚中美各地多位國(guó)際頂級(jí)資深專家,;專長(zhǎng)涵蓋并行計(jì)算與AI處理器體系架構(gòu),、GPU等超大規(guī)模SoC芯片以及處理器系統(tǒng)軟件的研發(fā);并曾在國(guó)際領(lǐng)先企業(yè)核心研發(fā)部門長(zhǎng)期任職,,成功研制多款芯片和系統(tǒng)產(chǎn)品,。他們公司成立的目的是共同打造新一代通用型AI處理器芯片及其軟硬件生態(tài)環(huán)境。
芯瞳半導(dǎo)體成立于2018年,。在接受媒體采訪的時(shí)候,,他們表示公司的GPU瞄準(zhǔn)的應(yīng)用領(lǐng)域有三個(gè)方面:嵌入式、辦公PC和云游戲,。此外,,還有授權(quán)了Imagination IP的芯動(dòng)、繼承了相關(guān)GPU專利的兆芯以及一直做國(guó)產(chǎn)CPU的龍芯也是GPU市場(chǎng)的玩家,。
考慮到國(guó)內(nèi)的GPU現(xiàn)狀和中美之間的貿(mào)易狀況,,上述GPU廠商除了有看中AI市場(chǎng)的玩家外,也有希望在圖形GPU市場(chǎng)有突破的創(chuàng)業(yè)者,。
不過(guò)正如行業(yè)專家告訴筆者,,無(wú)論是在圖形還是通用計(jì)算市場(chǎng),對(duì)于GPU而言,,更重要的是軟件和開(kāi)發(fā)者生態(tài),。只有做好了這個(gè),才是GPU能夠商用的前提,。國(guó)內(nèi)廠商中何時(shí)會(huì)有廠商能夠真正突圍成功的,?這值得我們觀望。