最近,,AMD正式發(fā)布了其Instinct MI200系列GPGPU加速卡,,進一步進軍GPGPU市場,。
與傳統(tǒng)的GPU不同,,MI200系列主要針對的并不是游戲和渲染應用,,而是高性能計算(如人工智能,,科學計算)應用,,即GPGPU(general-purpose GPU),。這樣的定位顯然與Nvidia主推的基于CUDA生態(tài)的GPGPU(如A100)相同,因此可能在GPGPU市場的競爭格局產(chǎn)生影響,。當然,,MI200并非AMD的第一款GPGPU。在這之前,,AMD也推出過MI50和MI100系列GPGPU,,雖然在整個市場上聲勢并不大,但是也積累了不少設計和軟件方面的經(jīng)驗,。這次推出的MI200系列的性能可謂不俗,,在科學計算常用的64位浮點數(shù)(FP64)性能可達Nvidia最新款GPGPU A100的近5倍,而在人工智能常用的16位浮點數(shù)(FP16)方面也可達到A100的1.2倍,,搭配的內(nèi)存方面內(nèi)存大小可達A100的1.6倍,,內(nèi)存帶寬也是A100的1.6倍。與Nvidia全力投入人工智能常用的低精度FP16不同,,MI200仍然兼顧了科學計算常用的FP64,,這可能也是想在某種程度上與Nvidia實現(xiàn)差異化競爭。
在架構方面,,AMD在MI200中也使用了其引以為豪的chiplet高級封裝技術,,而這也使MI200成為首款使用chiplet技術的多晶片(multi-die)GPU。具體來說,,MI200的基本chiplet單元稱為CDNA-2晶片,,每個CDNA-2晶片擁有290億個晶體管,包含有112個計算單元(CU),,并且搭載了4個HBM2E內(nèi)存接口,,以及8個用于封裝內(nèi)互聯(lián)的Infinity Fabric Link。每個MI200 GPU則是把兩個這樣的CDNA-2 chiplet使用2.5D封裝技術封裝在一起,。另外,,一個容易被忽略的細節(jié)是,MI200擁有CPU和GPU之間支持內(nèi)存一致性(coherency)的互聯(lián),,這使得MI200配合AMD的CPU有機會實現(xiàn)CPU和GPU共享內(nèi)存空間,,這樣就能減少CPU到GPU內(nèi)存復制造成的額外開銷。
總體來說,,AMD MI200的硬件性能可以與Nvidia A100相媲美,,在一些高性能科學計算領域甚至比起A100更強??紤]到明年Nvidia可能會發(fā)布A100的下一代GPU并且預計有大幅性能提升,,AMD的MI200暫時還不太可能直接取代Nvidia占據(jù)GPGPU性能最強的寶座,但是這樣的性能已經(jīng)足以使得AMD的GPGPU成為Nvidia GPU一個有力的替代性方案,,尤其全球半導體持續(xù)缺貨的形勢也使得許多云端高性能計算的大客戶有考慮Nvidia替代型解決方案的動力,。
AMD的GPGPU生態(tài)逐漸進入主流
事實上,,Nvidia能占領GPGPU和AI加速芯片領跑地位不僅僅是依靠其強大的芯片性能,圍繞芯片性能的CUDA軟件生態(tài)也是Nvidia的一個重要護城河,。具體來說,,如何能給開發(fā)者提供一個易用的軟件接口,能與上游主流生態(tài)框架(例如人工智能領域的PyTorch,,TensorFlow等)相集成,,并且能較為簡單地就能充分利用芯片的性能,是一個需要長期積累的過程,,同時一旦成功則會形成一個很高的護城河,。
在這方面,AMD的軟件生態(tài)相對于Nvidia的CUDA而言,,處于后發(fā)地位,,這也是阻礙AMD真正進入GPGPU主流市場的重要瓶頸。然而,,隨著AMD多年來在這方面的投入,,AMD的相關生態(tài)也在逐漸成為主流可選項之一。
最初,,在GPGPU加速人工智能剛剛進入主流視野中時(2012-2015年),,就在Nvidia已經(jīng)大局投入CUDA生態(tài)時,,AMD卻沒有官方動作,,想要在AMD的GPU上做高性能計算還需要借助第三方OpenCL,開發(fā)并不容易,。AMD從2015年底開始真正由官方推出一套能支持人工智能等高性能計算的生態(tài)環(huán)境(ROCm),,相比Nvidia的CUDA(2007年推出)落后了整整八年的時間。雖然在ROCm推出之初并沒有得到業(yè)界大規(guī)模應用,,但是好在AMD并沒有放棄這項投資,。在經(jīng)過五年多的努力之后,今天ROCm相對于剛推出時的狀態(tài)而言,,其成熟程度已經(jīng)接近了主流選項之一,。舉例來說,目前ROCm已經(jīng)完成了和主流人工智能框架TensorFlow和PyTorch的整合,,在PyTorch中甚至絕大多數(shù)接口都和CUDA版本完全一致,,這就大大降低了開發(fā)難度。
公平地說,,目前AMD的一套軟件開發(fā)生態(tài)已經(jīng)達到了“可用”的狀態(tài),,但是相較于CUDA生態(tài)還有一些距離。首先,,在訓練方面,,ROCm做單卡訓練已經(jīng)不成問題,,性能也不錯,但是分布式訓練仍然需要一些額外的支持,。另一方面,,在推理方面,AMD仍然缺乏對應Nvidia TensorRT這樣的高性能推理工具鏈,,因此如果想要在AMD的GPU上做高性能人工智能推理還需要做大量的工作,。這或許也是AMD在這次發(fā)布MI200的時候,仍然把重點放在了環(huán)境較為簡單的科學計算,,而對人工智能只是兼顧,。
由于目前AMD的ROCm已經(jīng)到達了可用的狀態(tài),我們預計下一步AMD會繼續(xù)和對于云端計算有大量需求的互聯(lián)網(wǎng)巨頭合作,,一起進一步共同開發(fā)ROCm生態(tài)環(huán)境,。對于互聯(lián)網(wǎng)巨頭來說,他們有足夠的技術團隊來支持和開發(fā)基于AMD平臺的人工智能訓練和部署軟件,,同時他們也有動力去做這件事情,,因為擁有AMD和Nvidia兩個供貨商,比起只有Nvidia一個選項來說,,無論是從芯片供應穩(wěn)定性還是芯片售價來說,,都會好很多。而AMD也可以借助這樣的合作共同開發(fā)來進一步打磨軟件生態(tài)以及芯片架構,,預計會在未來三到五年內(nèi)會真正成為Nvidia在GPGPU領域真正的競爭對手,。
AMD的服務器市場勢頭強勁
這次AMD發(fā)布MI200進一步增強了其在云端服務器市場的地位。這個月早些時候,,AMD剛剛公布了和Facebook(現(xiàn)名Meta)的合作計劃,,其CPU將正式進入Facebook的云端服務器中心。而在這之前,,AMD還公布了和谷歌的合作計劃,,可見目前AMD的CPU在云端服務器市場正在逐漸蠶食Intel的份額。而在云端人工智能加速卡領域,,MI200的發(fā)布也將成為一個重要的里程碑,,雖然它不能直接取代Nvidia的GPU,但是我們認為AMD距離成為主流GPGPU供貨商僅僅一步之遙,。更重要的是,,云端的CPU和GPU之間存在很強的協(xié)同效應,一旦AMD的CPU和GPGPU同時成為云端服務器中心的主流選項,,那么兩者之間的協(xié)同效應將使得AMD在這個市場擁有更強的話語權(這也是Nvidia一直在尋求收購ARM的主要原因,,因為Nvidia也希望能在CPU領域擁有更強的自研能力)。同時,,由于AMD同時在CPU和GPU方面有積累,,其之前已經(jīng)投入多年的共享內(nèi)存空間技術也可望隨著AMD的CPU和GPU成為服務器領域的主流選項而獲得更多應用,,從而進一步提升AMD的該市場的技術實力。我們認為,,未來AMD在服務器領域的與機會獲得更多的市場份額和話語權,,同時這個市場的競爭格局也將隨之發(fā)生改變。