《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 電子元件 > 業(yè)界動態(tài) > 國產(chǎn)GPU并沒有“放過”英偉達

國產(chǎn)GPU并沒有“放過”英偉達

2021-12-23
來源: 與非網(wǎng)eefocus
關(guān)鍵詞: GPU 英偉達

  GPU又稱圖形處理器,,它的歷史要追溯到1972年火遍全美的彈珠游戲機,,但真正進入高速發(fā)展期是在2006年,往后GPU的發(fā)展速度達到了摩爾定律的2~3倍,。

  我們以數(shù)據(jù)中心產(chǎn)品為例,今天英偉達Ampere架構(gòu)下的云端訓(xùn)練A100顯卡FP32浮點性能19.5T FLOPS,,INT8算力1,248 TOPS,,而這兩天的消息稱,英偉達的下一代GPU Hopper FP32浮點性能將達到24.2 TFLOPs,,幾乎是A100 顯卡的2.5倍,。

  正因為GPU這些年的高速發(fā)展帶來了技術(shù)壁壘的不斷高筑,GPU戰(zhàn)場三四年前還有很多家,,而現(xiàn)在只剩下兩家,。高端技術(shù)的壟斷代表了議價權(quán),現(xiàn)在一張高端的GPU顯卡,,市場售價高達十幾萬元,,相當于一輛普通小轎車的價格。再加上國內(nèi)需求的差異化,,巨頭們在定制方面確實存在心力不足的問題,,所以GPU自主可控下的國產(chǎn)化勢在必行。

  在這樣的大環(huán)境下,,近幾年本土GPU廠商如雨后春筍般冒出來,。不過真正能出產(chǎn)品,實現(xiàn)量產(chǎn)的也沒幾家,,并且算力比較低,。比如景嘉微2020開始量產(chǎn)出貨的JM7200單精度算力只有0.5T FLOPS,2021年剛流片回來的JM9231實測浮點算力能達到1.5T FLOPS,。所以上個月芯動科技發(fā)布的4K級顯卡GPU芯片“風(fēng)華1號”變得格外搶眼,。

  2.png

  圖 | “風(fēng)華1號”參數(shù)一覽

  根據(jù)芯動云計算總裁敖海的介紹,“‘風(fēng)華1號'GPU成倍提升了現(xiàn)有國產(chǎn)GPU水平,,單芯片A卡渲染能力達到160GPixel/s,,F(xiàn)P32浮點性能達到5T FLOPS,AI性能為25TOPS(INT8),,3D圖形渲染處理管線定制優(yōu)化,,支持Linux/龍芯/Windows/安卓操作系統(tǒng)圖形框架,,支持32路SRIOV虛擬化?!?/p>

  芯動科技SoC體系架構(gòu)師何穎表示:“如果單從芯片的算力來看,,’風(fēng)華1號‘雙芯片B卡的FP32浮點性能達到10T FLOPS,渲染能力達到320GPixel/s,,可以對標英偉達Tesla T4 GPU(FP32 / 8.1T FLOPS,,渲染能力/254.4 GPixel/s)?!?/p>

  “GPU賽道足夠大,,目前英偉達的市值有七千多億,而芯動科技的目標就是做中國的英偉達”,,芯動科技工程副總毛鳴明補充道,。

  

  后摩爾時代

  如何通過GPU架構(gòu)改善功耗問題?

  4.png

  眾所周知,,算力和計算平臺的性能不能劃等號,,對于GPU來說,能效比是非常重要的性能參數(shù),。據(jù)悉,,英偉達下一代顯卡40系列的TGP整卡功耗標示為550W,這樣的整機得要多大電源才能帶得動,?于是我們自然而然會有一個疑問,,為什么GPU發(fā)展了這么長時間,功耗還是一步步增長到了這么大的地步,?

  “這是因為半導(dǎo)體工藝的極限已經(jīng)快到了,,從一百多納米到九十多納米到幾納米的時候,一直還可以線性地降低,,降低工藝節(jié)點可以獲得更低的功耗,、更高的性能,但是半導(dǎo)體工藝快到摩爾定律的物理極限了,,工藝節(jié)點的紅利差不多到頭了,,再要提高性能的話,只好把功耗相應(yīng)地變大,。我們想做低功耗的顯卡,,想做節(jié)能減排,想做綠色,,怎么辦,?不能在工藝上取得紅利,要在架構(gòu)上取得紅利,這時候我們的想法是架構(gòu)上吸取移動端GPU的優(yōu)點,,做出真正好的GPU”,,何穎如是說。

  那么芯動科技用的GPU架構(gòu)是什么樣的,?我們都知道芯動科技拿了Imagination的GPU核 IP授權(quán),,而這個授權(quán)的GPU IP正是移動端級別的,,所以在能效比上存在天生的架構(gòu)優(yōu)勢,。


  拿了Imagination的IP

  國產(chǎn)GPU還算自主可控嗎?

6.png

  講到這里,,你是否會提出疑問,,架構(gòu)級IP都是買來的,能算是自主可控嗎,?舉個例子,,蘋果從A4到A10X所有的芯片都是用Imagination的IP,到10之后蘋果有了自己的GPU架構(gòu),,但是它依然是基于Imagination的TBDR架構(gòu),,所以進行了專利授權(quán),它是Imagination TBDR重要的分支,。

  蘋果不用大風(fēng)扇甚至風(fēng)扇不轉(zhuǎn)就可以發(fā)揮很好的圖形性能,,這是其他筆記本很難做到的事情。它做了三個不同的芯片:M1,、M1 Pro和M1 MAX,,最強的芯片用了32個核,有機地合在一起,,達到的效果比桌面獨立顯卡功耗降了70%,,它可以用很少的功耗達到接近英偉達3060桌面渲染的性能。這證明TBDR可以用于移動,,也可以用于桌面的操作系統(tǒng),,但是它需要很多改變,它要做很多自己私有化的定制,,這樣才有可能把一個GPU放大到能夠適應(yīng)桌面上強渲染的要求,。所以,你會說蘋果沒有自主可控嗎,?

  事實上,,當從單核、雙核擴大到8核,、16核,、32核時,就不是簡單的堆核了,如何講這些核有機地調(diào)用起來,,協(xié)調(diào)好通訊,,就必須有芯片廠商自己的方案。所以蘋果有蘋果的方案,,而芯動科技的方案特色就是Chiplet,,通過Chiplet來打破算力的限制。此外,,做大核還必須要配合API接口的升級,,圖像GPU領(lǐng)域趨勢的跟進,以及盡量把算力做起來,。

  說到算力,,其實前面也有提到“風(fēng)華1號”用的是一個移動端的架構(gòu),雖然有它功耗和做云游戲的天生優(yōu)勢,,但也存在一些架構(gòu)弱勢,,所以如何把原生移動端的架構(gòu)拓展到高性能計算、云計算的場景也是芯動科技要做的最重要的事情之一,,這時候就需要修改GPU內(nèi)核了,。

  如此,即使是拿了架構(gòu)授權(quán),,其實要做的事情還是很多,,這也是目前市場上GPU門檻居高不下的原因所在。根據(jù)何穎的介紹,,“風(fēng)華1號”80%以上的IP都是屬于自主研發(fā),。

  不過,哪天真的上了美國的黑名單,,不讓流片的風(fēng)險總是會存在的,,這不是一家公司能解決的問題。真到那個時候,,芯動科技已經(jīng)流片好幾代,,并且已經(jīng)拿到的授權(quán)對方是拿不走的,就像當初華為被禁的時候已經(jīng)有了ARM授權(quán),,后面還能用是一個意思,,所以相對自主可控。

 

  在小池塘練兵

  避開英偉達主戰(zhàn)場尋找藍海

8.png

  “桌面市場如果一上來就想跟行業(yè)巨頭正面地進行競爭,,你會死得很慘”,,毛鳴明如是說,“每個市場都有很細分的點,,比如做桌面,,可以先做線上市場,,做國產(chǎn)化的統(tǒng)信70的操作系統(tǒng),先找到一個點站住腳,,再去考慮挑戰(zhàn)國外的巨頭,。”

  確實,,桌面市場是一個存量市場,,所以對于一家本土GPU廠商而言,正面PK不可行,,所以在中國政策的扶持下,,信創(chuàng)市場是一個可行的切入口。

  根據(jù)市場調(diào)研的數(shù)據(jù)顯示,,2023年全球計算產(chǎn)業(yè)市場空間將達到1.14萬億美元,,中國計算產(chǎn)業(yè)市場空間1043億美元,即7300億元,,接近全球的10%。按照50%為信創(chuàng)產(chǎn)業(yè)市場規(guī)模計算,,2023年中國信創(chuàng)產(chǎn)業(yè)市場規(guī)模將突破3650億元,,市場容量將突破萬億。

  對于國內(nèi)的信創(chuàng)桌面,,目前大家用的最多的還是AMD的卡,,ARM服務(wù)器和AMD顯卡這套方案很成熟,但大家的反饋是一個字“貴”,,所以這里面有很大的國產(chǎn)替代空間,。

  不過如果只有桌面市場,英偉達也不會是萬億級別公司的體量,,是AI和元宇宙的加持才成就了今天的英偉達,。因此,對于像芯動科技這樣的GPU廠商而言,,信創(chuàng)市場不是終極目標,,而是一個大魚進不來的小池塘,方便練兵站穩(wěn)腳跟,,從而向更為廣闊和通用的云市場過渡,。

  對于云端市場的看好,毛鳴明是這么形容的,,“如果沒有在2019年看到云渲染后面會爆炸式的需求,,我們不一定會做GPU?!笨梢娮鳛樵钪婊A(chǔ)建設(shè)項目的云渲染市場之巨大,。不過對于本土廠商來說,,如何抓住市場錨點生存下來呢?毛鳴明很有自信地表示,,“給我一個抓手,,再給我一兩年時間迭代兩三款產(chǎn)品,就能站住腳,?!?/p>

  那么他口中的抓手除了前面提到的信創(chuàng)市場還有其他嗎?答案是云游戲市場,。前面提到了“風(fēng)華1號”其實用的是一款移動端內(nèi)核架構(gòu),,有做云游戲的天生優(yōu)勢。但是那些巨頭們難道不能掌握這個技術(shù)嗎,?

  事實上,,作為國際大廠,它們關(guān)心的是自己的主要用戶,,也就是3A大作,,包括谷歌的主流云游戲廠商,考慮的是一張顯卡給兩個用戶用,,因此編解碼只要支持兩路,。而國內(nèi)的手機游戲廠商比較多,中國客戶的需求不太一樣,,它們更追求性價比,,成本是重要的考量因素,它們的客戶很多都不愿意每月為云游戲支付較高的價格,。因此這些手機游戲廠商希望一個方案可以支持30路,、50路、60路,,甚至上百路的操作,。所以這也算是本土化的藍海市場,由于本土公司可以更貼近這些云游戲廠商,,就可以在硬件設(shè)計和定制化方面做一些有差異化的東西,,從而生存下來。當然,,跟著云渲染指數(shù)級增長的事態(tài),,未來它們也可以進軍桌面、筆記本,,甚至手機市場,。不過,國產(chǎn)GPU當前最重要的任務(wù)依舊是API升級和算力提升,。

  

  本土GPU廠商

  有望1-2年內(nèi)回本,?

 10.png

  前面講了本土GPU技術(shù)和市場側(cè)的一些分析,,下面我們來聊點“俗話題”。最近,,就算是半導(dǎo)體的圈外人也多多少少對GPU的市場熱有所了解,,高規(guī)格、市場容量大,、國體替代緊迫等關(guān)鍵詞是這個賽道能夠大批量吸收市場熱錢的原因所在,。

  正是在這樣的大背景下,你可能不會相信芯動科技竟然是在無融資的條件下完成了GPU的架構(gòu)授權(quán),、設(shè)計,、流片、內(nèi)部測試,,到量產(chǎn)版本的發(fā)布工作,。12nm的流片的費用不說,這年頭光是養(yǎng)幾百人的GPU研發(fā)團隊都是一筆不菲的開銷,。

  我們知道芯動科技原來是做接口IP授權(quán)和芯片定制的,,雖然公司成立第五年就開始盈利,財務(wù)狀況一直不錯,,但不免擔心會被“GPU業(yè)務(wù)”拖累,。面對這個追問,毛鳴明給出的答案是——“風(fēng)華1號”正在和騰訊,、聯(lián)通等大廠進行適配,中國年以后會開始討論訂購,、采購的細節(jié),,后面我們每半年會迭代流片一款產(chǎn)品,每一年到一年半做真正意義上的大的架構(gòu)迭代,,如果我們做得好的話,,可能在1-2年內(nèi)就可以回本。

  迭代這么快,,還能在短期內(nèi)賺錢,,自信哪來?“信創(chuàng)市場一年有幾百萬張卡的體量,,服務(wù)器顯卡一年有十萬張或者幾十萬張的體量,,而且服務(wù)器端的成長特別快,單卡的價格也是信創(chuàng)的十倍,、幾十倍的體量,。所以我們覺得在信創(chuàng)市場上做盈利比較難,因為它本身偏向于中低端的市場,,但是在服務(wù)器端的盈利還是比較有希望的,?!?毛鳴明補充道。

  寫在最后

  值得一提的是,,對于IP廠商而言,,在流片方面存在一些優(yōu)勢,據(jù)芯動科技的描述,,過去200多次,,5億美金的流片都是免費的,當然這個主要是針對IP,。因為代工廠也想捆綁客戶,,有很多IP公司跟代工廠深度綁定,它們需要IP供應(yīng)商在供應(yīng)節(jié)點擴充它的IP庫,,比如“風(fēng)華1號”中GDDR6x技術(shù)的合作就是個很好的例子,。而對于Chiplet技術(shù)下的GPU來講,如果能做接口等技術(shù)上的提前驗證,,是一件事半功倍的事情,。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容,、版權(quán)和其它問題,,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118;郵箱:[email protected],。