昨天壁仞科技的首顆GPU芯片發(fā)布之際,,發(fā)布會上播放的宣傳片還真是能讓人聯(lián)想起英偉達(dá)“I am AI”的那則著名視頻。而壁仞科技選擇的這條賽道,和大部分做AI芯片的國內(nèi)廠商都不大一樣:其GPU芯片、板卡和系統(tǒng)是要和英偉達(dá)正面硬碰硬,用于云上大規(guī)模的AI訓(xùn)練與推理,,以及HPC的。
壁仞科技創(chuàng)始人,、董事長,、CEO張文說從最初走訪20家客戶的反饋來看,大家都想要一款“國產(chǎn)大算力芯片”。雖說“做通用GPU芯片,,99%都做不下去”,,但“我思考,周期長,、壁壘高,、投入大,換句話說就是資本密集,、人才密集和資源密集的需求,。這三點恰好都是我的長項?!庇谑窃诔晒φf服投資人以后,,壁仞就開啟了這一征程。
壁仞科技成立于2019年9月,,用張文的話來說“三年時間,發(fā)展到千人團(tuán)隊,、芯片從PPT到量產(chǎn)”是個奇跡,。今年3月底就有壁仞B(yǎng)R100芯片成功點亮的消息,“全球通用GPU算力記錄,,第一次由中國企業(yè)創(chuàng)造,。”張文說,,“中國通用GPU芯片,,第一次進(jìn)入每秒1千萬億次的計算新時代?!?/p>
而從壁仞科技的宣傳片來看,,其GPU芯片要覆蓋“從微觀細(xì)胞到浩瀚宇宙,從堅實的道路到虛擬的空間”,,從生物科學(xué),、工業(yè)設(shè)計、生產(chǎn)制造,,到農(nóng)業(yè)耕作,、航天航海、地質(zhì)勘探與宇宙探索,。大約算是與英偉達(dá)的全方位市場重合了,。要做到這些可真的不容易,也絕不僅僅是算力堆砌所能輕易達(dá)成的,。本文我們就詳細(xì)談?wù)劚谪鹂萍急敬伟l(fā)布的1個架構(gòu),、2顆芯片(及對應(yīng)的OAM module與PCIe板卡)、1臺服務(wù)器,以及對應(yīng)于生態(tài)建設(shè)的軟件棧,。
兩顆芯片:BR100與BR104
這次壁仞科技發(fā)布了兩顆芯片:BR100和BR104,。這兩者的區(qū)別主要在于BR100是兩片相同的die(或chiplet)封裝到一起;BR104則只用了1片die,,所以相關(guān)算力與IO等參數(shù)大多為前者的一半,,適配不同的市場需求。
所以我們將注意力主要放在BR100身上,。從一些關(guān)鍵數(shù)據(jù)就可以看出本次發(fā)布的BR100 GPU是真正的“大”芯片,。壁仞在宣傳中提到“創(chuàng)下全球(通用GPU芯片的)算力記錄”“單芯片算力達(dá)到PFLOPS級別”“峰值算力是國際廠商在售旗艦產(chǎn)品3倍以上”。
從制造和封裝技術(shù)的堆料來看,,應(yīng)該更能體會其規(guī)模,,包括7nm工藝、“770億個晶體管”,,以及張文提到的“1000mm2”左右的die size,。這個die size數(shù)字當(dāng)然也就突破了光刻機(jī)所能處理的reticle limit,所以是將兩片die封裝到一起,。
從壁仞科技聯(lián)合創(chuàng)始人,、CTO洪洲的介紹來看,BR100明確采用了臺積電的2.5D CoWoS-S封裝方案——兩片die和周邊HBM2e內(nèi)存都放在一片硅中介(silicon interposer)上,。我們在剛剛發(fā)布的《先進(jìn)封裝的現(xiàn)在和將來》一文中詳細(xì)介紹過這種先進(jìn)封裝技術(shù),,國內(nèi)廠商在用的應(yīng)當(dāng)還寥寥無幾。
而且die to die互連采用超高速112G PAM4 SerDes,,die間通訊帶寬達(dá)到了896GB/s——這個速度可一點也不比某“國際大廠”發(fā)布沒多久的Grace Hopper Superchip的NVLink-C2C差,。
基于以上數(shù)字,推薦感興趣的同學(xué)去比一比,,以及Intel Ponte Vecchio GPU,,在die size、晶體管數(shù)量和先進(jìn)封裝技術(shù)的應(yīng)用上都有一定的可比性,;也能更進(jìn)一步地體會壁仞B(yǎng)R100大約是怎樣的定位,。
實際上,英偉達(dá)在今年GTC上發(fā)布,、尚未上市的Hopper架構(gòu)的GH100 die size為814mm2,,800億個晶體管?!按笮酒敝g過招,,在堆料上真的已經(jīng)到了白熱化程度。
BR100的理論算力水平如上圖所示,,不同格式與精度的算力值,,對應(yīng)于BR100在訓(xùn)練和推理方面的適用性,。壁仞提到的“全球算力記錄”和突破PFLOPS,應(yīng)該就是指BF16格式(1024 TFLOPS),。
這里有個TF32+,,是壁仞新推的一種數(shù)據(jù)格式,后文將會提到,。在AI訓(xùn)練中相對關(guān)鍵的BF16,、TF32/TF32+峰值理論算力,都有著很漂亮的水平,;著力推理的Int8也達(dá)到了2048 TOPS,。
其他配置數(shù)據(jù)還包括2.5D封裝在一起的64GB HBM2e內(nèi)存,“超300MB片上緩存”,,2.3TB/s外部I/O帶寬,,64路高清編碼、512路高清解碼加速,。
對比“國際廠商在售旗艦”的峰值算力數(shù)據(jù)——這很顯然比的就是Ampere架構(gòu)的A100,;AI計算相關(guān)主要數(shù)據(jù)格式的差異還是實打?qū)嵉模‵P32的數(shù)據(jù),屬于欺負(fù)A100的算力側(cè)重點了,;而且A100堆的FP64算力在HPC領(lǐng)域也是很重要的),。
據(jù)說在“開發(fā)者云上的實測算力”,BR100的數(shù)據(jù)還更好看一些,。有興趣的同學(xué)還可以拿尚未發(fā)售的英偉達(dá)Hopper新架構(gòu)來比一比,雖然這種峰值算力對比的意義并不算特別大,。另外要考慮對比雙方的芯片產(chǎn)品大規(guī)模鋪貨的時間,。
到更為真實的負(fù)載中,跑主流,、具代表性的網(wǎng)絡(luò),,包括CV、NLP,,還有現(xiàn)在很流行的Transformer,,壁仞B(yǎng)R100仍然是有不小的優(yōu)勢的,“平均加速比2.6x”,。不過這種涉及到實際業(yè)務(wù)的對比,,不僅是芯片本身,還要帶上系統(tǒng),、軟件的對比,,應(yīng)當(dāng)進(jìn)一步明確對比對象和內(nèi)容。我們很期待未來看到壁仞B(yǎng)R100及對應(yīng)系統(tǒng)參與MLPerf基準(zhǔn)測試,。
實則從這些與競品的性能對比數(shù)據(jù),,是能夠發(fā)現(xiàn)壁仞研發(fā)團(tuán)隊的前瞻性的,。這家公司2019年定義BR100芯片,到如今產(chǎn)品發(fā)布?xì)v經(jīng)3年時間,,AI與通用計算加速市場環(huán)境變化不小,。首次做芯片,就要預(yù)見未來3年的算力增長,,并在對應(yīng)時間節(jié)點把產(chǎn)品拿出來,,既有風(fēng)險又有難度。
另外,,單die的BR104主要配置與參數(shù)如下圖所示,。據(jù)說即便是單die的BR104,相比于“國際廠商在售旗艦”仍然有著1.4-1.6倍的算力優(yōu)勢,,包括上述不同數(shù)據(jù)格式,,與主流模型基準(zhǔn)測試性能比較。
有關(guān)芯片架構(gòu),、特性,、存儲子系統(tǒng)、IO互連的部分此處還尚未提到,;比如說主機(jī)接口PCIe Gen 5,,也特別支持了CXL互連協(xié)議;還有壁仞自研的BLink點對點全互連技術(shù)能將8個GPU有效連接在一起等等,。我們將這部分放到本文的最后,。
芯片構(gòu)成模組、板卡和服務(wù)器以后
更往上的板級系統(tǒng)層面,,BR100,、BR104芯片當(dāng)然是需要對應(yīng)到具體的產(chǎn)品形態(tài)的。這次壁仞發(fā)布了兩款具體的硬件產(chǎn)品:壁礪100和壁礪104,,分別應(yīng)用了BR100和BR104芯片,,這兩款產(chǎn)品分別以O(shè)AM(OCP Accelerator Module)模組與PCIe板卡的形態(tài)存在。算力規(guī)格之外,,功耗分別對應(yīng)550W和300W,。
壁仞科技聯(lián)合創(chuàng)始人、總裁徐凌杰特別提到,,其中壁礪100“在板級和系統(tǒng)層面做了非常多的創(chuàng)新”,。供電方面,“我們專門為這套系統(tǒng)打造了48V電源,,有著超高的電源密度和開關(guān)頻率,,提供穩(wěn)定的供電和超高的電源效率?!?/p>
而在散熱方面,,“我們在板卡上采用快速均溫技術(shù),,增加了熱腔體積和撞風(fēng)面積,有效提升了散熱效率,?!毙炝杞鼙硎荆拔覀冞€優(yōu)化了散熱器的外形,,能夠在不影響散熱的前提下降低5%以上的風(fēng)阻,。”除此之外,,“考慮到系統(tǒng)的穩(wěn)定性和可靠性,,我們也設(shè)計了一套專門的中斷和保護(hù)機(jī)制?!庇覉D的熱力圖表現(xiàn)的是OAM模組之上溫度的分布情況,。
系統(tǒng)和性能擴(kuò)展相關(guān)的部分,應(yīng)該也是很多人關(guān)注的重點,?!拔覀儼?個OAM模組放在通用UBB主板上,形成8卡之間點對點的全互連拓?fù)?。充分利用BR100上面的高速接口,,和UBB的互連基礎(chǔ)設(shè)施,8張卡之間兩兩互連,?!毙炝杞苷f,“節(jié)點內(nèi)每張卡能夠有448GB/s的互連帶寬,,節(jié)點之外還有64GB的帶寬,。”8卡對分帶寬1.8TB/s,。
這是“國內(nèi)芯片設(shè)計廠商中,,第一個實現(xiàn)在OAM系統(tǒng)中,,單節(jié)點8卡的全互連拓?fù)洹?。全互連拓?fù)涞膬r值,自然就在于專線通信,,每張卡在系統(tǒng)中完全對稱,,便于分布式調(diào)度和部署。
PCIe板卡形態(tài)的壁礪104則能夠部署在大部分2-4U的服務(wù)器里,。徐凌杰特別提到,,壁礪104也能夠?qū)崿F(xiàn)多卡之間的高速互連?!拔覀?yōu)榇藢iT設(shè)計了高速的橋片,,能夠在4張卡之間形成點對點的全互連拓?fù)?,帶?92GB/s?!?/p>
值得一提的是,,本次發(fā)布會上壁仞特別宣布了與浪潮合作推出的OAM服務(wù)器:海玄。這臺服務(wù)器的理論峰值算力(BF16)達(dá)到8 PFLOPS,;512GB HBM2e內(nèi)存,;支持PCIe 5.0和CXL;1.8TB/s對分互連帶寬,;最大功耗7kW,。
這個部分的最后,有必要說一說AI芯片與GPU廠商于系統(tǒng)層面的常規(guī)對比項目:少不了要和“國際廠商”對比TCO(總擁有成本)和功耗,。這是真正涉及到性價比和效率的部分,。
徐凌杰表示,“用國際巨頭在售的旗艦產(chǎn)品,,6000臺服務(wù)器(DGX A100 640GB,?)可以達(dá)到15 EFLOPS的浮點算力,需要3000臺機(jī)柜,,占地空間1萬平方米以上,,峰值功耗39兆瓦,最高需要3.4億度電每年,,相當(dāng)于4.2萬噸煤的發(fā)電量,。”
而如果換成OAM服務(wù)器海玄,,“只需要2000臺海玄服務(wù)器,,達(dá)到16 EFLOPS的算力;只需要1000個機(jī)柜,,占地面積不超過3500平方米,,峰值功耗14兆瓦,1.2億度年用電量,,相當(dāng)于1.5萬噸標(biāo)準(zhǔn)煤發(fā)電量,,實現(xiàn)了整體方案64%的成本下降?!?/p>
當(dāng)然這是個理想數(shù)據(jù),,我們在不少AI芯片供應(yīng)商那里都看到過類似的對比;實際情況很大程度還是受到業(yè)務(wù)類型,、開發(fā)生態(tài),、軟件和系統(tǒng)效率等各方面的因素影響。目前壁礪104 PCIe板卡已經(jīng)向部分用戶“開放邀測”,,而海玄OAM服務(wù)器則“正在內(nèi)部進(jìn)行緊鑼密鼓的測試,,即將在下個季度與客戶見面”,。
軟件與生態(tài)建設(shè)情況
洪洲在介紹芯片架構(gòu)之前就提到,壁仞科技要“占領(lǐng)數(shù)字經(jīng)濟(jì)的制高點”,?!拔覀冇媱澩ㄟ^我們的芯片、計算卡,,要承載我們的軟件來對接應(yīng)用,。剛開始兼容主流生態(tài),然后搶占整個生態(tài)的話語權(quán)”,?!拔覀冴P(guān)鍵是要打造生態(tài),真正將生態(tài)打好才是立足之本,?!?/p>
要在現(xiàn)如今的通用計算GPU市場有所發(fā)展,芯片做得再好,,沒有龐大的生態(tài)都將難以生存,。而且生態(tài)一直也是英偉達(dá)賴以生存與業(yè)績數(shù)年持續(xù)躥升的根源所在。英偉達(dá)當(dāng)前所涉足的通用計算加速領(lǐng)域,,每年GTC上新發(fā)布的加速庫,、框架、軟件和應(yīng)用,,都足以讓競爭對手汗顏——甚至是一些細(xì)分,、小眾的領(lǐng)域。
尤其是每年更新個什么庫,,相同硬件的效率就提升1倍,,有時都足以將DSA架構(gòu)芯片的效率領(lǐng)先優(yōu)勢吃干抹凈。更不用談上層應(yīng)用面向開發(fā)者時,,易用性有時可以將競爭對手甩開幾條街,。
壁仞科技作為一家剛剛發(fā)布第一顆芯片、成立才3年的新入局者,,自然不大可能做到一蹴而就,。我們此前采訪不少生態(tài)投入時間超過5年的AI芯片企業(yè),他們都對英偉達(dá)的生態(tài)建設(shè)水平感到無奈,。這預(yù)計也將成為壁仞科技接下來很長一段時間內(nèi)要投入大量人力物力的部分,。
上面這張圖是壁仞的BIRENSUPA(以下簡稱SUPA)軟件全棧,,從驅(qū)動,、硬件抽象層、編程平臺,、框架,,到具體的解決方案和應(yīng)用,。除了相關(guān)壁仞GPU自身架構(gòu)特性的一些接口(下文架構(gòu)介紹中也會有涉及),這里比較值得一提的包括框架層支持PyTorch,、TensorFlow,,和已經(jīng)在合作中的百度飛槳PaddlePaddle——百度也出現(xiàn)在發(fā)布會上,給出了“產(chǎn)品兼容性證明”,;框架層有個壁仞自研的推理引擎suInfer,。
上層的解決方案,現(xiàn)階段主要有兩個:AutoStream和suCTR,。壁仞科技聯(lián)席CEO李新榮介紹說,,AutoStream智能視頻分析引擎是基于GStreamer框架開發(fā)的軟件庫,用于端到端的智能分析,?!八梢詫D像以及視頻的數(shù)據(jù)做前端和后端的處理,充分利用壁仞GPU的解碼能力和推理加速能力,,高效地支持視頻分析應(yīng)用,。”未來還會有更多AutoStream的功能問世,。
而suCTR是個廣告推薦訓(xùn)練框架,,“支持基于GPU架構(gòu)的訓(xùn)練框架,用在廣告推薦場景上,;采用多級稀疏參數(shù)存儲架構(gòu),,單機(jī)就可以支持TB級參數(shù),并且可以通過多級擴(kuò)展來支持更多的大規(guī)模參數(shù),;兼容TensorFlow,,減少用戶開發(fā)的遷移成本?!?/p>
開發(fā)者比較關(guān)心的部分具體內(nèi)容可見以下PPT,;就一家剛剛發(fā)布芯片的企業(yè)而言,我們認(rèn)為這樣的生態(tài)構(gòu)建水平已經(jīng)是比較優(yōu)秀的了:
另外作為生態(tài)建設(shè)的一環(huán),,壁仞科技“開發(fā)者云”當(dāng)前已經(jīng)上線,。壁仞也現(xiàn)場演示了開發(fā)者云的使用?!伴_發(fā)者云是基于壁仞suCloud機(jī)器學(xué)習(xí)平臺搭建的集成式開發(fā)環(huán)境,,旨在為開發(fā)者提供可遠(yuǎn)程訪問壁仞GPU資源的云端入口?!?/p>
生態(tài)建設(shè)前期,,壁仞似乎和不少高校展開了合作,主要著力在和高校建立合作關(guān)系,從學(xué)術(shù)研究,、人才培養(yǎng)和科研成果轉(zhuǎn)換上入手,。從壁仞展示的視頻來看,目前涉及的合作方向包括醫(yī)療影像,、分子動力學(xué),、電磁仿真等領(lǐng)域。雖然不清楚合作深度和成果產(chǎn)出如何,,但這本身就是生態(tài)擴(kuò)展,、為未來打基礎(chǔ)的長遠(yuǎn)方案。
“壁立仞”芯片架構(gòu)
感覺能在發(fā)布會上從高抽象層級談技術(shù)的企業(yè),,在國內(nèi)還真是稀缺,。壁仞在這次發(fā)布會上,花了比較多的篇幅著墨于自家GPU芯片的“壁立仞”架構(gòu),。做大算力可不是堆晶體管就行的,,這其中涉及到PPA權(quán)衡、內(nèi)存功耗限制問題,、兼容性等等,。本文最后,我們就來談一談構(gòu)成BR100/BR104芯片的壁立仞架構(gòu),,有何獨特之處,。
洪洲給出了壁立仞架構(gòu)的6大特性:TF32+數(shù)據(jù)格式支持、TDA張量數(shù)據(jù)存取加速器,、C-Warp協(xié)作開發(fā)模式,、NME近存儲計算引擎、NUMA/UMA訪存機(jī)制,、SVI安全虛擬實例,。雖然聽起來其中的某些還是比較通用。
這是BR100邏輯框架圖,,其上包含有計算單元,、2D mesh片上網(wǎng)、HBM2e存儲系統(tǒng),、媒體引擎,、連接主機(jī)的PCIe Gen 5接口、互連接口,。
放大計算核部分,,這是流處理器簇(SPC),采用標(biāo)準(zhǔn)化的模塊化設(shè)計,,上面能跑4096并行線程,。一個SPC內(nèi)部包含有16個EU(執(zhí)行單元),每4個EU可配置成1個CU(計算單元)。一個BR100內(nèi)部有32個這樣的SPC流媒體簇,。
放大其中的EU。一個EU主要包含兩部分,,一部分是“通用流式處理器(V-core)”,。“我們采用了SIMT通用并行處理器”,,BR100的“通用性主要就來自這個處理器,,它支持各種各樣的指令,而且是完全并行的通用架構(gòu)”,。這部分應(yīng)該也是能夠兼容CUDA的原因,。
另一個部分就是tensor core?!拔覀兊淖龇ê蜆I(yè)界不大一樣,。我們的tensor核是完全集成在向量核里面的,作為向量核的加速器,?!焙橹拚f,“其優(yōu)點在于,,可以把16個tensor核連在一起,,達(dá)成更大的tensor核,讓矩陣運算效率得到極大提高,。我們算下來大概能提高30%,。”
“矩陣運算是AI,、HPC里面最重要的運算,。所以這個設(shè)計至關(guān)重要。這樣的設(shè)計能提高能效比,,讓數(shù)據(jù)重用性變得更好,。”
“我覺得到底用通用架構(gòu)還是DSA架構(gòu),,這個爭論是沒有意義的,。”洪洲談到,,“BR100里面,,這兩者都有了,既有通用性,,也有很好的PPA,。”
分布式共享L2 cache也是洪洲特別提到的創(chuàng)新點?!皞鹘y(tǒng)GPU的L2 cache一般在芯片中間,,或者芯片邊上,在memory controller旁邊,。我們的設(shè)計是分布式緩存,,和每個大的計算核在一起,也能夠共享,,通過片上網(wǎng)將其連在一起,。”“這樣的好處是,,讓數(shù)據(jù)和計算單元挨得很近,,與此同時又在芯片level做共享?!?/p>
基于以上信息,,BR100芯片同時能跑128000個線程,總計8192個通用流式處理器,、512個張量加速器,,256MB分布式共享緩存。
BR100所用的片上網(wǎng)絡(luò)(NoC),,為“網(wǎng)格式多播(multicast)片上互連”,。“權(quán)重一般來說是可以共享多播的,;當(dāng)你跑模型并行,,training sample也可以共享多播。這樣就能極大減少對內(nèi)存的帶寬壓力,,減少片上網(wǎng)link的帶寬壓力,。”
IO方面值得一提的特性,,除了PCIe Gen 5主機(jī)接口支持——128GB/s帶寬,,并且支持CXL互連協(xié)議以外;BLink點對點全互連技術(shù),,在壁仞科技的版圖中應(yīng)該也是很重要的——可類比于英偉達(dá)的NVLink,。
“我們有8組BLink接口,其中7個接口可以連接另外7個GPU,,最終將8個GPU有效連在一起,。”洪洲說,,“我們?yōu)槭裁匆匝羞@個接口,?因為它能夠給我們更好的控制,。通過這項技術(shù),把8個GPU當(dāng)成1個GPU來用,,并且把數(shù)據(jù)多播,、計算核之間同步都通過接口來實現(xiàn)?!?/p>
6大亮點中的第一個就是TF32+數(shù)據(jù)格式的支持,。“兩年前,,頭部廠商引入了TF32,,這個格式能夠讓網(wǎng)絡(luò)比較容易收斂,。但我們和客戶交流的時候發(fā)現(xiàn),,這還遠(yuǎn)遠(yuǎn)不夠。很多客戶在某些場景下,,為了0.1%的精度提高,,寧愿速度跑慢一點,或者加更多設(shè)備,?!?/p>
“我們的TF32+,精度bit有15bit(E8M15),,TF32就只有10bit,。我們增加了5bit,相當(dāng)于增加了32倍精度,?!焙橹拚f,“即使這樣,,我們的TF32+算力仍然是頭部廠家TF32的3.3倍,。”所以最終達(dá)成了“更高的精度”和“更大的算力”,。
架構(gòu)層面的另一個亮點在于TDA(Tensor Data Accelerator)張量數(shù)據(jù)存取加速器,。這個加速器用于offload計算單元(SPC)的數(shù)據(jù)存取工作?!八莻€專門的加速器,,像數(shù)據(jù)的加壓、解壓,、地址計算,、同步。它能讓計算和數(shù)據(jù)搬動做到異步,?!?/p>
實際上,,以下多項特性都著力于減少數(shù)據(jù)通訊產(chǎn)生的開銷——在AI計算時代,這個命題正被不斷放大,。而“高算力”架構(gòu)現(xiàn)在總是要花大量的精力在應(yīng)對存儲墻的問題上,。包括C-Warp協(xié)作并發(fā)、NME近存儲計算引擎,、NUMA/UMA訪存機(jī)制:
比如C-Warp協(xié)作并發(fā)相比于傳統(tǒng)GPU的warp和warp之間不能直接通訊(需要經(jīng)由cache來交換數(shù)據(jù)),,“我們這種模式可以藉由一些同步方式,通過Register File來直接傳遞數(shù)據(jù),,也就減少了數(shù)據(jù)的搬移,。”
而NME近存計算引擎應(yīng)當(dāng)和前面提到的分布式L2 cache也有關(guān),,“讓計算發(fā)生在數(shù)據(jù)呆著的地方,。數(shù)據(jù)走到哪兒,計算就應(yīng)該在哪兒發(fā)生,?!边@里的“reduction engine”大約是關(guān)竅所在。NUMA/UMA訪存機(jī)制也是考量不同數(shù)據(jù)特性,,減少數(shù)據(jù)通訊的距離和次數(shù),。
洪洲說由于數(shù)據(jù)存取需要大量開銷,很多馮諾依曼體系架構(gòu)的芯片,,功耗真正花在“算”的部分就只有10%,。“我們很驕傲地說,,BR100測下來,,大部分功耗都是花在了‘算‘上面?;诓煌膱鼍?,有些場景能到70%,有些60%,,這已經(jīng)非常好了,。這是對計算模式的顛覆?!币陨纤屑夹g(shù)在此應(yīng)當(dāng)都是至關(guān)重要的,。
虛擬化和安全相關(guān)的技術(shù),對當(dāng)代數(shù)據(jù)中心GPU而言自然也不能少,。SVI安全虛擬實例特性的一個亮點,,應(yīng)該是支持1、2,、4,、8份實例的“物理切分”,。“每個物理切分,,memory,、緩存、計算單元,、片上網(wǎng)的link都是私有的,,和旁邊在跑的東西完全隔離,相互不會有影響,?!?/p>
另外還有國密1級安全標(biāo)準(zhǔn)支持等特性,以及性能方面BR100“即使切成8份,,每份算力也有256TOPS(INT8),,是現(xiàn)在主流推理卡的2倍性能”等。
這是個很好的起點
壁仞B(yǎng)R100/BR104芯片,,以及軟件生態(tài),、OAM模組與PCIe板卡的發(fā)布還是相當(dāng)振奮人心的,。至少從這次的發(fā)布會來看,,3年時間交出的答卷讓人滿意。無論是芯片算力水平,、架構(gòu)亮點,、所用的制造和封裝技術(shù),還是系統(tǒng)產(chǎn)品的能效,、TCO,。而且如前所述,壁礪104很快就要量產(chǎn)出貨了,,海玄OAM服務(wù)器今年Q4也將開放邀測,。
不過GPU通用計算和AI市場的競爭也實在不簡單,要在既有市場參與者占據(jù)統(tǒng)領(lǐng)地位的環(huán)境中占得一席之地,,甚至“搶占生態(tài)話語權(quán)”都絕非短時間內(nèi)可以達(dá)成,。實際上,英偉達(dá)當(dāng)前的優(yōu)勢,,一方面來自xPU芯片和系統(tǒng)的覆蓋,,不僅是GPU芯片和系統(tǒng),還體現(xiàn)在networking等領(lǐng)域的不斷開花結(jié)果,。而老生常談的軟件生態(tài),,更是全棧自下而上的覆蓋,以及持續(xù)不斷的行業(yè)橫向擴(kuò)張,。
無論如何壁仞B(yǎng)R100的發(fā)布都是個出色的開端,,接下來等待壁仞科技的還會有更多的挑戰(zhàn),。產(chǎn)品落地和持續(xù)的生態(tài)建設(shè)會是所有人都將密切關(guān)注的。
更多信息可以來這里獲取==>>電子技術(shù)應(yīng)用-AET<<