俗語說得好:海水退潮之后,,才知道誰沒穿褲子。但歷史的教訓(xùn)往往證明殘酷的事實:結(jié)果站在浪里的所有人,,全部都沒有穿褲子,。
處理器業(yè)界的年度盛事第32屆IEEE HotChips,,剛剛在今年8月以全部線上活動型式結(jié)束了,連擠4年牙膏的IBM與英特爾總算換了一管全新牙膏,,真是可喜可賀,。
但另一方面,分別在云端服務(wù)和終端硬件執(zhí)人工智能牛耳的Google與nVidia,,卻也學(xué)到了“擠牙膏”的精髓,,前者讓2018年就問世的第三代TPU,從2018年Google I/O講到2020 HotChips,,后者在HotChips發(fā)表的內(nèi)容,,完全承襲GTC 2000的簡報,唯一差別只有把華為Ascend 910人工智能處理器和英特爾支援BF16格式的“新型Xeon”Cooper Lake-P拖出來狠狠打一頓,。
總之,,我們來瞧瞧HotChips 32 的Google 第三代TPU 與nVidiaA100。
講了三年總算勉強(qiáng)講完的Google TPU v3
Google 這家公司最令人稱許之處,,在于恐怖的“前瞻執(zhí)行力”,,每當(dāng)眾人還在清談“技術(shù)趨勢”之際,就突然石破天驚的昭示天下:你們還在嘴炮的東西,,我們早就應(yīng)用到實際產(chǎn)品,。諸多豐功偉業(yè)的最知名案例,莫過于2013 年底,,Google 爆炸性公開“規(guī)劃部署已達(dá)3 年”的B4 數(shù)據(jù)中心廣域網(wǎng)絡(luò),,開大規(guī)模商業(yè)化軟件定義網(wǎng)絡(luò)(SDN)之先河,。
早在2015年就投入內(nèi)部應(yīng)用的Google TPU,更是近年來的經(jīng)典案例,,接著Google也很迅速推陳出新,,2017年推出深度學(xué)習(xí)第二代TPU,第三代TPU更早在2018 Google I/O就亮相了,。
但Google 也隨即“擠牙膏之神”上身,,2019 年HotChips 31 教程僅提到部分資訊,到2020 年才公開細(xì)節(jié)全貌,。
我們都有充分的理由相信,,第四甚至第五代TPU,不是早就上線服役也該早在路上了,。
2019 年比較對手是nVidia V100,,結(jié)果2020 年看不到第四代TPU 較量V100,讓人感覺有點奇怪,。
TPU v3 概觀可視為TPU v2 的雙倍放大版,,散熱系統(tǒng)從氣冷改為液冷,也是主機(jī)板最顯眼的特色,。
TPU v3 仍舊著重持續(xù)提升存儲器帶寬(+30%)與容量(加倍),,拜液冷之賜,時鐘頻率也有成長(+30%),。
TPU v3 的指令集架構(gòu)是332 位元長的超長指令集(VLIW),,VLIW 指令包內(nèi)總計有2 個純量指令、4 個向量指令(其中2 個是存儲器載入/回存),、 2 個矩陣(Matrix)指令,、6 個立即值(Immediate)與一個雜項(Misc)應(yīng)用。
強(qiáng)化多芯片互連總線,,打造更大規(guī)模的“人工智能超級電腦”,,更是TPU v3 的重頭戲,也就是上圖那個“4x Nodes”,。
同樣一片系統(tǒng)主機(jī)板裝4 顆TPU,,TPU v3 組成的“人工智能超級電腦”,擁有前代8 倍以上效能,、8 倍存儲器容量,、4 倍芯片數(shù)量與4 倍的最大裝置設(shè)定數(shù),可切割成256 個獨立運算平臺分租給客戶,。
順便一提,,現(xiàn)今已知關(guān)于Google TPU 的專利多達(dá)50 份,亦不乏詳細(xì)描述第三代TPU 的內(nèi)部架構(gòu)細(xì)節(jié),,也是眾多有志進(jìn)軍人工智能芯片的冒險者,,抽絲剝繭的研究對象,。
但這對使用Google Cloud AI 的用戶,甚至大多數(shù)Google 部門來說,,其實并不重要,,他們只要用得爽快、不需要“為了喝牛奶自己蓋一座牧場”就夠了,。
靠GPU 基本盤穩(wěn)扎穩(wěn)打的nVidia A100
nVidia以通用GPU為基礎(chǔ),,站穩(wěn)高效能運算市場,并將觸角逐漸延伸到人工智能和自駕車輛等新興應(yīng)用領(lǐng)域,,使2020年夏天市值連續(xù)超越英特爾和三星,,證實外界多么看好“皮衣教主”昭示天下的“美好未來”。無論個人電腦與高效能運算領(lǐng)域,,從“電競筆電非有Max-Q不可”現(xiàn)象到超級電腦Top500清單滿滿的nVidia GPU,,優(yōu)勢地位看似牢不可破。
nVidia 旗艦GPU 也隨著制程演進(jìn)而持續(xù)“恐龍化”,,Ampere 世代之首A100 是一顆臺積電7 納米制程,、540 億晶體管的巨獸,像更多執(zhí)行單元,、更大存儲器子系統(tǒng)帶寬,、一直更新的DGX 超級電腦等,是各位也都耳熟能詳,,甚至早就令人哈欠連連的“標(biāo)準(zhǔn)劇情”了,。
關(guān)于人工智能應(yīng)用,,nVidia A100 最重要的特色,,莫過于自行定義的TF32(Tensor Float 32)浮點數(shù)格式。講白了就是“取長補短”,,既然Google BF16 犧牲掉FP32 的精度,,維持動態(tài)范圍不變,那就讓精度和FP16 一樣吧,,神奇的19 位元長度TF32就這樣誕生了,,兼具FP32的動態(tài)范圍和FP16 的精度。nVidia 之所以這樣大費周章創(chuàng)造新格式,,根本目的不外乎要降低存儲器帶寬和容量需求,,和Google發(fā)明BF16 如出一轍。
理所當(dāng)然的,,TF32 在A100 一定跑得很快,,因所需帶寬僅為前代V100 一半或三分之一,更能喂飽嗷嗷待哺的龐大Tensor Core,。
但這件事的背后,,隱隱約約透露nVidia長期領(lǐng)先AMD(ATI)的根本原因與基本思維:存儲器帶寬,,這件事早從2004年NV40(GeForce 6系列)存儲器控制器內(nèi)建壓縮傳輸機(jī)能,相關(guān)技術(shù)持續(xù)演進(jìn)并陸續(xù)申請專利,,就已埋下了種子,。過去十幾年來,AMD或ATI的GPU,,需要更多存儲器帶寬,,才能實現(xiàn)同等級的效能水準(zhǔn),絕對不是偶然,。
大概整批帶槍投靠英特爾的前AMD 團(tuán)隊過去吃了不少悶虧,,這次替英特爾重新打造Xe 繪圖架構(gòu)時,也很刻意提到“End-To-End Compression”,,只是不知道會不會不小心踩到nVidia 的專利地雷,。
當(dāng)GPU 踏入高效能運算和人工智能,“每筆運算可平均分配到的存儲器帶寬,,持續(xù)穩(wěn)定的下滑中”,,更讓提高運算效能這件事,絕非區(qū)區(qū)增加幾個特化指令與擴(kuò)張執(zhí)行單元,,即可迎刃而解,,更需搞定帶寬這件事,一旦帶寬不足,,就發(fā)揮不出完整的運算效能,。
聽說nVidia 下一代GPU“Hopper”將改弦易轍,改走多芯片Chiplet“包水餃”路線,,也許nVidia 在多芯片連結(jié)架構(gòu)部分,,將帶來讓人感到驚奇的技術(shù)突破也說不定,讓人對明年HotChips 33 多抱持一分期待,。
人工智能熱潮的消退:先講求不要餓死再求發(fā)展
話說回來,,我們就不得不探究一個大哉問:為何越來越多芯片廠商開始“擠牙膏”?要么不是受摩爾第二定律詛咒,,產(chǎn)品技術(shù)難以短期內(nèi)飛躍性提升,,要么就是講再多對我也沒任何實質(zhì)好處,還不如少講一點悶聲發(fā)大財,。
不過這幾年,,難道人工智能芯片不是很火的話題嗎?2017年HotChips 29,,不就是從主題演講到議程,,從泛用處理器、GPU、ASIC到FGPA,,統(tǒng)統(tǒng)“人工智能滿天下”,?如此沉默,對公司的未來妥當(dāng)嗎,?
很遺憾的,,人工智能芯片從2018 年起,以中國相關(guān)領(lǐng)域新創(chuàng)公司為首,,熱潮急速退燒,,像中國DEEPHi(深鑒科技)被FPGA 巨頭賽靈思收購,已經(jīng)算是最好的退場,。
即使美國企業(yè)亦不可免俗,,就算公司不會倒,也不保證產(chǎn)品線不會收掉,。像這些年來癡迷自駕車和人工智能,,耗費數(shù)百億美元“生氣亂買公司”的英特爾,2018年宣布中止XeonPhi產(chǎn)品線,,決定整個砍掉重練,,由2017年底來自AMD的Raja Koduri重建貨真價實的GPU。2019年底以20億美元購并以色列HabanaLabs并在隔年2月停止NNP-T1000(代號Spring Crest,,還宣稱跟百度合作),,也意味著2016年用3.5億美元買下的Nervana形同棄兒,英特爾人工智能平臺事業(yè)群負(fù)責(zé)人,、Nervana聯(lián)合創(chuàng)辦人Naveen Rao隨即離職,,一點都不讓人意外。
英特爾連續(xù)公開栽了兩次(實際上應(yīng)該更多),,事后諸葛的后見之明與背后補刀的內(nèi)幕爆料,,均朝向“做出來的東西根本不能用,也無法符合軟件開發(fā)者和潛在客戶的需求”,。
所以這也是當(dāng)人工智能漸漸在HotChips 退燒后,,為何Google 和nVidia 可站在臺上活好好的主因:Google 很清楚自身需要,快速演進(jìn)三代(應(yīng)該更多)的TPU 就是為了自家Google Cloud AI 和其他服務(wù)量身訂做(蘋果塞在自己芯片內(nèi)的NPU 也是一樣狀況),。nVidia 則是擁有龐大GPU 市占率、累積十多年的CUDA 與高效能運算的“基本盤”足以先養(yǎng)活自己,,日后再慢慢發(fā)展,。
反觀之前那票一窩蜂狂沖“人工智能新大陸”的勇者,又有幾家有本錢和能耐,,先不求餓死,,再講求和客戶攜手并進(jìn)的共同勝利?講更白一點,你會相信中國那些開發(fā)數(shù)字貨幣挖礦芯片的廠商,,被迫轉(zhuǎn)型做出來的人工智能芯片,,可以迅速得到指標(biāo)性客戶的青睞?
天下任何一家求生存的企業(yè),,無不企求有所謂的“現(xiàn)金母?!焙椭覍嵖蛻簦艦榉€(wěn)定營運的基礎(chǔ),。我們可以猜猜看,,明年HotChips 33 還剩下哪些幸存者?