編者按:在今年的特斯拉AI Day上,,Dojo再次吸引了眼球,,特斯拉宣布即將在2023年推出算力更強(qiáng)的ExaPOD(Dojo機(jī)柜)。早在2019年的Autonomous Day上,,馬斯克就提到過Dojo,,稱Dojo是“能夠利用海量視頻數(shù)據(jù),做無人監(jiān)管標(biāo)注和訓(xùn)練的超級計(jì)算機(jī)”,。超級計(jì)算機(jī)是什么,?如此受到特斯拉重視的Dojo究竟有多么重要的戰(zhàn)略意義,?AI芯片的性能,只和算力強(qiáng)弱有關(guān)嗎,?
騰訊科技新產(chǎn)研·芯片系列通過產(chǎn)業(yè)鏈,、投資研發(fā)、生產(chǎn)制造,、人才培養(yǎng)和政策法規(guī)等不同角度切入,,真實(shí)、客觀,、全面的反映行業(yè)的現(xiàn)狀,。本期為系列策劃第12期,特邀請芯片行業(yè)從業(yè)15年的行業(yè)老兵J叔,,通過十問十答帶你讀懂特斯拉Dojo,。
丨劃重點(diǎn)
●Dojo是一臺(tái)專門用于AI訓(xùn)練計(jì)算的超級計(jì)算機(jī),據(jù)Dojo項(xiàng)目負(fù)責(zé)人介紹,,特斯拉Dojo是史上最快的AI訓(xùn)練計(jì)算機(jī),。
●特斯拉自研神經(jīng)網(wǎng)絡(luò)訓(xùn)練芯片——D1芯片,擔(dān)當(dāng)著Dojo完成AI模型訓(xùn)練的重任,,相比于業(yè)內(nèi)其他芯片,,據(jù)特斯拉稱,同成本下性能提升4倍,,同能耗下性能提高1.3倍,,占用空間節(jié)省5倍,。
●過去,,特斯拉依靠Nvidia的GPU構(gòu)建AI訓(xùn)練機(jī)。研發(fā)D1芯片和Dojo,,特斯拉可以針對性地基于自身需求定制專用的AI芯片架構(gòu),,進(jìn)而讓算法模型與AI芯片架構(gòu)匹配優(yōu)化。從競爭戰(zhàn)略上來講,,造芯使得特斯拉從產(chǎn)業(yè)價(jià)值鏈上,,尋找技術(shù)制高點(diǎn),并最終達(dá)到差異化競爭,。
●算力是一顆芯片的物理性能上限,,但是一顆芯片想要體現(xiàn)出好的實(shí)用性能,光有算力是不夠的,。從特斯拉的使用場景來看,,對自動(dòng)駕駛場景與模型的優(yōu)化、接口的豐富度,、計(jì)算任務(wù)的可擴(kuò)展性,,乃至對車廠算法模型的迭代易用性,,這都是要考慮的因素。
正文:
丨特斯拉Dojo是什么,?
首先,,需要簡單了解一下人工智能。
人工智能(AI)在邏輯上可以認(rèn)為是一種計(jì)算系統(tǒng),,分為訓(xùn)練和推理兩種計(jì)算,。簡單來理解,如果將智能當(dāng)做技能集合的話,,每一種技能叫做一個(gè) AI模型,,學(xué)習(xí)技能的過程就是訓(xùn)練一個(gè)模型,利用技能來處理事情的過程就是用模型進(jìn)行推理,。
打個(gè)比方,,如果把一個(gè)人工智能模型比喻為一個(gè)工程師,想要工程師能夠投入工作,,必須要有一個(gè)培訓(xùn)中心對他進(jìn)行訓(xùn)練,。那超級計(jì)算機(jī),就相當(dāng)于這個(gè)培訓(xùn)中心,。
不論是訓(xùn)練計(jì)算還是推理計(jì)算,,都需要在大型的服務(wù)器或者超級計(jì)算機(jī)中進(jìn)行。以訓(xùn)練為例,,通常來講,,工程師會(huì)先構(gòu)建大型服務(wù)器集群,然后將含有AI芯片的計(jì)算卡置于每一臺(tái)服務(wù)器之中,,通過網(wǎng)絡(luò)把這些服務(wù)器整合起來,,形成訓(xùn)練集群。比如NVidia GPU服務(wù)器集群,,google TPU集群等,。或者,,也可以將這些計(jì)算芯片,,整合在一臺(tái)大型“計(jì)算機(jī)”中,這就是超級計(jì)算機(jī),。
Dojo就是一臺(tái)專門用于AI訓(xùn)練計(jì)算的超級計(jì)算機(jī),。特斯拉的智能駕駛(包含一定程度的自動(dòng)駕駛),需要不斷地從在跑的數(shù)百萬輛汽車所采集到的現(xiàn)實(shí)世界數(shù)據(jù)中進(jìn)行訓(xùn)練,,提高智能程度,。在過去,特斯拉也是依靠Nvidia的GPU構(gòu)建訓(xùn)練機(jī),。隨著自研 AI 訓(xùn)練芯片 D1的研發(fā)成功,,基于D1芯片的超級計(jì)算機(jī)也就應(yīng)運(yùn)而生了,。
丨特斯拉D1芯片是什么?
D1是特斯拉自主研發(fā)的AI訓(xùn)練芯片,,類似于Nvidia的A100和H100所起的作用,。
為了理解D1“芯片”,我們這次暫時(shí)跳出通常我們?nèi)庋劭梢姷暮谏綁K,,或者被金屬固件和基板封裝好的樣子,,按照特斯拉自己定義的一些概念,來逐步理解這顆特殊的芯片,。在這個(gè)過程中,,要克服當(dāng)前中文互聯(lián)網(wǎng)上不同的翻譯(甚至有些是機(jī)器翻譯的痕跡)和英文專有名詞造成的困擾。
一般來說,,一顆芯片的誕生,,是從Wafer上切割下來,成為Die,,經(jīng)過封裝,、測試,成為一顆可用的芯片,。而這次特斯拉使用了一種所謂的System On Wafer的方式,,也就是說,他并沒有將每一顆Die切割進(jìn)行獨(dú)立封裝,,而是將25個(gè)D1的Die的Wafer,,散熱部件、功率器件,、電源與控制等,,一起形成一個(gè)Tile,這個(gè)Tile大約是1平方英尺的大小,。
就芯片角度講,,基于354個(gè)功能單元(訓(xùn)練節(jié)點(diǎn))形成一個(gè)D1芯片核心,,具體參數(shù)如下圖:
基于25個(gè)D1芯片核心和40個(gè)輸入輸出Die和其他部件,,形成一個(gè)訓(xùn)練Tile,如圖中Compute Plane指的就是5×5個(gè)D1核心:
從外觀上人們可以看到的,,正是這個(gè)Tile,,在中文互聯(lián)網(wǎng)中被翻譯成,瓦片,,大約長這個(gè)樣子:
丨D1芯片和Dojo的關(guān)系是什么,?
Dojo,是通過組合Tile(由D1芯片組成)作為主要計(jì)算單元,,整合了CPU,、存儲(chǔ),、通訊接口、電源等模塊的超級計(jì)算機(jī),。
上文提到,,25個(gè)D1為基礎(chǔ)形成一個(gè)Tile,進(jìn)一步,,12個(gè)Tile為基礎(chǔ)組成一個(gè)Rack,,最后,10個(gè)Rack,,被整合成一個(gè)ExaPOD,,這在中文互聯(lián)網(wǎng)上被稱為Dojo ExaPOD集群。據(jù)Tesla稱,,與業(yè)內(nèi)其它產(chǎn)品相比,,同成本下它的性能提升 4 倍,同能耗下性能提高 1.3 倍,,占用空間節(jié)省 5 倍,。
業(yè)界一般會(huì)有兩種方式來設(shè)計(jì)面向任務(wù)的計(jì)算架構(gòu):1)服務(wù)器集群;2)超級計(jì)算機(jī),。曾經(jīng)要進(jìn)行大型的計(jì)算任務(wù),,只能靠大型計(jì)算機(jī),算力提升難度和建造成本都很高,。而隨著計(jì)算任務(wù)的多樣化,,人們發(fā)現(xiàn),一部分的計(jì)算任務(wù)可以將許多計(jì)算機(jī)通過網(wǎng)絡(luò)連起來,,每臺(tái)計(jì)算機(jī)的升級難度和造價(jià)都很低,,這就進(jìn)化出了服務(wù)器集群。當(dāng)前商業(yè)上大部分的IT設(shè)施,,都是基于這種方式搭建的,。主流互聯(lián)網(wǎng)公司的數(shù)據(jù)中心,不僅在承擔(dān)著通用的信息處理和計(jì)算任務(wù),,也進(jìn)行著人工智能的訓(xùn)練和推理任務(wù),,因此,非常多的公司和數(shù)據(jù)中心,,都在以Nvidia的訓(xùn)練芯片V100和A100,,來構(gòu)建訓(xùn)練服務(wù)器集群。
另一方面,,在許多進(jìn)行繁重的科學(xué)計(jì)算的領(lǐng)域,,依然保持著使用大型計(jì)算機(jī)的習(xí)慣,并且由于GPU在浮點(diǎn)運(yùn)算的特長,,也有許多機(jī)構(gòu)基于GPU來構(gòu)建超級計(jì)算機(jī),。這樣的超級計(jì)算機(jī),,不僅可以進(jìn)行AI的訓(xùn)練與推理計(jì)算任務(wù),也可以承擔(dān)類似于求解天氣預(yù)報(bào),、導(dǎo)彈彈道與衛(wèi)星軌道計(jì)算,、天體運(yùn)動(dòng)探索等科學(xué)計(jì)算任務(wù)。
Dojo,,就是專門針對于AI訓(xùn)練(尤其是針對于廣義的視覺模型訓(xùn)練)的超級計(jì)算機(jī),。
丨Dojo的算力有多強(qiáng)?如何計(jì)算Dojo的算力,?
Dojo ExaPoD集群由120個(gè)Training Tile,,3000個(gè)D1芯片構(gòu)成。而每塊D1芯片的算力是362 TFLOPs(BF16/CFP8)或者22.6 TFLOPs(FP32),。所以Dojo集群的總算力在BF16/CFP8下是:3000 x 362 TFLOPs ≈ 1.1 EFLOPs,,在FP32下是:3000 x 22.6 TFLOPs ≈ 67.8 PFLOPs。
這里需要解釋的是,,算力需要基于什么樣的數(shù)據(jù)表達(dá)方式下來衡量,。所謂數(shù)據(jù)表達(dá)方式,指的是在計(jì)算機(jī)中,,用以表達(dá)或近似表達(dá)任意實(shí)數(shù)的方式,,比如在這里提到的BF16和FP32,指的就是浮點(diǎn)數(shù),,與此對應(yīng)的還有定點(diǎn)數(shù)(INT),。正如當(dāng)我們來描述手部力量有多大的時(shí)候,需要指出是雙手還是單手力量,。
丨與特斯拉D1芯片類似的現(xiàn)存芯片有哪些,?
通過上面的分析,可以知道D1芯片的主要功能和特征,。傳統(tǒng)來說,,云端訓(xùn)練芯片是Nvidia的領(lǐng)域,甚至可以說是絕對壟斷的地位,,先后推出了諸如V100,、A100和H100的系列產(chǎn)品,也有官方在售的訓(xùn)練服務(wù)器和集群產(chǎn)品,。除此之外,,AMD、Graphcore,、以及華為也有云端訓(xùn)練芯片,甚至intel這位通用計(jì)算的大佬,,也通過收購整合Habana推出了針對AI訓(xùn)練和推理的專用芯片,。
丨自研芯片對特斯拉的戰(zhàn)略意義是什么,?
剛剛過去的AI Day上,特斯拉Dojo團(tuán)隊(duì)的重要成員這樣說:“從本質(zhì)上來講,,特斯拉是一家硬核科技公司,,超算是我們想做的,我們有那么多數(shù)據(jù)需要進(jìn)行相應(yīng)的訓(xùn)練就需要有非常強(qiáng)的算力,,算力是非常重要的,,可以說算力是訓(xùn)練的根本,如果沒有算力,,那訓(xùn)練就是非常難執(zhí)行的,,或者訓(xùn)練效率非常低?!?/p>
正如前文所提,,特斯拉的智能駕駛(包含一定程度的自動(dòng)駕駛),需要不斷地從數(shù)百萬輛汽車所采集到的現(xiàn)實(shí)世界數(shù)據(jù)中不斷學(xué)習(xí)(訓(xùn)練模型),,提高智能程度,。在過去,特斯拉主要是依靠Nvidia的GPU構(gòu)建訓(xùn)練集群和超級計(jì)算機(jī),。然而,,考慮到特斯拉主要的場景,主要是對視覺信號進(jìn)行處理(訓(xùn)練和推理),,因此,,針對性地基于視覺信號訂制專用的AI芯片架構(gòu),可以將算法模型與AI芯片架構(gòu)匹配優(yōu)化,,不僅使得其可以更高效地處理信息,,還可以在能源消耗、集群成本和客制化需求上符合特斯拉自身的利益訴求,。
而另一方面,,當(dāng)傳統(tǒng)車企和造車新勢力都進(jìn)入市場進(jìn)行競爭時(shí),從產(chǎn)業(yè)價(jià)值鏈上尋找技術(shù)制高點(diǎn)并最終達(dá)到差異化競爭,,就會(huì)是必經(jīng)之路,。從這個(gè)角度出發(fā),芯片,、電池與新材料技術(shù),、新基礎(chǔ)建設(shè)等,就會(huì)是兵家必爭之地,。大家也可以看到,,特斯拉在這幾個(gè)方向上都有布局和不錯(cuò)的成果。
丨目前市場上有哪些自動(dòng)駕駛芯片?
既然說到特斯拉造芯,,那就不得不提當(dāng)前業(yè)內(nèi)如火如荼的自動(dòng)駕駛芯片,。也正如前述,在車上所用到的AI算力(可以近似理解成芯片),,是用來做推理計(jì)算(inference)的,。
全球范圍來看,在自動(dòng)駕駛領(lǐng)域的芯片巨頭依然是Nvidia,,官方是這么描述的:NVIDIA DRIVE Hyperion 是用于設(shè)計(jì)自動(dòng)駕駛汽車的完整開發(fā)平臺(tái)及參考架構(gòu),。此架構(gòu)通過集成基于 NVIDIA Orin 的 AI 計(jì)算與完整的傳感器套件,加速開發(fā),、測試和驗(yàn)證,。DRIVE Hyperion 擁有適用于自動(dòng)駕駛的完整軟件棧 ,以及可無線更新的駕駛員監(jiān)控和可視化功能 ,。這樣可在車輛的整個(gè)生命周期內(nèi)添加新的特性和功能,。其中,Orin正是專門為自動(dòng)駕駛推出的芯片,。在2021年,,Nvidia宣布將會(huì)在2023年推出替代產(chǎn)品Atlan。然而僅僅在一年之后,,大約在兩周前,,又宣布將會(huì)推出算力高達(dá)2000TOPS的Thor作為Orin的接任者。
處于同一梯隊(duì)的還有MobileEye,,其通過芯片+算法的打包方案,,成為 ADAS 時(shí)代的引領(lǐng)者,甚至制定了 ADAS 主要功能的標(biāo)準(zhǔn),。也正是因?yàn)槠湫袠I(yè)地位,,intel將其納入囊中,甚至允許其保持獨(dú)立運(yùn)作,,這在被intel收購的公司里鳳毛麟角,,為數(shù)不多的被intel收購還存活較久的公司之一。所推出的EyeQ 代系是其主打產(chǎn)品線,,曾幾何時(shí),,國內(nèi)的造車新勢力,蔚來和理想,,采用EyeQ4芯片還是其主打賣點(diǎn)之一,。
除了這兩家第一梯隊(duì)的芯片公司之外,國外的高通,、國內(nèi)的華為,,以及地平線和黑芝麻也都有產(chǎn)品推出,。地平線的征程系列、黑芝麻的華山系列,,據(jù)說已經(jīng)有整車在裝備,。
另一方面,,整車廠也在開始布局造芯,,國際的梅賽德斯-奔馳、大眾,,國內(nèi)的吉利,、蔚來,都在通過各種方式布局智能駕駛芯片,。
丨自動(dòng)駕駛芯片算力越強(qiáng)越好嗎,?應(yīng)該從哪些維度去看待自動(dòng)駕駛芯片?
對于普通讀者而言,,算力確實(shí)是一個(gè)看待自動(dòng)駕駛芯片的維度,,畢竟這是一顆芯片的物理性能上限。然而對于專業(yè)工作者來講,,正如前文討論云端芯片時(shí)所述,,一顆芯片想要體現(xiàn)出好的實(shí)用性能,光有算力是不夠的,。從使用場景來看,,對自動(dòng)駕駛場景與模型的運(yùn)行優(yōu)化、接口的豐富度,、計(jì)算任務(wù)的可擴(kuò)展性,,乃至對車廠算法模型的迭代易用性,這都是要考慮的因素,。隨著智能座艙需求進(jìn)一步豐富,,以及對新能源汽車對整車架構(gòu)的改變,對智能駕駛芯片所具備的功能與性能也提出了更新,、更高的要求,。近年,Nvidia逐步侵蝕Mobileye的市場與客戶,,可窺見個(gè)中緣由,。
丨智能汽車上,還會(huì)用到哪些芯片,?
當(dāng)前智能汽車,,本質(zhì)上還是一臺(tái)車,因此,,除了為實(shí)現(xiàn)智能而新引入的計(jì)算芯片,、通信,、存儲(chǔ)、傳感器與相關(guān)配套元器件之外,,傳統(tǒng)車上所需要的芯片,,大體都還在。如果這臺(tái)車還是新能源汽車,,那么,,還會(huì)增加電源管理類、功率器件類的芯片,。為了便于理解,,可以略作分類:
主控類:傳統(tǒng)汽車上的各分布式MCU(對車輛各功能進(jìn)行控制),智能駕駛的AI SoC類芯片(為實(shí)現(xiàn)輔助,、自動(dòng)駕駛提供支撐)和智能座艙下的SoC芯片,,都可以放入此大類中理解;汽車?yán)锩娴碾娮涌刂葡到y(tǒng),、信息娛樂系統(tǒng),、動(dòng)力總成系統(tǒng)、車輛運(yùn)動(dòng)系統(tǒng)等各種系統(tǒng)功能想要正常運(yùn)行的話,,均需要用到這類型的功能芯片才能得以實(shí)現(xiàn),,其中目前最流行的“自動(dòng)駕駛系統(tǒng)”也離不開功能芯片;(ECU(電子控制單元)和ESP(車身電子穩(wěn)定系統(tǒng))PB(駐車制動(dòng)器),、VCU(整車控制單元),、TCU(變速箱控制單元)。座艙內(nèi)的音,、視頻娛樂系統(tǒng),,從SoC,到各種DSP,、音頻處理與放大,,都屬于此類;
功率類:功率半導(dǎo)體主要運(yùn)用在汽車動(dòng)力控制系統(tǒng),、照明系統(tǒng),、燃油噴射、底盤安全等系統(tǒng)當(dāng)中,,其中傳統(tǒng)燃油車一般將它運(yùn)用在啟動(dòng)與發(fā)電,、安全等領(lǐng)域;新能源汽車則需要大量功率半導(dǎo)體來實(shí)現(xiàn)車輛頻繁的電壓變換需求,,此外電動(dòng)車的許多零部件中也少不了功率半導(dǎo)體的加持,。電動(dòng)汽車的核心零部件IGBT芯片就是一種功率半導(dǎo)體芯片;
傳感器類:用于對車輛各種狀態(tài)信息的采集,,如車速,、各種介質(zhì)的溫度,、發(fā)動(dòng)機(jī)運(yùn)轉(zhuǎn)工況、地面信息等,。傳統(tǒng)上例如氧傳感器,、胎壓傳感器、水溫傳感器,、電子油門踏板位置傳感器等等,,新能源車與智能車上,還包含圖像傳感器,、雷達(dá),、超聲,、聲音,、更加精密的動(dòng)作傳感等。隨著智能駕駛和智能座艙的逐步引入,,對傳感器的需求開始大幅度增加,,技術(shù)與功能上也要求更加豐富;
信號處理與通訊類:用于車內(nèi)各模塊,、車間甚至車與廣域網(wǎng)的信息傳輸與交互,,包含傳統(tǒng)上的CAN總線、USB總線與車載以太網(wǎng),,也包含現(xiàn)在V2X以及T-Box和娛樂系統(tǒng)等廣域網(wǎng)要求,。
存儲(chǔ)芯片與其他類:有SoC、CPU,、GPU這一類主控芯片的地方,,都需要DRAM、FLASH等存儲(chǔ)類芯片,,在汽車?yán)镆嗍侨绱?。尤其?dāng)智能要求越來越高,對存儲(chǔ)類芯片的規(guī)格,、種類與數(shù)量的要求也越來越高,。甚至在新能源汽車?yán)锏腂MS(電池管理系統(tǒng)),要對數(shù)據(jù)進(jìn)行高頻的讀寫,,這對存儲(chǔ)器的擦寫循環(huán)次數(shù),、速度和壽命都有著要求。
需要說明的是,,由于設(shè)計(jì)安全與環(huán)境問題,,車載芯片對于可靠性及安全性的要求也更高,對物理,、電氣性能有著更為嚴(yán)格的要求,,工作溫度范圍可寬至-40℃~155℃,,對高振動(dòng)、多粉塵,、電磁干擾等也有著明確的要求,。“車規(guī)級”芯片,、模塊需要經(jīng)過嚴(yán)苛的認(rèn)證流程,,包括可靠性標(biāo)準(zhǔn) AEC-Q100、質(zhì)量管理標(biāo)準(zhǔn)ISO/TS 16949,、功能安全標(biāo)準(zhǔn)ISO26262等,。
丨整車品牌下場造“芯”,具體造的是什么“芯”,?有什么戰(zhàn)略意義,?
正如前面所述,整車品牌也開始自主設(shè)計(jì)芯片,,比如奔馳,、大眾、蔚來,、吉利和小鵬,。在這些廠商中,主要還是從智能駕駛,、智能座艙,、新能源等新應(yīng)用需求出發(fā)而進(jìn)行設(shè)計(jì)的。一般來講,,設(shè)計(jì)的芯片或者是具備整合了進(jìn)行AI推理計(jì)算的NPU,、信號處理的DSP以及CPU的SoC芯片,或者是針對特定應(yīng)用的專用芯片(比如針對單模態(tài)/多模態(tài)AI處理的專用AI推理芯片),,或者是類似于IGBT這種核心功率器件,。
正如在第6問中所述,從產(chǎn)業(yè)價(jià)值鏈上尋找技術(shù)制高點(diǎn)來提高競爭力,,是整車廠的戰(zhàn)略目標(biāo),。在過去,傳統(tǒng)車企可以從提高能量轉(zhuǎn)換效率(發(fā)動(dòng)機(jī))來提高競爭力,,而今,,涉及到駕駛體驗(yàn)、智能化程度和安全駕駛的層面講,,芯片已經(jīng)是其中跨不過的坎兒,。舉個(gè)例子,MobilEye提供的是芯片+算法的整體黑盒子方案,,采用此方案的各家車廠都無法將自己在車輛實(shí)際行駛中獲得的知識(shí)(訓(xùn)練模型),,運(yùn)用到整車中,。這樣一來,就大大制約了各家車廠的差異化競爭,,而這也是近來紛紛轉(zhuǎn)到Nvidia方案的原因,。而從Tesla的案例中可以看到,特斯拉已經(jīng)不滿足于選用通用的計(jì)算平臺(tái),,而是要更加差異化,,和自身的算法、模型,、數(shù)據(jù)的豐富程度(整車市場占有率)深度結(jié)合,,不斷加強(qiáng)自身的競爭壁壘。
更何況,,還有供應(yīng)鏈安全(不僅由于地緣政治格局,,還有產(chǎn)業(yè)鏈競爭格局)的考慮。