《電子技術應用》
您所在的位置:首頁 > 模擬設計 > 業(yè)界動態(tài) > 特斯拉“芯”事:十問十答讀懂特斯拉為何要研發(fā)超級計算機Dojo

特斯拉“芯”事:十問十答讀懂特斯拉為何要研發(fā)超級計算機Dojo

2022-10-03
作者: J叔談芯
來源:騰訊科技

  編者按:在今年的特斯拉AI Day上,,Dojo再次吸引了眼球,特斯拉宣布即將在2023年推出算力更強的ExaPOD(Dojo機柜),。早在2019年的Autonomous Day上,,馬斯克就提到過Dojo,,稱Dojo是“能夠利用海量視頻數(shù)據(jù),做無人監(jiān)管標注和訓練的超級計算機”,。超級計算機是什么?如此受到特斯拉重視的Dojo究竟有多么重要的戰(zhàn)略意義,?AI芯片的性能,,只和算力強弱有關嗎?

  騰訊科技新產(chǎn)研·芯片系列通過產(chǎn)業(yè)鏈,、投資研發(fā),、生產(chǎn)制造、人才培養(yǎng)和政策法規(guī)等不同角度切入,,真實,、客觀、全面的反映行業(yè)的現(xiàn)狀,。本期為系列策劃第12期,,特邀請芯片行業(yè)從業(yè)15年的行業(yè)老兵J叔,通過十問十答帶你讀懂特斯拉Dojo,。

  丨劃重點

  ●Dojo是一臺專門用于AI訓練計算的超級計算機,,據(jù)Dojo項目負責人介紹,特斯拉Dojo是史上最快的AI訓練計算機,。

  ●特斯拉自研神經(jīng)網(wǎng)絡訓練芯片——D1芯片,,擔當著Dojo完成AI模型訓練的重任,相比于業(yè)內(nèi)其他芯片,,據(jù)特斯拉稱,,同成本下性能提升4倍,同能耗下性能提高1.3倍,,占用空間節(jié)省5倍,。

  ●過去,特斯拉依靠Nvidia的GPU構建AI訓練機,。研發(fā)D1芯片和Dojo,,特斯拉可以針對性地基于自身需求定制專用的AI芯片架構,,進而讓算法模型與AI芯片架構匹配優(yōu)化。從競爭戰(zhàn)略上來講,,造芯使得特斯拉從產(chǎn)業(yè)價值鏈上,,尋找技術制高點,并最終達到差異化競爭,。

  ●算力是一顆芯片的物理性能上限,,但是一顆芯片想要體現(xiàn)出好的實用性能,光有算力是不夠的,。從特斯拉的使用場景來看,,對自動駕駛場景與模型的優(yōu)化、接口的豐富度,、計算任務的可擴展性,,乃至對車廠算法模型的迭代易用性,這都是要考慮的因素,。

  正文:

  丨特斯拉Dojo是什么,?

  首先,需要簡單了解一下人工智能,。

  人工智能(AI)在邏輯上可以認為是一種計算系統(tǒng),,分為訓練和推理兩種計算。簡單來理解,,如果將智能當做技能集合的話,,每一種技能叫做一個 AI模型,學習技能的過程就是訓練一個模型,,利用技能來處理事情的過程就是用模型進行推理,。

  打個比方,如果把一個人工智能模型比喻為一個工程師,,想要工程師能夠投入工作,,必須要有一個培訓中心對他進行訓練。那超級計算機,,就相當于這個培訓中心,。

  不論是訓練計算還是推理計算,都需要在大型的服務器或者超級計算機中進行,。以訓練為例,,通常來講,工程師會先構建大型服務器集群,,然后將含有AI芯片的計算卡置于每一臺服務器之中,,通過網(wǎng)絡把這些服務器整合起來,形成訓練集群,。比如NVidia GPU服務器集群,,google TPU集群等,。或者,,也可以將這些計算芯片,,整合在一臺大型“計算機”中,這就是超級計算機,。

  Dojo就是一臺專門用于AI訓練計算的超級計算機,。特斯拉的智能駕駛(包含一定程度的自動駕駛),需要不斷地從在跑的數(shù)百萬輛汽車所采集到的現(xiàn)實世界數(shù)據(jù)中進行訓練,,提高智能程度,。在過去,特斯拉也是依靠Nvidia的GPU構建訓練機,。隨著自研 AI 訓練芯片 D1的研發(fā)成功,,基于D1芯片的超級計算機也就應運而生了。

  丨特斯拉D1芯片是什么,?

  D1是特斯拉自主研發(fā)的AI訓練芯片,,類似于Nvidia的A100和H100所起的作用。

  為了理解D1“芯片”,,我們這次暫時跳出通常我們?nèi)庋劭梢姷暮谏綁K,,或者被金屬固件和基板封裝好的樣子,,按照特斯拉自己定義的一些概念,,來逐步理解這顆特殊的芯片。在這個過程中,,要克服當前中文互聯(lián)網(wǎng)上不同的翻譯(甚至有些是機器翻譯的痕跡)和英文專有名詞造成的困擾,。

  一般來說,一顆芯片的誕生,,是從Wafer上切割下來,,成為Die,經(jīng)過封裝,、測試,,成為一顆可用的芯片。而這次特斯拉使用了一種所謂的System On Wafer的方式,,也就是說,,他并沒有將每一顆Die切割進行獨立封裝,而是將25個D1的Die的Wafer,,散熱部件,、功率器件、電源與控制等,,一起形成一個Tile,,這個Tile大約是1平方英尺的大小,。

  就芯片角度講,基于354個功能單元(訓練節(jié)點)形成一個D1芯片核心,,具體參數(shù)如下圖:

  微信截圖_20221003090905.png

  基于25個D1芯片核心和40個輸入輸出Die和其他部件,,形成一個訓練Tile,如圖中Compute Plane指的就是5×5個D1核心:

  微信截圖_20221003090926.png

  從外觀上人們可以看到的,,正是這個Tile,,在中文互聯(lián)網(wǎng)中被翻譯成,瓦片,,大約長這個樣子:

  微信截圖_20221003090945.png

  丨D1芯片和Dojo的關系是什么,?

  Dojo,是通過組合Tile(由D1芯片組成)作為主要計算單元,,整合了CPU,、存儲、通訊接口,、電源等模塊的超級計算機,。

  上文提到,25個D1為基礎形成一個Tile,,進一步,,12個Tile為基礎組成一個Rack,最后,,10個Rack,,被整合成一個ExaPOD,這在中文互聯(lián)網(wǎng)上被稱為Dojo ExaPOD集群,。據(jù)Tesla稱,,與業(yè)內(nèi)其它產(chǎn)品相比,同成本下它的性能提升 4 倍,,同能耗下性能提高 1.3 倍,,占用空間節(jié)省 5 倍。

  業(yè)界一般會有兩種方式來設計面向任務的計算架構:1)服務器集群,;2)超級計算機,。曾經(jīng)要進行大型的計算任務,只能靠大型計算機,,算力提升難度和建造成本都很高,。而隨著計算任務的多樣化,人們發(fā)現(xiàn),,一部分的計算任務可以將許多計算機通過網(wǎng)絡連起來,,每臺計算機的升級難度和造價都很低,這就進化出了服務器集群。當前商業(yè)上大部分的IT設施,,都是基于這種方式搭建的,。主流互聯(lián)網(wǎng)公司的數(shù)據(jù)中心,不僅在承擔著通用的信息處理和計算任務,,也進行著人工智能的訓練和推理任務,,因此,非常多的公司和數(shù)據(jù)中心,,都在以Nvidia的訓練芯片V100和A100,,來構建訓練服務器集群。

  另一方面,,在許多進行繁重的科學計算的領域,,依然保持著使用大型計算機的習慣,并且由于GPU在浮點運算的特長,,也有許多機構基于GPU來構建超級計算機,。這樣的超級計算機,不僅可以進行AI的訓練與推理計算任務,,也可以承擔類似于求解天氣預報,、導彈彈道與衛(wèi)星軌道計算、天體運動探索等科學計算任務,。

  Dojo,,就是專門針對于AI訓練(尤其是針對于廣義的視覺模型訓練)的超級計算機。

  丨Dojo的算力有多強,?如何計算Dojo的算力,?

  Dojo ExaPoD集群由120個Training Tile,3000個D1芯片構成,。而每塊D1芯片的算力是362 TFLOPs(BF16/CFP8)或者22.6 TFLOPs(FP32),。所以Dojo集群的總算力在BF16/CFP8下是:3000 x 362 TFLOPs ≈ 1.1 EFLOPs,,在FP32下是:3000 x 22.6 TFLOPs ≈ 67.8 PFLOPs,。

  這里需要解釋的是,算力需要基于什么樣的數(shù)據(jù)表達方式下來衡量,。所謂數(shù)據(jù)表達方式,,指的是在計算機中,用以表達或近似表達任意實數(shù)的方式,,比如在這里提到的BF16和FP32,,指的就是浮點數(shù),與此對應的還有定點數(shù)(INT),。正如當我們來描述手部力量有多大的時候,,需要指出是雙手還是單手力量。

  丨與特斯拉D1芯片類似的現(xiàn)存芯片有哪些?

  通過上面的分析,,可以知道D1芯片的主要功能和特征,。傳統(tǒng)來說,云端訓練芯片是Nvidia的領域,,甚至可以說是絕對壟斷的地位,,先后推出了諸如V100、A100和H100的系列產(chǎn)品,,也有官方在售的訓練服務器和集群產(chǎn)品,。除此之外,AMD,、Graphcore,、以及華為也有云端訓練芯片,甚至intel這位通用計算的大佬,,也通過收購整合Habana推出了針對AI訓練和推理的專用芯片,。

  丨自研芯片對特斯拉的戰(zhàn)略意義是什么?

  剛剛過去的AI Day上,,特斯拉Dojo團隊的重要成員這樣說:“從本質(zhì)上來講,,特斯拉是一家硬核科技公司,超算是我們想做的,,我們有那么多數(shù)據(jù)需要進行相應的訓練就需要有非常強的算力,,算力是非常重要的,可以說算力是訓練的根本,,如果沒有算力,,那訓練就是非常難執(zhí)行的,或者訓練效率非常低,?!?/p>

  正如前文所提,特斯拉的智能駕駛(包含一定程度的自動駕駛),,需要不斷地從數(shù)百萬輛汽車所采集到的現(xiàn)實世界數(shù)據(jù)中不斷學習(訓練模型),,提高智能程度。在過去,,特斯拉主要是依靠Nvidia的GPU構建訓練集群和超級計算機,。然而,考慮到特斯拉主要的場景,,主要是對視覺信號進行處理(訓練和推理),,因此,針對性地基于視覺信號訂制專用的AI芯片架構,,可以將算法模型與AI芯片架構匹配優(yōu)化,,不僅使得其可以更高效地處理信息,還可以在能源消耗、集群成本和客制化需求上符合特斯拉自身的利益訴求,。

  而另一方面,,當傳統(tǒng)車企和造車新勢力都進入市場進行競爭時,從產(chǎn)業(yè)價值鏈上尋找技術制高點并最終達到差異化競爭,,就會是必經(jīng)之路,。從這個角度出發(fā),芯片,、電池與新材料技術,、新基礎建設等,就會是兵家必爭之地,。大家也可以看到,,特斯拉在這幾個方向上都有布局和不錯的成果。

  丨目前市場上有哪些自動駕駛芯片,?

  既然說到特斯拉造芯,,那就不得不提當前業(yè)內(nèi)如火如荼的自動駕駛芯片。也正如前述,,在車上所用到的AI算力(可以近似理解成芯片),,是用來做推理計算(inference)的。

  全球范圍來看,,在自動駕駛領域的芯片巨頭依然是Nvidia,,官方是這么描述的:NVIDIA DRIVE Hyperion 是用于設計自動駕駛汽車的完整開發(fā)平臺及參考架構。此架構通過集成基于 NVIDIA Orin 的 AI 計算與完整的傳感器套件,,加速開發(fā),、測試和驗證。DRIVE Hyperion 擁有適用于自動駕駛的完整軟件棧 ,,以及可無線更新的駕駛員監(jiān)控和可視化功能 ,。這樣可在車輛的整個生命周期內(nèi)添加新的特性和功能。其中,,Orin正是專門為自動駕駛推出的芯片,。在2021年,Nvidia宣布將會在2023年推出替代產(chǎn)品Atlan,。然而僅僅在一年之后,,大約在兩周前,,又宣布將會推出算力高達2000TOPS的Thor作為Orin的接任者,。

  處于同一梯隊的還有MobileEye,其通過芯片+算法的打包方案,,成為 ADAS 時代的引領者,,甚至制定了 ADAS 主要功能的標準。也正是因為其行業(yè)地位,intel將其納入囊中,,甚至允許其保持獨立運作,,這在被intel收購的公司里鳳毛麟角,為數(shù)不多的被intel收購還存活較久的公司之一,。所推出的EyeQ 代系是其主打產(chǎn)品線,,曾幾何時,國內(nèi)的造車新勢力,,蔚來和理想,,采用EyeQ4芯片還是其主打賣點之一。

  除了這兩家第一梯隊的芯片公司之外,,國外的高通,、國內(nèi)的華為,以及地平線和黑芝麻也都有產(chǎn)品推出,。地平線的征程系列,、黑芝麻的華山系列,據(jù)說已經(jīng)有整車在裝備,。

  另一方面,,整車廠也在開始布局造芯,國際的梅賽德斯-奔馳,、大眾,,國內(nèi)的吉利、蔚來,,都在通過各種方式布局智能駕駛芯片,。

  丨自動駕駛芯片算力越強越好嗎?應該從哪些維度去看待自動駕駛芯片,?

  對于普通讀者而言,,算力確實是一個看待自動駕駛芯片的維度,畢竟這是一顆芯片的物理性能上限,。然而對于專業(yè)工作者來講,,正如前文討論云端芯片時所述,一顆芯片想要體現(xiàn)出好的實用性能,,光有算力是不夠的,。從使用場景來看,對自動駕駛場景與模型的運行優(yōu)化,、接口的豐富度,、計算任務的可擴展性,乃至對車廠算法模型的迭代易用性,,這都是要考慮的因素,。隨著智能座艙需求進一步豐富,,以及對新能源汽車對整車架構的改變,對智能駕駛芯片所具備的功能與性能也提出了更新,、更高的要求,。近年,Nvidia逐步侵蝕Mobileye的市場與客戶,,可窺見個中緣由,。

  丨智能汽車上,還會用到哪些芯片,?

  當前智能汽車,,本質(zhì)上還是一臺車,因此,,除了為實現(xiàn)智能而新引入的計算芯片,、通信、存儲,、傳感器與相關配套元器件之外,,傳統(tǒng)車上所需要的芯片,大體都還在,。如果這臺車還是新能源汽車,,那么,還會增加電源管理類,、功率器件類的芯片,。為了便于理解,可以略作分類:

  主控類:傳統(tǒng)汽車上的各分布式MCU(對車輛各功能進行控制),,智能駕駛的AI SoC類芯片(為實現(xiàn)輔助,、自動駕駛提供支撐)和智能座艙下的SoC芯片,都可以放入此大類中理解,;汽車里面的電子控制系統(tǒng),、信息娛樂系統(tǒng)、動力總成系統(tǒng),、車輛運動系統(tǒng)等各種系統(tǒng)功能想要正常運行的話,,均需要用到這類型的功能芯片才能得以實現(xiàn),其中目前最流行的“自動駕駛系統(tǒng)”也離不開功能芯片,;(ECU(電子控制單元)和ESP(車身電子穩(wěn)定系統(tǒng))PB(駐車制動器),、VCU(整車控制單元)、TCU(變速箱控制單元),。座艙內(nèi)的音,、視頻娛樂系統(tǒng),從SoC,,到各種DSP,、音頻處理與放大,,都屬于此類,;

  功率類:功率半導體主要運用在汽車動力控制系統(tǒng),、照明系統(tǒng)、燃油噴射,、底盤安全等系統(tǒng)當中,,其中傳統(tǒng)燃油車一般將它運用在啟動與發(fā)電、安全等領域,;新能源汽車則需要大量功率半導體來實現(xiàn)車輛頻繁的電壓變換需求,,此外電動車的許多零部件中也少不了功率半導體的加持。電動汽車的核心零部件IGBT芯片就是一種功率半導體芯片,;

  傳感器類:用于對車輛各種狀態(tài)信息的采集,,如車速、各種介質(zhì)的溫度,、發(fā)動機運轉工況,、地面信息等。傳統(tǒng)上例如氧傳感器,、胎壓傳感器,、水溫傳感器、電子油門踏板位置傳感器等等,,新能源車與智能車上,,還包含圖像傳感器、雷達,、超聲,、聲音、更加精密的動作傳感等,。隨著智能駕駛和智能座艙的逐步引入,,對傳感器的需求開始大幅度增加,技術與功能上也要求更加豐富,;

  信號處理與通訊類:用于車內(nèi)各模塊,、車間甚至車與廣域網(wǎng)的信息傳輸與交互,包含傳統(tǒng)上的CAN總線,、USB總線與車載以太網(wǎng),,也包含現(xiàn)在V2X以及T-Box和娛樂系統(tǒng)等廣域網(wǎng)要求。

  存儲芯片與其他類:有SoC,、CPU,、GPU這一類主控芯片的地方,都需要DRAM,、FLASH等存儲類芯片,,在汽車里亦是如此,。尤其當智能要求越來越高,對存儲類芯片的規(guī)格,、種類與數(shù)量的要求也越來越高,。甚至在新能源汽車里的BMS(電池管理系統(tǒng)),要對數(shù)據(jù)進行高頻的讀寫,,這對存儲器的擦寫循環(huán)次數(shù),、速度和壽命都有著要求。

  需要說明的是,,由于設計安全與環(huán)境問題,,車載芯片對于可靠性及安全性的要求也更高,對物理,、電氣性能有著更為嚴格的要求,,工作溫度范圍可寬至-40℃~155℃,對高振動,、多粉塵,、電磁干擾等也有著明確的要求?!败囈?guī)級”芯片,、模塊需要經(jīng)過嚴苛的認證流程,包括可靠性標準 AEC-Q100,、質(zhì)量管理標準ISO/TS 16949,、功能安全標準ISO26262等。

  丨整車品牌下場造“芯”,,具體造的是什么“芯”,?有什么戰(zhàn)略意義?

  正如前面所述,,整車品牌也開始自主設計芯片,,比如奔馳、大眾,、蔚來,、吉利和小鵬。在這些廠商中,,主要還是從智能駕駛,、智能座艙、新能源等新應用需求出發(fā)而進行設計的,。一般來講,,設計的芯片或者是具備整合了進行AI推理計算的NPU、信號處理的DSP以及CPU的SoC芯片,,或者是針對特定應用的專用芯片(比如針對單模態(tài)/多模態(tài)AI處理的專用AI推理芯片),,或者是類似于IGBT這種核心功率器件,。

  正如在第6問中所述,從產(chǎn)業(yè)價值鏈上尋找技術制高點來提高競爭力,,是整車廠的戰(zhàn)略目標,。在過去,傳統(tǒng)車企可以從提高能量轉換效率(發(fā)動機)來提高競爭力,,而今,,涉及到駕駛體驗,、智能化程度和安全駕駛的層面講,,芯片已經(jīng)是其中跨不過的坎兒。舉個例子,,MobilEye提供的是芯片+算法的整體黑盒子方案,,采用此方案的各家車廠都無法將自己在車輛實際行駛中獲得的知識(訓練模型),運用到整車中,。這樣一來,,就大大制約了各家車廠的差異化競爭,而這也是近來紛紛轉到Nvidia方案的原因,。而從Tesla的案例中可以看到,,特斯拉已經(jīng)不滿足于選用通用的計算平臺,而是要更加差異化,,和自身的算法,、模型、數(shù)據(jù)的豐富程度(整車市場占有率)深度結合,,不斷加強自身的競爭壁壘,。

  更何況,還有供應鏈安全(不僅由于地緣政治格局,,還有產(chǎn)業(yè)鏈競爭格局)的考慮,。

  

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點,。轉載的所有的文章、圖片,、音/視頻文件等資料的版權歸版權所有權人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者。如涉及作品內(nèi)容,、版權和其它問題,,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118,;郵箱:aet@chinaaet.com。