深度丨特斯拉自研芯片架構難度有多大？-AET-電子技術應用

深度丨特斯拉自研芯片架構難度有多大？

日期： 2022-09-02

來源：Ai芯天下

關鍵詞： 特斯拉自研芯片消費電子

前言：

不同于手機為代表的消費電子芯片，車規(guī)級芯片對使用壽命、安全性、可靠性、質量一致性等方面的要求更嚴苛。

從設計到流片成功，一切順利的話，才能量產前裝，整個過程大概需要3－5年，當初的特斯拉正是用了三年有余。

自研芯片最終的目標是追求可擴展性

目前，特斯拉正著眼于從頭開始構建相關系統，不過，它不僅僅是在研發(fā)自己的人工智能芯片，它還在研發(fā)一臺超級計算機。

在去年的AI Day上，特斯拉就已發(fā)布Dojo超級計算機，但當時其羽翼未豐，尚只有第一個芯片及訓練塊，公司仍在推動構建完整的Dojo Exapod。

而特斯拉也表示，理論上，Dojo ExaPod將是世界上最快的AI訓練超級計算機。

從本次研討會上Talpes的展示來看，每個Dojo ExaPod集成120個訓練模塊，內置3000個D1芯片，擁有超過100萬個訓練節(jié)點，算力達到1．1EFLOP＊（每秒千萬億次浮點運算）。

預計這臺定制的超級計算機將提高特斯拉使用視頻數據訓練神經網絡的能力，并對特斯拉自動駕駛功能至關重要。

想完成一系列構建需要自研芯片

使得Dojo完成訓練AI算法的重任，就是特斯拉自研神經網絡訓練芯片D1芯片。

但在去年特斯拉AIDay上推出的Dojo超級計算機，是基于特斯拉自研的D1芯片。

特斯拉D1芯片具備以下特點：

①2D Mesh架構；

②具備向量及矩陣計算加速單元的眾核架構；

③存算一體架構（近存計算）。

相比于業(yè)內其他芯片，同成本下性能提升4倍，同能耗下性能提高1．3倍，占用空間節(jié)省5倍。

每個DojoExaPod集成120個訓練模塊，內置3000個D1芯片，擁有超過100萬個訓練節(jié)點，算力達到1．1EFLOP＊（每秒千萬億次浮點運算）。

Dojo AI系統全自研自研專用指令集

所謂Dojo，是特斯拉自研的超級計算機，可利用海量視頻數據，完成［無人監(jiān)管］的標注和訓練。

本質上，Dojo由一個完全定制的架構構建，涵蓋了計算、網絡、輸入／輸出（I／O）芯片到指令集架構（ISA）、電源傳輸、包裝和冷卻。

通常，初創(chuàng)公司都希望為每個系統構建一個或幾個芯片的AI芯片。

顯然，特斯拉專注于更大的規(guī)模。

更令人興奮的是，它不僅使用商業(yè)上可用的系統，而且還在構建自己的芯片和系統。

特斯拉Dojo AI系統開發(fā)過程與車載系統類似，特斯拉自己雇傭了研究人員為其研發(fā)相關的芯片和系統。

Dojo AI系統采用分布式架構

特斯拉Dojo AI系統采用分布式架構，每個Dojo節(jié)點都有自己的CPU、內存和通信接口。

而每個節(jié)點都有1．25MB的SRAM，然后每個節(jié)點都連接到一個2D網格。

Dojo接口處理器位于2D網格的邊緣，它的每個訓練塊有11GB的SRAM和160GB的共享DRAM。

Dojo核心有一個整數單元，它從RISC－V架構中借用了一些指令，并且有一大堆特斯拉自己創(chuàng)建的附加指令。

Dojo指令集支持64位標量指令和64 BSIMD指令，它包括處理從本地內存到遠程內存?zhèn)鬏敂祿脑Z，并支持信號量和屏障約束。

這是使內存操作符合指令不僅在D1內核中運行，而且在D1內核的集合中運行。

每個Dojo節(jié)點都有一個內核，是一臺具有CPU專用內存和I／O接口的成熟計算機。

D1是一個超標量內核

D1意味著它在其內核中支持指令級并行性，就像當今大多數芯片一樣，它甚至具有多線程設計來驅動更多指令通過該內核。

D1處理器架構：每個D1處理器由18x20的D1核心構成。每個D1處理器中有354個D1核心可用。

出于良率和處理器核心穩(wěn)定考慮，D1處理器由臺積電制造，采用7nm制造工藝，擁有500億個晶體管，芯片面積為645mm?。

這個尺寸小于英偉達的A100（826mm?）和AMDArcturus（750mm?）。

但是每個核心都是一個完整的帶矩陣計算能力的CPU，其計算靈活性是遠超眾核架構的GPU的，這也會帶來極高的成本。

·D1核心結構：從18x20陣列中每個D1核心的結構上看，每個D1核心是帶有向量計算／矩陣計算能力的處理。

具有完整的取指、譯碼、執(zhí)行部件。處理器運行在2GHz，具有4個8x8x4矩陣乘法計算單元。

·D1處理器指令集：以RISC－V架構ISA為基礎進行擴展。

D1核心具備FP32和FP16這兩個標準的計算格式，同時還具備更適合Inference的BFP16格式。

為了達到混合精度計算提升性能的目的，D1還采用了用于較低精度和更高吞吐量的8位CFP8格式。

·D1訓練塊架構：每個D1訓練模塊由5x5的D1芯片陣列排布而成，以二維Mesh結構互連。

片上跨內核SRAM達到驚人的11GB，這也算是一個非常典型的近存計算架構了。當然耗電量也達到了15kW的驚人指標。

每個訓練模塊外部邊緣的40個I／O芯片達到了36TB／s的聚合帶寬，或者10TB／s的橫跨帶寬。

車企對芯片從未像如今這么高漲

自動駕駛汽車的制造商開始意識到，在復雜的世界中教汽車自動駕駛這種情況總是在變化，這將需要更多的超級計算。

一是因為全球持續(xù)了兩年的“芯片荒”讓主機廠對供應鏈安全的重視達到了前所未有的高度；

二是因為智能化是新能源競爭的必要條件，軟件定義汽車時代已經來臨。

作為第一個從Mobileye封閉商業(yè)模式中跳出來的車企，特斯拉最早2016年初就啟動了自動駕駛芯片研發(fā)項目，并于2019年正式在量產車上批量搭載。

在特斯拉的帶動下，頭部新勢力如蔚來、小鵬、理想紛紛跟進。

2021年相繼宣布了各自的自動駕駛芯片自研計劃，理想在三個月前甚至專門為此在綿陽成立了［理想智動］。

進入今年，自動駕駛芯片［凌芯01］也進入集成驗證階段，將在明年二季度進行實車測試。

結尾：

特斯拉在芯片和超算開發(fā)方面取得成就后，或將激勵更多的車企加入到芯片和超算研發(fā)上來，大力發(fā)展自主創(chuàng)新能力，提升企業(yè)競爭力。

部分資料參考：電子工程世界：《深度解讀特斯拉自研芯片架構》，《為自動駕駛「操碎了芯」，特斯拉Dojo超算架構細節(jié)首次公開》

更多信息可以來這里獲取==>>電子技術應用-AET<<

版權聲明：本站內容除特別聲明的原創(chuàng)文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：[email protected]。

深度丨特斯拉自研芯片架構難度有多大？

日期： 2022-09-02

來源：Ai芯天下

相關內容