近日,,馬斯克在推特上透露,,由于特斯拉V10.0系統(tǒng)和Smart Summon(智能召喚)功能已發(fā)布,,特斯拉全自動(dòng)駕駛系統(tǒng)(Full Self-Driving,F(xiàn)SD)的價(jià)格將于11月1日起上調(diào)1000美元,。
特斯拉的這顆芯片,,是一種特殊類型的 AI 處理器,可以支持人工神經(jīng)網(wǎng)絡(luò)(ANN),,也就是我們常聽到的機(jī)器學(xué)習(xí)(ML)或深度學(xué)習(xí)(DL),。
需要指出的是,特斯拉定制開發(fā)的這顆 AI 芯片并不意味著特斯拉在 AI 領(lǐng)域取得了反轉(zhuǎn)一切的能力,。至于全自動(dòng)駕駛在現(xiàn)實(shí)世界的解決方案,,特斯拉也只是剛剛?cè)腴T。
AI 芯片的背景
傳統(tǒng)的計(jì)算機(jī)需要 CPU(中央處理器)來執(zhí)行系統(tǒng)工作,,比如加載應(yīng)用程序,。除此之外,,大部分現(xiàn)代計(jì)算機(jī)還要有 GPU(圖形芯片)來支撐,它的工作是協(xié)助核心處理器完成圖形和動(dòng)畫的渲染,,讓用戶能在屏幕上獲取有效信息,。
在機(jī)器學(xué)習(xí)或深度學(xué)習(xí)上,除了 CPU,,GPU 的角色也突然重要了起來,。總得來說,,GPU 從配角變主角,,主要還是因?yàn)?ANN(人工神經(jīng)網(wǎng)絡(luò)) 是個(gè)龐大的數(shù)值和線性代數(shù)問題,而它就是為這樣的數(shù)字混合而生的,。
對(duì)開發(fā)者來說,,GPU 簡(jiǎn)直是上天的恩賜,誰也沒想到它能在 ML/DL 領(lǐng)域發(fā)揮如此巨大的功效,。GPU 的隱藏屬性「暴露」后,,芯片開發(fā)者們開始為潛在的市場(chǎng)擴(kuò)軍備戰(zhàn),就連 GPU 的設(shè)計(jì)都開始為 ML/DL 任務(wù)傾斜,。
在 FSD 芯片誕生前,,特斯拉一直是拿來主義者,它最早與 Mobileye 合作,,后又轉(zhuǎn)向英偉達(dá)?,F(xiàn)在,特斯拉則希望將命運(yùn)攥在自己手中,,用自研的這顆芯片為 Autopilot 撐起一片天地,。
在今年 4 月份的 Autonomy Day 大會(huì)上,特斯拉祭出了大殺器——FSD 芯片,。這背后傳達(dá)的信息很清晰:就是要用自行研發(fā)的技術(shù)替代現(xiàn)有的英偉達(dá)芯片,。
四個(gè)多月后,特斯拉工程師們又在 Hot Chips 大會(huì)(IEEE 主辦,,專注于高性能處理器)上對(duì)芯片的一些關(guān)鍵組件提供了更多的解析,。這次深度解析也讓外界對(duì)特斯拉的 FSD 芯片重燃興趣。
需要注意的是,,在大多數(shù)人眼里,,這種處理器可統(tǒng)稱為 AI 芯片。這樣叫也不為過,,但也別對(duì)它有太高的期待——AI 芯片目前還無法在預(yù)期領(lǐng)域?qū)崿F(xiàn)全知全能的人工智能,。
簡(jiǎn)單來理解的話,這些芯片根本沒有任何類人的推理或常識(shí)能力,,它只是能力暴增的數(shù)值計(jì)算設(shè)備罷了,。
3.0 硬件的秘密
特斯拉官方表示,,圖像數(shù)據(jù)處理的流程首先從攝像頭的高速數(shù)據(jù)傳輸開始——高速指的是25 億像素/秒,大概是往 21 塊 1080P 的全高清屏幕塞 60 幀畫面的程度,。這個(gè)數(shù)據(jù)傳輸速度比特斯拉車型現(xiàn)有的8顆攝像頭可以產(chǎn)生的數(shù)據(jù)量多了不止一個(gè)維度,。
如此高的傳輸速度現(xiàn)在還用不上——因?yàn)?FSD 芯片內(nèi)置的圖像處理器ISP最高「只能」處理 10 億像素的數(shù)據(jù)量,也就是 8 塊 1080P 屏幕每秒 60 幀的程度——這已經(jīng)追上現(xiàn)在世界上最快的消費(fèi)級(jí)圖像傳輸標(biāo)準(zhǔn) DisplayPort 1.4 了,,而車載芯片「?jìng)鹘y(tǒng)上」是要落后消費(fèi)級(jí)起碼一個(gè)時(shí)代的,。
圖像處理器 ISP 的作用主要是將攝像頭產(chǎn)生的原始 RGB 三原色數(shù)據(jù)轉(zhuǎn)化成復(fù)雜的圖像信息,這些信息的下一站是神經(jīng)處理單元 NPU,,NPU 會(huì)根據(jù)深度學(xué)習(xí)模型對(duì)圖像數(shù)據(jù)作出處理——但在此之前,,這些數(shù)據(jù)將會(huì)存儲(chǔ)在 SRAM 內(nèi)。
那什么是 SRAM,?
SRAM 一般被應(yīng)用在處理芯片的 1-3 級(jí)緩存上,,你可以簡(jiǎn)單地將它理解為比運(yùn)行內(nèi)存速度快很多,同時(shí)成本也高很多的存儲(chǔ)芯片,。有多快,?特斯拉芯片總工程師 Pete Bannon 表示,處理全自動(dòng)駕駛的緩存帶寬至少要達(dá)到 1TB/秒,,而 FSD 芯片的 SRAM 實(shí)際上能提供 2TB/秒的帶寬,。
那32MB 的緩存又是什么概念?做一個(gè)不是十分準(zhǔn)確但足夠形象的比較,,零售價(jià) 16999 元的英特爾酷睿 i9-9980XE,,SRAM 緩存總量也僅為33.75MB,。另一個(gè)細(xì)節(jié)是,,2010 年英特爾CPU的最大 SRAM 僅為16MB,2014 年也只是增長(zhǎng)到了 24MB,。
SRAM 的價(jià)格之高,,特斯拉 SRAM 規(guī)格之激進(jìn),相信大家也能管中窺豹——而 Pete Bannon 在發(fā)布會(huì)上也將巨大的 SRAM 容量總結(jié)為 FSD 芯片對(duì)比市場(chǎng)上同類芯片的最大的優(yōu)勢(shì),。
芯片內(nèi)部的所有數(shù)據(jù)都在淺藍(lán)色標(biāo)注的主通道上傳輸,,或者叫NOC(Network on Chip),然后才會(huì)經(jīng)過總帶寬為 68GB/s的LPDDR4 運(yùn)行內(nèi)存——所以特斯拉目前的傳感器數(shù)據(jù)產(chǎn)生量大概率不會(huì)超過 68GB/s,,甚至不會(huì)超過 34GB/s,,當(dāng)然這也已經(jīng)是一個(gè)很嚇人的數(shù)字了——但內(nèi)存帶寬可能還是自動(dòng)駕駛的瓶頸。
NPU 是 FSD 芯片里面的真正大殺器,。但總有一些其他方面的數(shù)據(jù)處理是NPU 無法完成的,,這時(shí)候就需要 CPU 和 GPU 共同參與。
FSD 芯片內(nèi)置了主頻為 1GHZ 的 GPU,,擁有 600TOPS 的運(yùn)算能力,。特斯拉的表述是 GPU 主要負(fù)責(zé)一些后處理的任務(wù),,比如說描繪人類能看得懂的界面和圖形——也就是說 2.X 時(shí)代特斯拉自動(dòng)駕駛硬件的 AB 面設(shè)計(jì)將會(huì)大概率被取消??偟膩碚f,,按照特斯拉在發(fā)布會(huì)上對(duì) GPU 的描述,以后的 FSD 芯片里面,,GPU 的地位將會(huì)被繼續(xù)削弱,。
除此之外,一些通用數(shù)據(jù)只能交給 CPU 處理,,特斯拉采用的是 12 個(gè) 64 位 ARM Cortex A72 內(nèi)核,,運(yùn)行頻率為 2.2GHZ——準(zhǔn)確點(diǎn)說應(yīng)該是三個(gè)四核 CPU 的并聯(lián)架構(gòu)。
特斯拉對(duì)于 CPU 架構(gòu)的選擇有點(diǎn)讓人摸不著頭腦,,因?yàn)?A72 是 ARM 在 2015 年推出的架構(gòu)(雖然 2016 年才正式商用),,往后可用的架構(gòu)包括 A73 和 A75(A76 和 A77 是 2018/2019 年發(fā)布的)。
不過考慮到 FSD 芯片的研發(fā)是從 2016 年開始的,,采用再前一年的架構(gòu)也很正常,。因?yàn)槔霞軜?gòu)更便宜,而多個(gè)核心疊加的方式也保證了多線程總性能不比如今頂級(jí)的 4 核心移動(dòng)端 CPU 弱,,甚至尤有勝之——硬件 3.0 的 CPU 性能是硬件 2.5 的 2.5 倍,。
馬斯克的勇氣
許多人對(duì)馬斯克的勇氣大加贊賞,認(rèn)為特斯拉敢走出這樣一條路確實(shí)值得尊敬,。
不過,,從商業(yè)角度來看,這樣的選擇明智嗎,?對(duì)于車主而言,,花大價(jià)錢選裝真的有那么多的實(shí)際意義嗎?
這是馬斯克的賭注,,也是完全自動(dòng)駕駛的賭注,。