《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 模擬設(shè)計(jì) > 業(yè)界動(dòng)態(tài) > 地平線追擊英偉達(dá),天工開(kāi)物“追“CUDA

地平線追擊英偉達(dá),,天工開(kāi)物“追“CUDA

2022-06-02
來(lái)源:電動(dòng)汽車觀察家

都是2023年,。

01080628358430.png

3月22日,英偉達(dá)宣布比亞迪將投產(chǎn)搭載DRIVE Orin計(jì)算平臺(tái)的汽車,。

一個(gè)月后,地平線宣布,,第三代產(chǎn)品征程5芯片首個(gè)定點(diǎn)合作,,花落比亞迪。

兩項(xiàng)合作的上車時(shí)間,,都是2023年,。

比亞迪并不是唯一一個(gè)同時(shí)部署英偉達(dá)和地平線的車企。理想在其爆款2021理想ONE上搭載了征程3以實(shí)現(xiàn)高速領(lǐng)航駕駛輔助能力,,而在最新的理想L9上則將使用英偉達(dá)Orin,。目前,,地平線芯片的定點(diǎn)企業(yè)達(dá)到60家,基本可以肯定,,其中也有英偉達(dá)的客戶,。

有評(píng)論認(rèn)為,這是因?yàn)榈仄骄€是國(guó)內(nèi)鮮有通過(guò)了車規(guī)級(jí)的大算力AI芯片,,而且更加便宜,,所以車企選擇其作為英偉達(dá)Orin的“平價(jià)替代”和供應(yīng)鏈安全B選項(xiàng)。

這一說(shuō)法并非全無(wú)道理,。

但2015年地平線成立時(shí),,英偉達(dá)的芯片已經(jīng)開(kāi)始準(zhǔn)備上車特斯拉。短短6年多時(shí)間里,,一個(gè)中國(guó)創(chuàng)業(yè)公司如何能夠與AI芯片王者進(jìn)入同一份采購(gòu)清單,?

更重要的是,在更遠(yuǎn)的未來(lái),,地平線將只是英偉達(dá)的“平替”,,還是將一路追趕,成為其在汽車AI芯片領(lǐng)域真正的對(duì)手,?

本文為大家奉上地平線和英偉達(dá)全方位的對(duì)比,,幫助您做出判斷。

01

邏輯:阿爾法狗會(huì)開(kāi)車嗎,?

如果說(shuō)起廣為人知的人工智能(AI),,阿爾法狗肯定算一號(hào)。

2016年,,谷歌圍棋人工智能“阿爾法狗”(AlphaGo Lee)以4:1的成績(jī),,戰(zhàn)勝世界冠軍數(shù)量排名第二的韓國(guó)棋手李世石。

圍棋的特性決定了其不適用窮舉法,,相比算力更考驗(yàn)棋手的“腦力”,,因此這場(chǎng)“人機(jī)大戰(zhàn)”成為人工智能史上一座里程碑:AI在某些領(lǐng)域能比人類更“聰明”。

但圍棋翹楚AlphaGo Lee能開(kāi)車嗎,?

答案恐怕是否定的,。定位為圍棋人工智能的阿爾法狗以進(jìn)行推理任務(wù)的決策算法為主,其所采用的神經(jīng)網(wǎng)絡(luò)類型也許并不能勝任視覺(jué)感知的任務(wù),;

為進(jìn)行比賽,,阿爾法狗所需算力高達(dá)約4416TOPS功耗高達(dá)10000W(DeepMind論文),100度電量的車也只能支撐10小時(shí)(紋絲不動(dòng)),,更別說(shuō)帶著衣柜大小的服務(wù)器,;

更重要的是,在比賽中,,阿爾法狗擁有共計(jì)兩個(gè)小時(shí)+180秒的“思考”時(shí)間,,而汽車一秒多想的時(shí)間都沒(méi)有,。

不能開(kāi)車的阿爾法狗顯示出了人工智能/神經(jīng)網(wǎng)絡(luò)在實(shí)際應(yīng)用中的苛刻要求:相比于人類智能的高通用性,人工智能在功能實(shí)現(xiàn)上,,與應(yīng)用場(chǎng)景,、AI算法模型、部署硬件情況息息相關(guān),。

正是這種高度相關(guān)性為地平線追趕英偉達(dá)提供了邏輯基礎(chǔ),。

1.1站在云端的英偉達(dá)

英偉達(dá)是第一個(gè)為AI創(chuàng)造出合適物理“大腦”的公司。

創(chuàng)立于1993年的英偉達(dá)在1999年發(fā)明了GPU(圖形處理器),。相比于CPU,GPU從架構(gòu)上算子的數(shù)量要遠(yuǎn)遠(yuǎn)多于Cache(緩存)和Control(控制器),,由此導(dǎo)致其只適用于計(jì)算密集與數(shù)據(jù)并行的運(yùn)算程序,。

所謂計(jì)算密集指:數(shù)值計(jì)算的比例要遠(yuǎn)大于內(nèi)存操作,因此內(nèi)存訪問(wèn)的延時(shí)可以被計(jì)算掩蓋,,對(duì)緩存的需求較低,;

數(shù)據(jù)并行則是說(shuō):大任務(wù)可以拆解為執(zhí)行相同指令的小任務(wù),因此對(duì)復(fù)雜流程控制的需求較低,。

AI機(jī)器學(xué)習(xí)正是這樣的“運(yùn)算程序”:將一個(gè)復(fù)雜問(wèn)題拆解為眾多的簡(jiǎn)單問(wèn)題,,一次性輸入海量用于計(jì)算的參數(shù)。對(duì)簡(jiǎn)單問(wèn)題解決的順序性要求不高,,最后輸出整體結(jié)果即可,。

而且對(duì)存儲(chǔ)和控制空間需求小,導(dǎo)致GPU更容易增加算子,,以此增加算力,,并在此后成為“大算力”的領(lǐng)軍企業(yè)。

但要高效運(yùn)行GPU的代碼極度困難,,程序員需要把相關(guān)運(yùn)算“黑進(jìn)”圖形API(應(yīng)用程序編程接口),,讓顯卡以為是在進(jìn)行圖像渲染計(jì)算,編程難度極高,。

直到2006年英偉達(dá)發(fā)布了CUDA?通用并行計(jì)算架構(gòu),,實(shí)現(xiàn)了軟硬解耦。開(kāi)發(fā)者不必再使用高難度的GPU專用開(kāi)發(fā)語(yǔ)言,,而能使用通用性的編程語(yǔ)言調(diào)用GPU算力,。

至此,GPU“破圖而出”,,成為通用并行數(shù)據(jù)處理超級(jí)加速器,。英偉達(dá)也由此站上了C位,成為AI時(shí)代的加速器,。

一方面,,搭載英偉達(dá) GPU 硬件的工作站,、服務(wù)器和云通過(guò)CUDA軟件系統(tǒng)以及開(kāi)發(fā)的CUDA-XAI 庫(kù),為AI領(lǐng)域的機(jī)器學(xué)習(xí),、深度學(xué)習(xí)所需的訓(xùn)練和推理提供軟件工具鏈,,來(lái)服務(wù)眾多的框架、云服務(wù)等等,,推動(dòng)了 AI 領(lǐng)域的迅速發(fā)展,。

另一方面,英偉達(dá)從此前單純的芯片制造商,,向人工智能平臺(tái)公司發(fā)展,,逐步將業(yè)務(wù)拓展到云端的AI加速、HPC(高性能計(jì)算機(jī)群)高性能計(jì)算,、AR/VR(增強(qiáng)/虛擬現(xiàn)實(shí)技術(shù))等領(lǐng)域,。

英偉達(dá)CEO黃仁勛也在CUDA生態(tài)積累14年后放言:“ 英偉達(dá)不是游戲公司,它將推動(dòng)下一個(gè)人工智能大爆炸”,。

但至少目前,,從業(yè)務(wù)結(jié)構(gòu)上英偉達(dá)還是一個(gè)中心化的云端數(shù)據(jù)中心和游戲公司。

5月26日,,英偉達(dá)發(fā)布2023財(cái)年Q1財(cái)報(bào)(截至2022年3月),,實(shí)現(xiàn)營(yíng)收82.9億美元,同比增長(zhǎng)46%,。其中,,由超大規(guī)模計(jì)算、云端和AI業(yè)務(wù)推動(dòng)的數(shù)據(jù)中心業(yè)務(wù)占比45.23%,;顯卡支撐的游戲業(yè)務(wù)占比43.67%,。

以云端數(shù)據(jù)中心業(yè)務(wù)為核心,英偉達(dá)的核心技術(shù)需要服務(wù)這一場(chǎng)景,。

但云端(服務(wù)器,、數(shù)字中心)和端側(cè)(手機(jī)、智能汽車等移動(dòng)端)場(chǎng)景中,, AI芯片的運(yùn)算方式有著本質(zhì)性的差別,。

·    首先,云端處理大批量一次性到達(dá)的累積數(shù)據(jù)(擴(kuò)大批處理量,,batch size),,車端芯片則需要處理流數(shù)據(jù),隨著行駛(時(shí)間)陸續(xù)到來(lái)的數(shù)據(jù),;

·    第二,,云端處理可以“等”數(shù)據(jù)“夠了”再開(kāi)始處理,車端則需要實(shí)時(shí)完成計(jì)算,盡可能得降低延遲,,更勿論幾秒鐘的“等待”,;

·    第三:在云端,任務(wù)本身是限定在虛擬世界,,無(wú)需考慮與現(xiàn)實(shí)世界的交互,。在車端則身處現(xiàn)實(shí)世界,每一個(gè)任務(wù)都需要考慮交互性,。

·    此外,,功耗和成本在車端AI芯片的考量中也占據(jù)更重的分量。

可見(jiàn),,云端AI芯片更側(cè)重于數(shù)據(jù)吞吐量和支持多種AI任務(wù)的要求,,車端的AI芯片則須保證很高的計(jì)算能效和實(shí)時(shí)性要求,能夠?qū)崿F(xiàn)端側(cè)推斷,,以及低功耗,、低延遲甚至低成本的要求。

但目前,,英偉達(dá)端側(cè)芯片的核心GPU架構(gòu)仍是云端架構(gòu)。

Orin誕生于Ampere(安培) 架構(gòu),,其正是一季度推動(dòng)英偉達(dá)數(shù)據(jù)中心業(yè)務(wù)增長(zhǎng)近9成的主力產(chǎn)品架構(gòu),。換而言之,面向高級(jí)別自動(dòng)駕駛場(chǎng)景的Orin,,其中的核心計(jì)算模塊技術(shù)對(duì)標(biāo)的是云端數(shù)據(jù)中心場(chǎng)景,。

英偉達(dá)的這一選擇無(wú)可厚非。架構(gòu)是芯片企業(yè)最底層的核心技術(shù),,迭代成本巨大,,也是為了產(chǎn)出更賺錢的產(chǎn)品。雖然汽車業(yè)務(wù)已成為英偉達(dá)圖形技術(shù)大會(huì)上的重要一節(jié),,但其創(chuàng)造的營(yíng)收目前仍是微不足道——占比2.1%(2022財(cái)年),。

1.2站在“端側(cè)”的地平線

而地平線目前的核心業(yè)務(wù)只有端側(cè)的汽車。

地平線的完整名為“地平線機(jī)器人”,,其創(chuàng)立設(shè)定的場(chǎng)景便是機(jī)器人這樣需要實(shí)時(shí)完成計(jì)算的端側(cè)場(chǎng)景,,其產(chǎn)品所有的軟硬件架構(gòu)都為端側(cè)的特殊需求設(shè)計(jì)。

但“機(jī)器人”此前更多存在于科幻電影當(dāng)中,,直到自動(dòng)駕駛使汽車成為機(jī)器人在現(xiàn)實(shí)世界中的第一個(gè)爆發(fā)點(diǎn),。

“單一”的業(yè)務(wù)結(jié)構(gòu)使地平線的技術(shù)能夠聚焦在“一種”需求上,而汽車智能化需求的爆發(fā)則為從智能/自動(dòng)駕駛場(chǎng)景出發(fā),,收斂AI任務(wù)范圍,,打造更貴、更具針對(duì)性的專用型芯片提供了規(guī)?;A(chǔ),,使其商業(yè)模型能夠成立,,從而吸引投資人和專業(yè)“選手”進(jìn)場(chǎng)。

“GPU這樣的通用芯片對(duì)于開(kāi)發(fā)者非常友好,,但不是商業(yè)化競(jìng)爭(zhēng)的最優(yōu)解,,” 一位芯片行業(yè)專家向《電動(dòng)汽車觀察家》表示:“地平線采用面向特定場(chǎng)景的軟硬結(jié)合方法論來(lái)設(shè)計(jì)芯片,也就是DSA(Domain Specific Architecture 特定領(lǐng)域架構(gòu))的芯片,,極大提升了芯片的有效算力,。”

軟硬解耦,,將圖形處理的專用芯片GPU變?yōu)檫m用于大規(guī)模并行計(jì)算的通用型芯片,,使英偉達(dá)站上AI時(shí)代的C位。

而地平線追趕英偉達(dá)的第一步,,是軟硬結(jié)合,。

地平線在公眾亮相中多次強(qiáng)調(diào)軟硬結(jié)合方法論核心——以終為始:

·    永遠(yuǎn)從系統(tǒng)的視角評(píng)價(jià)其中每個(gè)模塊(從AI模型、工具鏈,、開(kāi)發(fā)工具的全體系出發(fā),,看待芯片上每個(gè)細(xì)微空間的排布邏輯和利用效率);

·    永遠(yuǎn)用未來(lái)的預(yù)測(cè)來(lái)指導(dǎo)當(dāng)下每個(gè)選擇(針對(duì)自動(dòng)駕駛AI未來(lái)算法演進(jìn)趨勢(shì),,指導(dǎo)當(dāng)下的技術(shù)研發(fā)方向和取舍關(guān)系),。

地平線芯片開(kāi)發(fā)過(guò)程中的一個(gè)環(huán)節(jié)可以從一個(gè)側(cè)面展示軟硬結(jié)合的方法到底如何落地。

地平線有一個(gè)AI模型性能分析工具,。首先將選取包含了豐富的,、代表未來(lái)演進(jìn)趨勢(shì)的算法模型作為Testing Benchmark(測(cè)試基準(zhǔn))。將其在地平線BPU架構(gòu)的建模工具上進(jìn)行運(yùn)行,,測(cè)試這架構(gòu)對(duì)算法模型的運(yùn)算性能如何,,并基于這一測(cè)試基準(zhǔn),探索軟件層面的編譯器,、模型量化工具,、訓(xùn)練工具應(yīng)該怎么做。

由于芯片從設(shè)計(jì)到最終應(yīng)用有著二到三年的”時(shí)差“,,這樣的工作流程幫助地平線以軟性的算法趨勢(shì)指導(dǎo)硬件架構(gòu)設(shè)計(jì),,提前“適應(yīng)“未來(lái)。

“像地平線已經(jīng)達(dá)到百萬(wàn)芯片出貨量的征程二代和征程三代芯片里就有比較多的設(shè)計(jì),,在2016年,、2017年時(shí)已經(jīng)考慮到了相關(guān)一些算法的演進(jìn)趨勢(shì)?!暗仄骄€高級(jí)研發(fā)總監(jiān)凌坤表示,。

02

征程5對(duì)標(biāo)英偉達(dá)車端芯片性能情況

邏輯是一回事,技術(shù)實(shí)現(xiàn)往往是另一回事。地平線能夠拿到英偉達(dá)的客戶根本上還要看數(shù)據(jù),。

單片英偉達(dá)Orin和征程5的算力分別為256TOPS(每秒萬(wàn)億次計(jì)算)和128TOPS,,功率為55W和30W,功耗比分別為4.6TOPS/W和4.2TOPS/W,。

但如果以自動(dòng)駕駛AI在兩個(gè)平臺(tái)上每秒圖像幀率FPS進(jìn)行對(duì)比測(cè)試時(shí),,Orin為1001FPS,只有一半算力的征程5則實(shí)現(xiàn)了1283FPS(Orin數(shù)據(jù)為地平線基于同安培架構(gòu)的英偉達(dá)RTX3090進(jìn)行調(diào)整后測(cè)算得出),?!澳苄蟻?lái)看,我們(征程5相比Orin)有6倍多的提升,?!钡仄骄€BPU算法負(fù)責(zé)人羅恒表示。

在智能/自動(dòng)駕駛場(chǎng)景,,視覺(jué)仍是目前最核心的感知路線,,也是智能/自動(dòng)駕駛AI面臨的核心任務(wù):“我看到的是什么”。因此,,對(duì)于自動(dòng)駕駛所有應(yīng)用的計(jì)算平臺(tái)來(lái)說(shuō),,F(xiàn)PS被認(rèn)為是衡量先進(jìn)算法在計(jì)算平臺(tái)上運(yùn)行效率的評(píng)價(jià)標(biāo)準(zhǔn)之一。

2017年發(fā)布自研的FSD芯片時(shí),,特斯拉創(chuàng)始人馬斯克便以此前應(yīng)用的英偉達(dá)Drive PX2作比,,從算力來(lái)看FSD是Drive PX2的3倍,但在執(zhí)行自動(dòng)駕駛?cè)蝿?wù)時(shí),,其FPS是后者的21倍。

GPU的看家本領(lǐng)便是圖像識(shí)別,。為何GPU發(fā)明者英偉達(dá)的Orin會(huì)在測(cè)試中表現(xiàn)不及算力只有一半的地平線征程5,?部分核心原因在于安培(Ampere)架構(gòu)和貝葉斯(Bayes)架構(gòu)設(shè)計(jì)出發(fā)點(diǎn)的差異。

從物理世界來(lái)看,,芯片架構(gòu)就是在方寸之間(目前主流車規(guī)級(jí)量產(chǎn)芯片尺寸40nm-5nm)做文章:如何在有限的空間內(nèi)排布算子,、存儲(chǔ)器以及之間的通信線路,不同的計(jì)算需求將導(dǎo)致不同的陣列方式,。

2.1學(xué)霸英偉達(dá)

數(shù)據(jù)中心場(chǎng)景主要包括高性能計(jì)算(HCP)和深度學(xué)習(xí),,以此出發(fā)的芯片架構(gòu)要能夠支持各類AI模型任務(wù),在限定時(shí)間內(nèi)吞吐恒河沙數(shù)般的數(shù)據(jù)量,。如同被開(kāi)了金手指的學(xué)霸,,文史哲數(shù)理化通吃,一天能做三萬(wàn)張卷子,。

英偉達(dá)從帕斯卡到安培架構(gòu)都以高拓展性為核心目標(biāo):

·    支持盡可能多種類的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)以保證算法的正確率和泛化能力,;

·    支持能夠識(shí)別廣大數(shù)字范圍的浮點(diǎn)運(yùn)算,以保證巨大的數(shù)據(jù)吞吐量;

·    支持陣列式結(jié)構(gòu)以能夠連接更多的處理單元,,以進(jìn)一步加大可計(jì)算的數(shù)據(jù)規(guī)模,。

落地到硬件技術(shù)上,Tensor core(張量核)和cuda core(下稱CUDA核)并行,,以及從INT1到FP64的數(shù)據(jù)精度范圍等一系列革新技術(shù),,都以支持上述目標(biāo)為目的。

2017年,,英偉達(dá)Volta架構(gòu)亮相,,其以深度學(xué)習(xí)為核心的標(biāo)志便是推出了與CUDA核)并行的張量核)。

張量(Tensor)是一個(gè)數(shù)學(xué)概念,,指多維數(shù)組,,有0-5維,被看作是現(xiàn)代機(jī)器學(xué)習(xí)的基礎(chǔ),,是數(shù)據(jù)的容器,。

在早期以邏輯判斷模型為主的機(jī)器學(xué)習(xí)中,學(xué)習(xí)任務(wù)簡(jiǎn)單,,學(xué)習(xí)素材可被數(shù)據(jù)化為結(jié)構(gòu)化的二維圖表,。

但進(jìn)入神經(jīng)網(wǎng)絡(luò)模型的深度學(xué)習(xí)階段中,AI的任務(wù)不再是找出花束中的藍(lán)色花朵,,而是找出圖片庫(kù)中的貓,。教材變?yōu)榉墙Y(jié)構(gòu)化數(shù)據(jù),單一的圖像數(shù)據(jù)就需要三維張量來(lái)表示,,語(yǔ)音和視頻的維度則更高,。

配合多維張量設(shè)計(jì)的乘積累加運(yùn)算 Multiply Accumulate(MAC)計(jì)算陣列與神經(jīng)網(wǎng)絡(luò)模型的運(yùn)算模式高度匹配,成為AI芯片的核心算子類型,。

谷歌2015年推出了張量處理器(Tensor Processing Unit,,簡(jiǎn)稱TPU)。2017年英偉達(dá)在完全面向深度學(xué)習(xí)的Volta架構(gòu)上增加了MAC陣列,,直接命名為“張量核”,。

對(duì)從事數(shù)據(jù)中心、顯卡和車端等多種業(yè)務(wù)的英偉達(dá)來(lái)說(shuō),,CUDA核和張量核各有用處,。

CUDA核在每個(gè)GPU時(shí)鐘中最多可以執(zhí)行1個(gè)單精度乘法累加運(yùn)算,適用于參數(shù)一致的AI模型深度學(xué)習(xí)以及高精度的高性能計(jì)算,。

但對(duì)于AI模型來(lái)說(shuō),,模型參數(shù)的權(quán)重各有不同,如果全部對(duì)標(biāo)當(dāng)中的高精度進(jìn)行運(yùn)算,,則時(shí)間長(zhǎng)且內(nèi)存消耗大,;而如果都降維到低精度參數(shù),,則輸出的結(jié)果誤差較大。

張量核就可以做到混合精度:每1個(gè)GPU時(shí)鐘執(zhí)行1個(gè)矩陣乘法累加運(yùn)算,,輸入矩陣是 FB16,,乘法結(jié)果和累加器是FB32矩陣。

混合精度雖然在一定程度上犧牲了訓(xùn)練的精度,,但可以減少內(nèi)存的占用,,以及縮短模型的訓(xùn)練時(shí)間。

在擴(kuò)充適應(yīng)多樣計(jì)算需求的算子同時(shí),,英偉達(dá)也在不斷擴(kuò)充算子所能支持的浮點(diǎn)精度,。

CUDA核在最主流的FP32基礎(chǔ)上,先后增加了對(duì)FP64,、INT32 的計(jì)算能力,;張量核則可支持FP16、INT8/INT4/Binary,、TF32,、 BF16、 FP64等多種數(shù)據(jù)精度的支持,。

多樣化到什么程度,?

FP64具有完整的15–17位十進(jìn)制數(shù)字精度,多用于醫(yī)學(xué),、軍事等對(duì)精度要求極高的科學(xué)計(jì)算,,通常不用于深度學(xué)習(xí)計(jì)算。而TF32甚至成為英偉達(dá)GPU中的新數(shù)學(xué)模式,。

2.2偏才地平線

但這些高擴(kuò)展性和豐富性,,對(duì)自動(dòng)駕駛AI來(lái)說(shuō)是否是必要的?

2018年,,英偉達(dá)發(fā)布了采用Volta架構(gòu)GPU的Soc(系統(tǒng)級(jí)芯片)Xavier,,可執(zhí)行高級(jí)別自動(dòng)駕駛?cè)蝿?wù)。按照英偉達(dá)的定義,,XAVIER是專門為機(jī)器人和邊緣計(jì)算而設(shè)計(jì)的計(jì)算平臺(tái),,采用臺(tái)積電的12nm工藝,。

相比之下,,特斯拉FSD采用三星14nm工藝,且算力上Xavier只有FSD的一半,。但從面積上,,XAVIER卻比FSD要大一些。

背后便是應(yīng)用于云端場(chǎng)景的架構(gòu),,與完全對(duì)標(biāo)一個(gè)品牌需求的車端架構(gòu),,在芯片布局上的不同,。

直觀來(lái)看,Xavier集成的Volta GPU,,提供了512個(gè)CUDA核和64個(gè)張量核,。相比之下,F(xiàn)SD中負(fù)責(zé)通用浮點(diǎn)計(jì)算的GPU面積遠(yuǎn)小于其MAC陣列NPU,。

從需求出發(fā),,F(xiàn)SD芯片上只需運(yùn)行特斯拉的自動(dòng)駕駛AI,因此完全對(duì)標(biāo)深度學(xué)習(xí)需求的MAC陣列占據(jù)更多的片上位置,。

對(duì)Volta GPU來(lái)說(shuō),,端側(cè)以實(shí)時(shí)推理為第一要?jiǎng)?wù)的深度學(xué)習(xí)任務(wù)外,還需要考慮云端的訓(xùn)練和高性能計(jì)算等更多的任務(wù),,通用性計(jì)算與混合精度矩陣計(jì)算需求并重,,仍需在方寸之間為CUDA核留下不少的位置。

上述芯片專家向《電動(dòng)汽車觀察家》表示:“相比通用型架構(gòu),,自動(dòng)駕駛專用架構(gòu)在設(shè)計(jì)的時(shí)候會(huì)充分考慮到目標(biāo)應(yīng)用場(chǎng)景的特色,,采用更高效適用的計(jì)算核以及組合模式,從而實(shí)現(xiàn)計(jì)算效率的提升,,更好地滿足目標(biāo)應(yīng)用場(chǎng)景的計(jì)算需求,。”

圍繞提升MAC陣列的利用效率,,地平線自主研發(fā)的BPU(嵌入式人工智能處理器,,Brain Processing Unit,大腦處理器)架構(gòu)采用大規(guī)模異構(gòu)計(jì)算,、高靈活大并發(fā)數(shù)據(jù)橋和脈動(dòng)張量計(jì)算核三大核心技術(shù)打造適應(yīng)端側(cè)自動(dòng)駕駛需求的矩陣運(yùn)算,。

“英偉達(dá)和地平線的MAC陣列在具體的設(shè)計(jì)上有不少差異?!傲_恒向《電動(dòng)汽車觀察家》表示,,”從外部結(jié)果來(lái)看,貝葉斯主要面向batchsize=1,、DDR節(jié)省和對(duì)使用depthwise的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,,契合自動(dòng)駕駛場(chǎng)景特征和高能效比?!?/p>

batchsize是指神經(jīng)網(wǎng)絡(luò)一次批量處理的樣本數(shù)目,。一次批處理的樣本數(shù)目越多,那么就有潛在的更多并行計(jì)算/加速的可能,。在云端場(chǎng)景下,,有海量的數(shù)據(jù)需要處理,,GPU以及其他一些云端AI芯片在架構(gòu)設(shè)計(jì)上就會(huì)充分考慮batchsize大(一次批處理樣本多)的特性來(lái)設(shè)計(jì),從而提高硬件效率,。

自動(dòng)駕駛和其他一些端側(cè)場(chǎng)景,數(shù)據(jù)上按固定的時(shí)間依次到達(dá)的,比如攝像頭的幀率是30FPS,那么相當(dāng)于每隔33ms就會(huì)有一張圖達(dá)到,這時(shí)候就需要立即處理,,盡早搞明白周圍的狀況而對(duì)車輛做出必要的控制。

本質(zhì)上,,自動(dòng)駕駛面臨的就是一個(gè)batchsize=1的問(wèn)題(來(lái)一張圖就要馬上處理,,而不能多等幾張圖一起處理),特斯拉的FSD chip發(fā)布會(huì)也強(qiáng)調(diào)了其架構(gòu)設(shè)計(jì)面向batchsize=1優(yōu)化,。

DDR指雙倍速率同步動(dòng)態(tài)隨機(jī)存儲(chǔ)器,,是內(nèi)存的其中一種。在云端,,由于可以將大量的存儲(chǔ)單元相連,,內(nèi)存可被無(wú)限擴(kuò)大;

但在端側(cè),,內(nèi)存受芯片面積和計(jì)算單元“爭(zhēng)奪”的雙重限制變得有限又昂貴,,而且自動(dòng)駕駛一方面產(chǎn)生巨大數(shù)據(jù)量,一方面又不能因內(nèi)存不足而“卡住”,。因此通過(guò)硬件的設(shè)計(jì)排布和軟件的指令調(diào)度,,有效提升內(nèi)存中數(shù)據(jù)的重復(fù)使用率,節(jié)省內(nèi)存,,確保始終有內(nèi)存空間推動(dòng)計(jì)算執(zhí)行下去便非常重要,。

depthwise是卷積算子的一種特殊形式,使用其搭建的卷積神經(jīng)網(wǎng)絡(luò)具有最高的算法效率(達(dá)到同樣的算法精度,,所需計(jì)算量更少),。目前最強(qiáng)的卷積神經(jīng)網(wǎng)絡(luò)就是由大量的depthwise卷積構(gòu)成的。比如,,最新?lián)魯×薙win transformer的ConvNeXt,。

在針對(duì)自動(dòng)駕駛場(chǎng)景進(jìn)一步優(yōu)化自己的MAC陣列同時(shí),地平線還開(kāi)發(fā)了與英偉達(dá)CUDA核類似的向量加速單元,。

“我們這一代的向量加速單元是一個(gè)非常高效,、相對(duì)簡(jiǎn)單的(不支持浮點(diǎn)計(jì)算)面向向量(vector)的加速單元?!绷_恒向《電動(dòng)汽車觀察家》表示,,“這樣一個(gè)相對(duì)簡(jiǎn)單的向量加速單元的好處是功耗、面積上的經(jīng)濟(jì),。下一代貝葉斯我們會(huì)進(jìn)一步加強(qiáng)這個(gè)單元,?!?/p>

減少數(shù)據(jù)的吞吐量某種意義上意味著算力,,以換取功耗和芯片面積上的經(jīng)濟(jì),。做出算力和經(jīng)濟(jì)性之間的取舍決策,必須是對(duì)自動(dòng)駕駛場(chǎng)景和算法的深刻理解,。

技術(shù)革新背后,,是地平線BPU三代架構(gòu)以滿足端側(cè)自動(dòng)駕駛的加速需求為核心方向的不斷演進(jìn)。

其一:三代架構(gòu)持續(xù)優(yōu)化BPU IP的性能,、面積,、功耗,在性能/算力大幅提升的過(guò)程中,,保證了所需DDR帶寬只是溫和的增加,。

征程5(使用貝葉斯BPU)相對(duì)征程3(使用BPU伯努利2.0)FPS提升10~25倍(不同典型模型),帶寬增加不到2倍,,仍然有被動(dòng)散熱方案,。

其二:對(duì)性能、面積,、功耗和可編程性更好地折中考慮,。

BPU伯努利1.0、2.0主要以硬核方式(有限的可編程性)支持常見(jiàn)性能有需求的算子,;BPU貝葉斯更加系統(tǒng),、全面地考慮了性能和可編程性方面的需求,增加了靈活的,、可編程的向量加速單元,,但也包含了一些特定目標(biāo)(如,Warping,、Pooling,、Resize等)的硬核加速單元。結(jié)果是,,BPU貝葉斯更加通用,,開(kāi)發(fā)新的算子更為簡(jiǎn)單。

征程5目前在Swin(機(jī)器視覺(jué)最有代表的Transformer)上的FPS已經(jīng)為Xavier的3倍,。

“BPU伯努利1.0,、2.0到貝葉斯三代架構(gòu)都是以卷積神經(jīng)網(wǎng)絡(luò)加速為核心展開(kāi)的,也是業(yè)界極少數(shù)持續(xù)保持depthwise convolution(卷積神經(jīng)網(wǎng)絡(luò)三十年來(lái)計(jì)算架構(gòu)最大的算法改進(jìn))高效的加速器,?!绷_恒向《電動(dòng)汽車觀察家》表示。

對(duì)智能/自動(dòng)駕駛所需算法的持續(xù)追蹤,、設(shè)計(jì)自身的軟件算法,,使地平線對(duì)車用領(lǐng)域未來(lái)的軟件算法架構(gòu)有清晰、聚焦的判斷,。而且,,單一業(yè)務(wù)的地平線,,無(wú)需像英偉達(dá)一樣考慮多種業(yè)務(wù)結(jié)構(gòu)的技術(shù)方向和性能需求。

“輕裝上陣”賦予了地平線追趕英偉達(dá)的速度,。

征程3推出一年多之后,,地平線就推出了全新架構(gòu)的征程5。相比之下,,英偉達(dá)Xavier到Orin-X花了三年的時(shí)間,。

03

生態(tài):構(gòu)建自己的王牌

針對(duì)自動(dòng)駕駛場(chǎng)景算法和需求專門設(shè)計(jì)的專用芯片實(shí)現(xiàn)在效率上的更高效只是地平線追趕英偉達(dá)的第一步。更難的是構(gòu)建地平線自己好用的軟件體系,,以及能支撐持續(xù)演進(jìn)迭代的用戶生態(tài)——這正是英偉達(dá)的王牌所在,。

“歷史上,英偉達(dá)正是靠工具鏈登上了AI王座,,并建立了強(qiáng)大的生態(tài)護(hù)城河,。”地平線生態(tài)發(fā)展與戰(zhàn)略規(guī)劃副總裁李星宇向《電動(dòng)汽車觀察家》表示,,“地平線在成立之初就建立了工具鏈團(tuán)隊(duì),,那個(gè)時(shí)候我們有一種直覺(jué),未來(lái)工具鏈將成為我們與合作伙伴協(xié)同創(chuàng)新的基礎(chǔ),。

同時(shí),,整個(gè)行業(yè)正在演進(jìn)到數(shù)據(jù)驅(qū)動(dòng)的軟件2.0時(shí)代,地平線也提供端上的開(kāi)發(fā)工具,、以及在云端的訓(xùn)練,,包括數(shù)據(jù)管理以及仿真平臺(tái)等工具(AIDI 艾迪),與天工開(kāi)物形成完整的開(kāi)發(fā)平臺(tái),,加速面向智能駕駛,、智能交互、車內(nèi)娛樂(lè)應(yīng)用等各種各樣的解決方案開(kāi)發(fā),?!?/p>

3.1天工開(kāi)物“追“CUDA

如今,英偉達(dá)GPU成為云端人工智能加速的主流解決方案,。究其原因,,并非英特爾、高通,、ARM等芯片公司的算力不夠,,而是在軟件方案上缺乏如CUDA一般完整的編程工具鏈。

構(gòu)建完整,、完善,、好用的編程工具鏈需要長(zhǎng)時(shí)間和海量的資金投入和技術(shù)積累,而英偉達(dá)CUDA搶跑了十多年的時(shí)間。

早在2006年問(wèn)世之初,,英偉達(dá)就開(kāi)始對(duì)CUDA系統(tǒng)在AI領(lǐng)域進(jìn)行大力投入和推廣,。一方面在年?duì)I業(yè)額只有30億美元的情況下,每年投入5億美元的研發(fā)經(jīng)費(fèi)更新維護(hù)CUDA,;另一方面,為當(dāng)時(shí)美國(guó)大學(xué)及科研機(jī)構(gòu)免費(fèi)提供CUDA系統(tǒng)的使用,,使其迅速在AI及通用計(jì)算領(lǐng)域開(kāi)花結(jié)果,。

作為后來(lái)者,地平線的天工開(kāi)物目前顯然無(wú)法在完整性上與英偉達(dá)CUDA體系相比,,不過(guò)在針對(duì)AI和端側(cè)需求,,天工開(kāi)物已有不少亮眼的表現(xiàn)。

“地平線的工具鏈,,尤其是其中的模型轉(zhuǎn)換工具和編譯器,,可以自動(dòng)完成對(duì)模型的量化和編譯優(yōu)化,通過(guò)自動(dòng)化通用的算法,,將模型快速部署在芯片上,, 運(yùn)行效率高,精度損失小,?!绷_恒向《電動(dòng)汽車觀察家》表示。

AI模型不僅要在云端完成訓(xùn)練,,能夠輸出高精度的結(jié)果,,還需要被量化以部署應(yīng)用。

所謂模型量化是將浮點(diǎn)存儲(chǔ)(運(yùn)算)轉(zhuǎn)換為整型存儲(chǔ)(運(yùn)算)的模型壓縮技術(shù),。

模型在訓(xùn)練過(guò)程中會(huì)使用浮點(diǎn),,AI芯片在推理時(shí)為了面積功耗的節(jié)省通常使用8bit整型數(shù)計(jì)算。這樣浮點(diǎn)訓(xùn)練的模型需要進(jìn)行量化,,轉(zhuǎn)換到8bit整型來(lái)計(jì)算,。

量化,可使模型在運(yùn)行時(shí)存儲(chǔ)開(kāi)銷和帶寬需求更少,、更快的計(jì)算速度,、更低的能耗與占用面積,得以部署到限制更多,,對(duì)速度要求更快的端側(cè),。

但在量化過(guò)程中會(huì)產(chǎn)生數(shù)據(jù)溢出和精度不足舍入錯(cuò)誤。

對(duì)此,,2017年,,與張量核一道,英偉達(dá)推出了量化工具TensorRT,實(shí)現(xiàn)從模型獲得,,到模型優(yōu)化與編譯,,再到部署的全過(guò)程。地平線天工開(kāi)物也有類似的量化工具,,而且對(duì)比測(cè)試中,,地平線對(duì)輕量化/小型化AI模型的量化精度,要好于英偉達(dá)的TensorRT,。

因?yàn)門ensorRT要覆蓋云端,、端側(cè)等多個(gè)場(chǎng)景下的模型量化,而天工開(kāi)物則針對(duì)性更適宜部署在端側(cè)的模型——采用適用于視覺(jué)識(shí)別的卷積神經(jīng)網(wǎng)絡(luò),。

從2012年到2017年,,卷積神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)了快速發(fā)展,識(shí)別精度已經(jīng)非常高,,但“體積”也非常大,。2018年,AI模型訓(xùn)練的工作量相比五年前增長(zhǎng)了30萬(wàn)倍,,研究機(jī)構(gòu)使用的模型參數(shù)已達(dá)到萬(wàn)億級(jí),。

大模型帶來(lái)高性能的同時(shí),也導(dǎo)致在云端效率低,、評(píng)估成本高,,在端側(cè)難以部署的問(wèn)題。于是,,業(yè)界開(kāi)始尋求在同樣的精度下做“減法”:

其一,,對(duì)訓(xùn)練好的復(fù)雜模型通過(guò)知識(shí)蒸餾、通道剪枝,、低比特量化(浮點(diǎn)計(jì)算轉(zhuǎn)成低比特定點(diǎn)計(jì)算)等手段對(duì)模型進(jìn)行壓縮,,降低參數(shù)量和計(jì)算量。

英偉達(dá)2019年發(fā)布的安培架構(gòu)中的一大提升便是張量核增加了對(duì)模型部分參數(shù)為0時(shí)的稀疏矩陣計(jì)算的支持,。

其二:深度可分離卷積/深層卷積(depthwise separable convolution)代替普通的卷積,,形成小規(guī)模/輕量化模型,如SqueezeNet,、MobileNet,、ShuffleNet等。

但小模型在量化的過(guò)程中會(huì)出現(xiàn)精度損失的問(wèn)題,。對(duì)此,,地平線在2017年便就設(shè)計(jì)出了量化訓(xùn)練算法以解決Depthwise模型精度損失的問(wèn)題,并申請(qǐng)了專利,。而直到2019年,,谷歌才推出相應(yīng)的量化算法。

而且基于對(duì)算法的持續(xù)追蹤,地平線已經(jīng)標(biāo)定出了一個(gè)潛在的“終極答案”——2019年“減法”模型的集大成者EfficientNet,。地平線認(rèn)為其標(biāo)志著卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的演進(jìn)暫時(shí)進(jìn)入一個(gè)平緩發(fā)展的階段,。

EfficientNet能夠很好的平衡神經(jīng)網(wǎng)絡(luò)的深度、寬度和分辨率這三個(gè)核心維度,,通過(guò)一組固定的縮放系數(shù)統(tǒng)一縮放這三個(gè)維度,。

地平線對(duì)征程5和Xavier、Orin(估算)的FPS測(cè)試便是以EfficientNet為測(cè)試模型,。在上述測(cè)試中,,地平線較之英偉達(dá)量化精度更高的模型也是MobileNet、EfficientNet這樣的輕型/小型模型,。

目前,,地平線在工具鏈方面已經(jīng)支持了100多家的客戶,。

3.2艾迪“追”Drive

除了與芯片高度結(jié)合的工具鏈,,另一大軟件體系的競(jìng)爭(zhēng)是在與車用高度結(jié)合的開(kāi)發(fā)工具方面。

2017年自Xavier芯片開(kāi)始正式進(jìn)入智能/自動(dòng)駕駛端側(cè)場(chǎng)景之后,,英偉達(dá)立刻開(kāi)始著手完善加強(qiáng)端到端的自動(dòng)駕駛和車用功能解決方案:Drive系列,。

在英偉達(dá)統(tǒng)一的計(jì)算架構(gòu)(Xavier/Orin/Atlan)之上,建立了自動(dòng)駕駛家開(kāi)發(fā)平臺(tái)Drive Hyperion,,自動(dòng)駕駛模塊化軟件棧Drive SDK,,仿真平臺(tái)Drive Sim,和深度學(xué)習(xí)訓(xùn)練平臺(tái)Drive DGX四個(gè)產(chǎn)品,。

汽車客戶可在DGX上進(jìn)行自動(dòng)駕駛感知,、規(guī)劃、控制的模型訓(xùn)練和優(yōu)化,;在Sim的虛擬仿真環(huán)境中模型和算法的驗(yàn)證,;在Drive SDK的“軟件貨架”中挑選適合自己的軟件“組裝”功能和應(yīng)用;并利用Hyperion進(jìn)行數(shù)據(jù)采集和驗(yàn)證開(kāi)發(fā),。

Drive SDK包含中OS基礎(chǔ)軟件平臺(tái),、和向開(kāi)發(fā)者開(kāi)放的works中間件、AV /IX自動(dòng)駕駛/智能座艙軟件棧,。

開(kāi)發(fā)者可對(duì)調(diào)用,、組合、開(kāi)發(fā)抽象封裝在DriveWorks中的攝像頭,、毫米波雷達(dá),、激光雷達(dá)、GPS和IMU等傳感器功能,,針對(duì)自動(dòng)駕駛的典型使用場(chǎng)景和Corner Case場(chǎng)景開(kāi)發(fā)了多種豐富的神經(jīng)網(wǎng)絡(luò),,構(gòu)建計(jì)算密集型算法進(jìn)行物體檢測(cè)、地圖定位和路徑規(guī)劃。

而基于Drive AV/IX提供的基礎(chǔ)應(yīng)用功能,,開(kāi)發(fā)者可拆解,、組合出符合自身的新功能和產(chǎn)品能力。

與英偉達(dá)Drive相對(duì)的是地平線艾迪AI軟件產(chǎn)品開(kāi)發(fā)及迭代一站式工具平臺(tái),。其能夠?yàn)橹悄芷嘇I開(kāi)發(fā)者提供海量數(shù)據(jù)存儲(chǔ),、處理能力,半自動(dòng)化/自動(dòng)化標(biāo)注能力,,大規(guī)模分布式訓(xùn)練及模型管理能力和自動(dòng)化分析,、處理產(chǎn)品問(wèn)題等能力。

值得注意的是,,艾迪不僅面向地平線的芯片,,還可對(duì)接其它芯片,差別只在模型部署階段有所不同,。

“開(kāi)發(fā)者圍繞關(guān)鍵場(chǎng)景的問(wèn)題挖掘,,模型迭代全流程的自動(dòng)化,可以大幅改善算法的研發(fā)效率,,而且可以開(kāi)放的對(duì)接到各類的終端上面,。通過(guò)這種方式,大大提升了算法研發(fā)人員的研發(fā)效率,?!钡仄骄€高級(jí)研發(fā)總監(jiān)凌坤表示。

3.3開(kāi)放構(gòu)建地平線生態(tài)

在硬件高度服務(wù)于軟件,,開(kāi)發(fā)模式從過(guò)去的人工定義變?yōu)閿?shù)據(jù)驅(qū)動(dòng)的軟件2.0時(shí)代,。軟件體系是地平線最難追上英偉達(dá)的部分,卻也是要真正追上英偉達(dá)的必經(jīng)之路,。

體量小,、起步晚、還造著更貴,、受眾更窄的專用型AI芯片,,地平線要如何在講究生態(tài)體系建設(shè)的軟件領(lǐng)域追趕英偉達(dá)?

答案是比開(kāi)放的英偉達(dá)更開(kāi)放,。

一方面是覆蓋更廣泛的市場(chǎng)區(qū)間,。

地平線的芯片產(chǎn)品體系覆蓋從L2級(jí)到L4級(jí)的智能/自動(dòng)駕駛需求。征程2主要適配面向L2級(jí)的輔助駕駛領(lǐng)域,,征程3可適配面向L2+的高速領(lǐng)航輔助駕駛,,征程5可適配更具挑戰(zhàn)的復(fù)雜城區(qū)輔助駕駛。

而目前,,英偉達(dá)Xavier/Orin的落地大多是從高端車型的高速領(lǐng)航輔助駕駛開(kāi)始,,并且以城區(qū)駕駛輔助為短期目標(biāo)的,。

由此,雙方芯片的上車規(guī)模便產(chǎn)生了相當(dāng)?shù)牟罹唷?/p>

截止目前,,已公布搭載地平線征程芯片的有長(zhǎng)安UNI-T/K/V,、奇瑞螞蟻、廣汽埃安AION Y,、2021款理想ONE,、哪吒U·智等15款車型以上,當(dāng)中不乏月銷過(guò)萬(wàn)的爆款車型,?;诖耍仄骄€征程芯片出貨量已突破100萬(wàn)片,,與超過(guò)20家車企簽下了超過(guò)60款車型前裝量產(chǎn)項(xiàng)目定點(diǎn),。

相比之下,主力搭載英偉達(dá)Xavier的小鵬相關(guān)車型累計(jì)銷售12萬(wàn)輛左右,。

更多出貨量意味著更多的真實(shí)場(chǎng)景數(shù)據(jù)和應(yīng)用需求,,這是軟件系統(tǒng)體系不斷提升完善的根本“原料”?!拔覀儼芽蛻艨吹降膯?wèn)題,、想法,,在發(fā)揮創(chuàng)造性上面遇到的阻礙,,反過(guò)來(lái)幫助我們改進(jìn)和提升天工開(kāi)物工具鏈,這套千錘百煉的工具鏈就可以更好的提升效率,?!绷枥け硎尽?/p>

另一方面,,則是集眾人之力,,加大開(kāi)放深度和廣度。

“地平線提供了一種新的合作范式,,就是極致的開(kāi)放與共創(chuàng),,我們努力做的是與上下游的合作伙伴打造一個(gè)生態(tài)合作的熱帶雨林。我們相信:一個(gè)公司的價(jià)值在于他在創(chuàng)新生態(tài)里是否被需要,?!崩钚怯钕颉峨妱?dòng)汽車觀察家》表示。

英偉達(dá)基于自身的GPU開(kāi)發(fā)出系統(tǒng)級(jí)芯片(SOC),,并與CUDA操作系統(tǒng)強(qiáng)綁定,,業(yè)界在此基礎(chǔ)上開(kāi)發(fā)自動(dòng)駕駛的軟硬件系統(tǒng)。

地平線則在開(kāi)發(fā)完成BPU和其上的SOC之后,,將底層軟件通過(guò)開(kāi)源OS協(xié)同開(kāi)放的模式與整車企業(yè)共享,,使開(kāi)發(fā)者能夠深入操作系統(tǒng)底層,,高效地調(diào)用操作系統(tǒng)之下地各種資源。

地平線在去年發(fā)出倡議,,結(jié)合征程5芯片,,為智能汽車去打造一個(gè)開(kāi)放、開(kāi)源,、行業(yè)廣泛參與的操作系統(tǒng)——TogetherOS,。目前為止,地平線已與長(zhǎng)安,、長(zhǎng)城等多家國(guó)內(nèi)主機(jī)廠開(kāi)始聯(lián)合開(kāi)發(fā),。

今年,地平線創(chuàng)始人余凱又宣布不僅僅是開(kāi)源OS,,地平線將向部分整車廠開(kāi)放BPU IP授權(quán),。就此,地平線形成三類開(kāi)放共贏的商業(yè)模式:

·    一是提供BPU和SoC級(jí)別征程芯片以及操作系統(tǒng)OS,,幫助車企完成自動(dòng)駕駛軟硬件系統(tǒng)開(kāi)發(fā),;

·    二是提供BPU和SoC級(jí)別芯片,整車廠采用自研操作系統(tǒng)開(kāi)發(fā)自動(dòng)駕駛軟硬件系統(tǒng),;

·    三是提供BPU IP,,支持車企實(shí)現(xiàn)SoC自研并采用自研操作系統(tǒng)和自動(dòng)駕駛軟硬件系統(tǒng)實(shí)現(xiàn)整車開(kāi)發(fā)。

在此模式下,,整車開(kāi)發(fā)將實(shí)現(xiàn)從芯片到操作系統(tǒng),、再到自動(dòng)駕駛的軟硬件系統(tǒng)的高度協(xié)同,極大提升迭代速度,。

作為AI芯片和軟件工具的提供商,,底層開(kāi)發(fā)程度越高,意味著基于車企越多的自主性,,由此推動(dòng)其實(shí)現(xiàn)產(chǎn)品和功能的快速迭代——這正是當(dāng)前智能汽車競(jìng)爭(zhēng)的核心指標(biāo),。由此無(wú)疑將為地平線吸引來(lái)更多的客戶和合作方。

這是機(jī)會(huì),,但也是成本,。開(kāi)放度越高,也意味著開(kāi)放者為應(yīng)用者要提供的適配資源和成本更高,。

如Mobiveil首席執(zhí)行官Ravi Thummarukudy所說(shuō):“要將IP提供給市場(chǎng)需要成本,,一旦客戶取得授權(quán)并開(kāi)始將之整合到SoC,為該IP提供支持就會(huì)成為經(jīng)常性支出,?!?/p>

不只是IP,僅僅在征程5的上車過(guò)程中,,地平線為客戶提供的配套適配服務(wù)的深度和周到程度,,就是英偉達(dá)這樣的外資跨國(guó)多業(yè)務(wù)企業(yè)無(wú)法實(shí)現(xiàn)的,。

從推出CUDA算起,英偉達(dá)在AI領(lǐng)域已布局16年之久,,更是在2015年便開(kāi)始與特斯拉這樣的智能汽車領(lǐng)軍企業(yè)開(kāi)始合作,,其技術(shù)壁壘之高,生態(tài)護(hù)城河之廣,,都可以想象,。

如今,中國(guó)已經(jīng)成為全球智能汽車的角斗場(chǎng),。很幸運(yùn),,地平線以中國(guó)市場(chǎng)為起點(diǎn),開(kāi)始這場(chǎng)艱苦卓絕的追趕,。

地平線軟硬結(jié)合的技術(shù)路線+共創(chuàng)開(kāi)放的商業(yè)模式,,能否在多年之后創(chuàng)造出以小勝大,以弱勝?gòu)?qiáng)的“逆襲“故事,,只待時(shí)間給出答案,。




1最后文章空三行圖片11.jpg


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點(diǎn),。轉(zhuǎn)載的所有的文章、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容,、版權(quán)和其它問(wèn)題,,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118,;郵箱:[email protected],。