不管是產(chǎn)品定義,、產(chǎn)品命名,還是下一階段的發(fā)展方向,,都是特斯拉在引領全球車企和自動駕駛公司發(fā)展。
特斯拉自動駕駛系統(tǒng)的優(yōu)異表現(xiàn)是算法的勝利,,但算法背后,,算力同樣重要。
這方面特斯拉實際上是掀起了三波浪潮,,從車端算力到云端算力,,再到AI智算中心…每一次算力的迭代,都促進了特斯拉自動駕駛系統(tǒng)邁上新的臺階,。
現(xiàn)在,,中國車企在車端算力上動輒數(shù)千TOPS,已經(jīng)大幅超過特斯拉,,接下來就是要在車外算力上去追趕了,。
一、自動駕駛越來越卷 車外算力成新熱點
今年8月份,,內(nèi)蒙古烏蘭察布已經(jīng)有了一絲絲涼意,。雖然街上人不多,但在一間酒店會議室里卻聚集起了省市區(qū)三級領導,,共同見證小鵬汽車的自動駕駛AI智算中心“扶搖”揭牌,。
該中心由小鵬和阿里聯(lián)合出資打造。據(jù)小鵬汽車CEO何小鵬介紹,,該中心具備60億億次浮點運算能力(60000TFLOPs),,可將自動駕駛算法的模型訓練時間提速170倍,并且未來還具備10~100倍的算力提升空間,。
就在小鵬“扶搖”官宣后的1個多月,,長城旗下的自動駕駛公司毫末智行也宣布將打造屬于自己的AI智算中心。毫末智行CEO顧維灝表示,,該中心的目標是滿足千億參數(shù)大模型的訓練,,訓練100萬Clips的數(shù)據(jù),訓練成本降低200倍,。
在這兩個案例之外,,智己汽車在6月份公布了和阿里云聯(lián)合打造的“云上數(shù)據(jù)超級工廠”,這是跟小鵬“扶搖”類似的AI計算中心,;10月份的特斯拉AI Day上,,特斯拉也展示了自有AI計算中心的最新進展,用自研的D1芯片打造的計算設備能夠提升30%的模型訓練效率…
毫無疑問,,車外算力已經(jīng)成了車載自動駕駛芯片之外,,車企和自動駕駛公司們競爭的新焦點。
二、AI技術越用越多 算力是核心競爭力
車外算力成為新焦點,,與自動駕駛算法的演進趨勢密切相關,。
過去10年來,面向量產(chǎn)的L2自動駕駛系統(tǒng)在特斯拉的帶動下發(fā)生了一系列變化:在單車道居中智能巡航的基礎功能上,,增加了指令式或全自動變道功能,,以此為基礎又衍生出了自動導航輔助駕駛系統(tǒng) -- 設定好目的地后,車輛在高速上智能巡航,,并知道何時駛下高速,。
在自動導航輔助駕駛過程中,車輛需要時刻感知周邊車輛,,并自動做出變道決策,。這與此前的單車道巡航功能相比,難度直接提升了一個數(shù)量級,,進而也逼著自動駕駛算法從固定的“規(guī)則算法”向著數(shù)據(jù)驅動的AI算法轉變,。
隨著算法越來越成熟,最近一兩年高速場景的自動駕駛系統(tǒng)已經(jīng)不再是車企宣傳的重點,,各家轉而開始比拼城市場景的點到點自動駕駛能力,。
與高速自動導航輔助駕駛相比,城市內(nèi)行車又涉及到了紅綠燈,、十字路口,、行人電動車、遮擋,、固定障礙物等一系列難題,,復雜度又提升了好幾個數(shù)量級。
為了解決這些新問題,,車企和自動駕駛公司給汽車引入了更多的傳感器,,高精地圖、半固態(tài)激光雷達,、4D成像毫米波雷達紛紛上車,,且背后的算法也得進一步升級 -- 以前是從規(guī)則到AI,現(xiàn)在是從簡單AI到高級AI,。
在特斯拉的帶動下,,過去量產(chǎn)自動駕駛常見的后融合算法逐漸被拋棄,轉而使用前融合的BEV算法,,把攝像頭的感知到的畫面直接扔進AI算法里,,生成一個鳥瞰視角的3D空間,并在這個空間內(nèi)輸出感知結果,。
因為是所有攝像頭統(tǒng)一在3D空間里輸出感知目標,,BEV算法很好的解決了跨攝像頭的識別問題,在處理近距離加塞這種行業(yè)難題時有了更好的表現(xiàn)。
這還沒完,。因為量產(chǎn)車搭載的自動駕駛芯片算力相對有限,車企和自動駕駛公司還在積極使用多任務神經(jīng)網(wǎng)絡,,比如特斯拉的HydraNet,,就是讓一套AI算法同時輸出多個結果。
大家使用的AI算法越來越高級,,給行業(yè)也帶來了兩個重要變化:
一是需要越來越多的數(shù)據(jù)來培育算法背后的神經(jīng)網(wǎng)絡,,算法之間的競爭逐步變成了數(shù)據(jù)之爭。
二是海量數(shù)據(jù)需要海量的存儲和處理能力,,車企和自動駕駛公司對專用的AI計算設備的需求量持續(xù)增長,。
多位自動駕駛技術專家都曾告訴車東西,AI技術進步很快,,大家在算法和模型層面的差距其實并不大,,真正拉開差距的是數(shù)據(jù)收集和處理能力。
正是如此,,我們才看到了車企和自動駕駛公司們在今年紛紛宣布了自建AI計算中心的消息,,瘋狂卷起了車外算力。
三,、車外算力不只有云 特斯拉打響算力
看到這里你肯定該提問了,,現(xiàn)在云服務這么方便,算力要多少有多少,,租云不就好了嗎,?為啥要費勁自建AI計算中心呢?
這里需要從成本和技術兩個維度考量,。
先說經(jīng)濟性,。據(jù)車東西了解,目前車企和自動駕駛公司每年在云計算方面花費的資金普遍在數(shù)千萬元,,頭部玩家上億也很常見,,且隨著數(shù)據(jù)量的日益增長,在AI計算方面的投資也在水漲船高,。
據(jù)IDC統(tǒng)計,,2022年自動駕駛相關公司對AI計算的投資全部在增長,并且有28%的企業(yè)投資增長幅度超過30%,。
如果持續(xù)使用公有云服務,,顯然存在邊際成本不斷上漲的問題。
而若是自行采購設備組建AI計算中心,,一次性投資約在數(shù)千萬到1億元以內(nèi),,長期來看性價比更高。
當然這里也有個前提,那就是企業(yè)的數(shù)據(jù)處理,、模型訓練流程得相對固定才行,。如果還處于研發(fā)早期,AI算力需求不固定,,那還是使用具有彈性的公有云最合適,。
技術層面,自建AI計算中心也更具優(yōu)勢,。
云計算的本質是租賃計算設備,。云服務商的設備都是統(tǒng)一采購 -- 目標是具備最大的通用性(這樣才能獲得更多客戶)。所以其設備內(nèi)部使用的CPU,、GPU/AI加速器,、內(nèi)存的型號與規(guī)格都相對固定,很難與車企和自動駕駛公司的算法形成最佳匹配,。
另一方面,,云服務廠商對自動駕駛算法的了解程度不高,其使用的管理軟件在調(diào)度AI計算設備集群時難免會出現(xiàn)損耗和效率不高的問題,。
這導致在理論算力一定的情況下,,其訓練AI模型需要更多的時間。
作為量產(chǎn)自動駕駛方面的領頭羊,,特斯拉是深知專用AI算力的重要性,。
其在多年前就開始打造了屬于自己的AI計算中心 -- Dojo,總計使用了1.4萬個英偉達的GPU來訓練AI模型,。
特斯拉專家在今年AI Day上表示,,其需要使用14億幀畫面才能訓練一個神經(jīng)網(wǎng)絡,對應的是10萬個GPU工時,!可見這是一個非常龐雜和耗時的過程,。
特斯拉為了進一步提升效率,在2021年發(fā)布了自研的AI加速芯片D1,。25個D1封裝在一起組成一個訓練模塊(Training tile),,然后再將訓練模塊組成一個機柜(Dojo ExaPOD)。
按照特斯拉方面的說法,,使用Dojo組成的AI計算集群,,可提升30%的網(wǎng)絡訓練速度。
上面實打實的數(shù)據(jù)說明,,特斯拉通過高度定制化的方式建立自己的AI計算中心,,確實使其在模型訓練的效率方面獲得了明顯的提升。
某種程度來說,,特斯拉通過自研D1芯片,,自研Dojo ExaPOD智算設備,,實際上構建的是一種其他競爭對手難以企及的算力霸權。
接下來,,隨著路上特斯拉的車隊規(guī)模越來越大,,采集的數(shù)據(jù)越來越多,特斯拉的算法迭代速度也會越來越快,,對其他車企和自動駕駛公司形成越來越難以逾越的領先優(yōu)勢,。
四、自建AI計算中心 選對設備很關鍵
既然自建AI計算中心如此重要,,而數(shù)據(jù)中心最核心的AI智算設備,更是一點不能含糊,。
目前國內(nèi)AI智算設備銷量第一的浪潮,,已經(jīng)開始全面布局智能汽車和自動駕駛領域,希望用自家高質量的AI智算設備為車企和自動駕駛公司的模型訓練提供支持,。
如何選擇AI計算設備,?軟硬件結合最關鍵。
正如前文所言,,只有高度定制化的AI智算設備才能發(fā)揮最佳的訓練效果,。
浪潮深知這個道理。為了研發(fā)出最適合自動駕駛行業(yè)的AI智算設備,,浪潮專門組建了一支幾十人的算法團隊,,先研究自動駕駛的前沿算法。
比如最近在NuScenes數(shù)據(jù)集的3D目標檢測比賽中,,浪潮自動駕駛團隊的DABNet4D算法一舉拿下了第一名的成績 -- NDS綜合檢測精度0.624,,較2021年的第一名提升了16個點,進步明顯,。
▲NuScenes 3D目標檢測比賽榜單
浪潮信息的AI團隊早在今年年初就構建了一個基于Transformer架構的多視角特征融合模型CBTR算法,,并繼續(xù)基于多相機時空特征優(yōu)化,設計構建MASTER(Multi-camerA Spatial and Temporal feature ExtractoR,,多相機時空特征提取器),。而最近所登頂?shù)腄ABNet4D算法正是在MASTER算法的基礎上進一步引入了深度估計網(wǎng)絡等等,最終實現(xiàn)了更為高效穩(wěn)定的BEV輸出,。
此外,,通過圖像數(shù)據(jù)增強、BEV特征增強和樣本貼圖增強等多尺度的數(shù)據(jù)增強技術等,,提升模型的檢測效果,,最終DABNet4D算法在NuScenes數(shù)據(jù)集中奪得3D目標檢測第一名的佳績。
有了對自動駕駛算法模型的深刻理解,,浪潮就能在硬件和軟件兩個維度優(yōu)化自家的AI智算設備,。
硬件層面,,不僅CPU、GPU/AI加速器等核心硬件的選型做過優(yōu)化,,像是CPU與GPU之間,、計算設備之間的通信鏈路設計也進行了專門的設計。
比如浪潮自動駕駛團隊訓練模型使用的是全球領先的AI服務器5488A5服務器平臺,。其中GPU之間使用了NV-Switch全互聯(lián)架構,,來滿足模型訓練的高顯存需求,以及模型并行訓練的高通信帶寬需求,。
軟件方面的優(yōu)化更為重要,,配套軟件算法要讓硬件高效的運轉起來。
浪潮的AI智算設備融合AIStation,,通過整合計算資源,、數(shù)據(jù)資源以及AI開發(fā)環(huán)境,實現(xiàn)AI 計算資源統(tǒng)一分配調(diào)度,、訓練數(shù)據(jù)集中管理與加速,、AI模型流程化開發(fā)訓練,為自動駕駛車企開發(fā)團隊構建敏捷高效的一體化開發(fā)平臺,。
這里舉個例子,。
當前大多數(shù)的AI模型訓練一般需要使用幾個到幾十個GPU加速卡,而面向自動駕駛融合感知的模型訓練,,因為其模型復雜度的提升和數(shù)據(jù)量的規(guī)模因素,,則需要使用幾百上千個GPU加速卡協(xié)同訓練。
如此大規(guī)模的協(xié)同計算,,無論是在集群硬件,,還是在算法軟件上,都是需要進行專門的設計優(yōu)化,。如果不進行優(yōu)化,,假設用搭載了1000塊GPU的AI計算中心訓練一個模型,其中每個GPU的效率發(fā)揮甚至可能不到10%,,也就是會出現(xiàn)用的資源越多,,算的越慢的情況。
浪潮的專業(yè)團隊曾經(jīng)建設了一個超過2000個GPU的超大規(guī)模AI計算集群,,并在訓練“源”大模型系列時,,實現(xiàn)了90%的擴展效率。協(xié)同軟,、硬件系統(tǒng)優(yōu)化能力,,大幅提升訓練效率,最大化地發(fā)揮GPU性能,。
這些實打實的技術細節(jié)和參數(shù),,也正是浪潮助力車企和自動駕駛企業(yè)組建AI智算中心的底氣所在,。
在AI算力、算法方面,,浪潮所擁有的整體化技術優(yōu)勢,,也讓其連續(xù)多年在AI服務器市場穩(wěn)居全球市占第一,并深獲互聯(lián)網(wǎng)頭部客戶的絕對認可,。
五,、智能化助力自主品牌彎道超車
最后我們回到汽車行業(yè)本身來看。
汽車四化浪潮是中國汽車產(chǎn)業(yè)遇到的千載難逢的時代機遇,。電動化打破了傳統(tǒng)燃油車的技術壁壘,,讓自主車型能夠與歐美大牌平起平坐。智能化是我國的優(yōu)勢領域,,一旦在技術上實現(xiàn)領先,,就能帶動車型競爭力的大幅領先,最終帶動整個中國汽車工業(yè)實現(xiàn)彎道超車,。
從今年的汽車銷量來看,電動化浪潮已經(jīng)帶動比亞迪,、廣汽,、蔚來、理想等車企初步實現(xiàn)彎道超車,。
下一步,,各大車企和汽車智能化供應商應該進一步加大投資力度,在算法和算力方面實現(xiàn)雙線布局,,將我國龐大的市場優(yōu)勢轉化為數(shù)據(jù)優(yōu)勢,,從而在自動駕駛等智能化系統(tǒng)的研發(fā)上實現(xiàn)更大發(fā)展,最終助力整個汽車工業(yè)實現(xiàn)彎道超車
更多信息可以來這里獲取==>>電子技術應用-AET<<