《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 可編程邏輯 > 業(yè)界動態(tài) > 專訪 | CVPR PAMI青年研究員獎得主Andreas Geiger:自動駕駛中的計算機視覺

專訪 | CVPR PAMI青年研究員獎得主Andreas Geiger:自動駕駛中的計算機視覺

2018-08-03
關(guān)鍵詞: CVPR2018 自動駕駛 感知模塊

在今年 6 月召開的 CVPR2018 上,德國圖賓根大學(xué)及馬克斯·普朗克研究所(MPI)自動視覺組負責(zé)人 Andreas Geiger 教授摘得了 PAMI Young Researcher Award,,該獎項頒發(fā)給 7 年內(nèi)獲得博士學(xué)位且早期研究極為有潛力的研究人員,。

微信圖片_20180803160057.jpg



圖中為 Andreas Geiger,圖右為另一名獲獎?wù)?,來?Facebook 的青年科學(xué)家何愷明


Geiger 的研究主要集中在用于自動駕駛系統(tǒng)的三維視覺理解、分割,、重建,、材質(zhì)與動作估計等方面。他主導(dǎo)了自動駕駛領(lǐng)域著名數(shù)據(jù)集 KITTI 及多項自動駕駛計算機視覺任務(wù)的基準(zhǔn)體系建設(shè),,KITTI 是目前最大的用于自動駕駛的計算機視覺公開數(shù)據(jù)集,。


2018 年年初,Geiger 出任了北京沖浪科技有限公司 (Surfingtech) 的首席科學(xué)家,,沖浪科技是一家致力于為全球自動駕駛公司提供多傳感器數(shù)據(jù)解決方案的公司,。7 月,機器之心在沖浪科技對 Geiger 進行了專訪,,談了談自動駕駛領(lǐng)域的計算機視覺任務(wù)的特點,、研究前沿及 KITTI 數(shù)據(jù)集的最新進展。


機器之心:自動駕駛系統(tǒng)都由哪些模塊組成,?它們之間的依賴關(guān)系是什么,?


自動駕駛系統(tǒng)通常有一個非常經(jīng)典的,、模塊化的流水線。


首先是感知模塊(perception stack),,感知模塊將地圖,、三維傳感器、二維傳感器中的信息給到「世界模型」(world model),,世界模型將上述信息,,匯總在一張地圖中,理解每一個時刻不同的物體相對于路面,、道線等的位置,,預(yù)測下一刻的可選路徑都有哪些。隨后是一個規(guī)劃模塊(planning model),,進行決策,。決策的內(nèi)容也是分層級的。粗粒度的決策需要決定如何從 A 點到 B 點,,完成的是類似 GPS 的工作,。除此之外還有諸多細粒度的決策工作,例如決定走哪一條車道,,是否要暫時占用對向車道完成超車,,車速應(yīng)該設(shè)定為多少等。最后是控制模塊(control module),,控制模塊操縱所有的控制器,,有高層的控制器,比如電子穩(wěn)定系統(tǒng) ESP,,也有最基層的控制器,,比如控制每一個輪子進行加速和剎車的控制器。


機器之心:想要讓一個自動駕駛系統(tǒng)作出正確的決策,,首先要完成哪些計算機視覺任務(wù)?


首先是車輛定位:衡量車輛的運動并在地圖中進行定位,。完成這部分工作的是視覺測距(visual odometry)系統(tǒng)和定位(localization)系統(tǒng),。二者的區(qū)別是,視覺測距估計的是車輛相對于前一時間步進行的相對運動,,而定位是對車輛在地圖中的運動進行全局的估計,。定位是可以精確到厘米級的,車輛相對于一些地圖中固定的物體(例如電線桿)的距離已經(jīng)是已知的,,基于這些信息,,車輛已經(jīng)可以進行相當(dāng)不錯的路徑規(guī)劃了。


然后是三維視覺重建,,重建范圍通常在 50-80 米,,具體需求視行駛速度而定,。大部分 STOA 自動駕駛系統(tǒng)會使用激光雷達(LiDAR)進行三維重建。不過也有少部分團隊試圖直接從圖像中恢復(fù)三維信息,。由于圖像中的數(shù)據(jù)相比之下更為嘈雜,,因此完全基于圖像的重建是一項更具有挑戰(zhàn)性的工作。

微信圖片_20180803160206.jpg


基于單張激光雷達點云與二維圖片的三維視覺重建


除了重建之外,,你也需要對車輛正前方正在發(fā)生的事有充分的理解,。因此,你需要進行物體檢測,,也需要在理解物體是什么的基礎(chǔ)上對其進行進一步的分類,,而檢測和分類會幫助預(yù)測其未來軌跡。進行檢測和分類的方式是多樣的,,你可以給每一個物體畫一個邊界框(bounding box):這是最常見的方式,,但是自動駕駛需要在三維的物理世界中進行運動規(guī)劃,所以你至少要需要一個三維的邊界框,。


更精確的是實例分割(instance segmentation)和語義分割(semantic segmentation),。當(dāng)物體是形狀為凹或者是隧道之類需要穿行的物體時,邊界框顯然是不夠的,。實例分割將圖像里屬于一些特定目標(biāo)類別的每個實例的所有像素分為一類,。實例分割通常在二維圖像上進行,但也有三維版本,,三維實例分割基本等同于物體重建,。而語義分割為圖像里每一個像素分配一個語義標(biāo)簽,同一類別的不同實例不做區(qū)分,。除此之外,,全景分割(panoptic segmentation)基本上可以視作實例分割和語義分割的結(jié)合。全景分割對那些沒有實例只有整體的類別也進行區(qū)分,,例如天空和植被,。天空無法用一個邊界框框柱,而植被需要在平時避開,,但系統(tǒng)也需要知道在緊急情況下汽車沖上草坪并無大礙(相比之下撞上樹或者行人就有很大問題了),。因此語義信息是必要的。


接下來是運動估計,。根據(jù)之前的一幀或數(shù)幀,,預(yù)估視野里的每一個點,或者說每一個物體,,在下一幀的位置,。一些物體,例如車輛,它們的移動是比較容易預(yù)判的,,因此運動模型可以進行準(zhǔn)確率較高的預(yù)測,。而另外一些物體,例如行人,,會非常突然地變更其運動軌跡,,導(dǎo)致運動模型的建立更為艱難。即便如此,,較短時間區(qū)間(2-3 秒)的動作預(yù)測,,在動態(tài)物體較多的擁擠場景下的決策過程中也仍然扮演著至關(guān)重要的角色。


上述任務(wù)都是各自獨立的,,但是實際上,,收集上述信息的系統(tǒng)并不是各自獨立運轉(zhuǎn)的。因此情境推理(contextual reasoning)也有助于給出更準(zhǔn)確的預(yù)測,。例如一群行人通常會同時等紅燈,、同時過馬路,一輛車試圖并線時另一輛車會剎車讓路,,以這些外部信息,、先驗知識做約束,理解復(fù)雜場景會變得更為容易,。


最后,,一個我認為十分重要但是并沒有引起較多重視的領(lǐng)域是不確定性推理(reasoning under uncertainty)。人類感官或者車輛傳感器拿到的數(shù)據(jù)中必然包含著不確定性,,因此,,如何準(zhǔn)確地評估不確定性,并兼顧「最小化風(fēng)險」和「完成任務(wù)」,,是一個重要的話題,。理想情況下,所有上述檢測,、分割,、重建、定位任務(wù)都應(yīng)該在不確定性約束下進行,,系統(tǒng)在行進之前應(yīng)該知道它可能犯哪些錯誤,。


機器之心:如何對與自動駕駛相關(guān)的計算機視覺任務(wù)進行分類?分類的標(biāo)準(zhǔn)是什么,?


以輸入進行分類是一種常見做法。按照輸入的來源,,可以分為來自激光雷達,、攝像頭、雷達、乃至車內(nèi)的其他儀表的數(shù)據(jù),。按照輸入表征也可以進行分類,,激光雷達給出的稀疏的點云和攝像頭給出的密集的二維圖像就是兩種不同的表征,采取的算法也有所不同,。按照維度也可以進行分類,,用于三維輸入的算法通常更為復(fù)雜,因為如果不采取特殊做法,,三維輸入會快速耗盡內(nèi)存資源,。


另一種分法是按照線索分類。線索可以分為語義線索(semantic cues)和幾何線索(geometric cues),,幾何線索是利用多張圖片通過特征匹配和三角對齊得到深度信息,。但是因為這種估算的誤差與距離呈平方關(guān)系,因此有很大的局限性,。換言之,,人類的視覺系統(tǒng)其實也是不適合開車的,因為我們的視覺系統(tǒng)只是為了在兩手張開的距離內(nèi)進行操作而設(shè)計的,。人類在開車的時候利用語義線索彌補了這一缺陷:即使只有一張圖片,,理論上其中并不包含距離信息,人類仍然可以根據(jù)大量的先驗知識估計其中物體的相對距離,??偠灾詣玉{駛系統(tǒng)可以通過安裝多個攝像頭獲得三維信息,,也可以通過安裝一個攝像頭,,但是通過強先驗來預(yù)判會看到什么。理想情況下,,我們希望將二者結(jié)合,。


還有一種方法是根據(jù)物體是否運動以及如何運動進行分類。首先分為靜態(tài)部分識別和運動物體識別,。對于靜態(tài)場景來說,,有專門的標(biāo)準(zhǔn)重建算法,基于「所有的東西都是靜態(tài)的」這一假設(shè)進行重構(gòu),。但是事實上,,我們需要從多幅拍攝于不同時間的圖像中重建場景,這就需要我們設(shè)計專門的算法來處理場景中的運動物體,。運動物體又可以分為剛性物體和非剛性物體,。剛性物體的所有部分一起運動,可以用六自由度變化來描述它在三維空間中的運動軌跡,。汽車就是一個剛性物體,,而行人就屬于非剛性物體,,行人有胳膊、腿,,彼此之間以關(guān)節(jié)相連,,在運動中,每一個部分的運動軌跡大相徑庭,,因此刻畫行人的運動需要額外的自由度,。


機器之心:任務(wù)之間是否有先后順序?是否存在一個自動駕駛系統(tǒng)通常采用的完成任務(wù)的流程,?


首先,,確實存在一些依賴關(guān)系。例如三維物體識別需要以三維信息為基礎(chǔ),。如果你只有普通的圖像,,那么通常就要從三維重建開始。雖然這不是必須要做的,,但是大多數(shù)研究者選擇采用這個流程,。也有人選擇用動作(motion)來輔助識別,但是動作只是一個非常弱的線索,。


三維重建也不僅僅對三維識別有幫助,,它也有助于運動估計?;?RGBD 信息的運動估計難度要小于僅基于 RGB 信息的運動估計,。


而基于地圖的定位也有助于行人及其他交通參與者的行為預(yù)判。例如,,人行道的常見位置,、紅綠燈的常見位置給出了一個關(guān)于行人運動軌跡的強先驗。另外,,定位還能幫助你「穿墻透視」:即使路的轉(zhuǎn)角被高樓大廈遮擋住了,,根據(jù)地圖定位,你仍然知道樓后面是馬路,,而馬路上會有其他交通參與者存在,。


機器之心:來自不同傳感器的數(shù)據(jù)如何共同作為輸入服務(wù)于同一模型?


總的來說,,識別或者檢測類任務(wù)是靠著找出物體的形狀和外觀進行的,。不同的傳感器的長處各不相同,激光雷達給出距離信息,,但是很難描述外觀,,因為激光雷達捕捉反射率,反射率與外觀并不直接相關(guān),。而圖像中雖然包含豐富的外觀信息,,但是缺少距離信息,。毫米波雷達的視野非常窄,但是可以進行遠距離測距和測速,。


理想情況下,你要根據(jù)不同傳感器的特點去將它們生成的數(shù)據(jù)組合在一起,。例如,,如果你同時擁有立體視覺數(shù)據(jù)和激光雷達數(shù)據(jù),你希望利用激光雷達的遠場數(shù)據(jù)和立體視覺的近場數(shù)據(jù),。這是因為在 10-15 米范圍內(nèi),,立體視覺要比激光雷達精確,但是超出了這個范圍,,激光雷達反而更為精確,。


由于不同傳感器之間的校準(zhǔn)是非常困難的,因此在每一個點選擇信任哪個傳感器的數(shù)據(jù)是一道世界性的難題,。而結(jié)合的做法有很多,,總得來說就是把不同的數(shù)據(jù)類型投射到同一個空間內(nèi)。你可以用立體攝像機找到每個三維點陣里對應(yīng)的像素值,,把它和激光雷達數(shù)據(jù)結(jié)合,,也可以把激光雷達中的深度信息投影回圖片里。

微信圖片_20180803160310.jpg

將二維色彩信息映射到三維點云中


當(dāng)然,,這只是研究者通常采用的方法,,從很多汽車制造商的角度,他們希望擁有信息冗余,,讓不同的傳感器各自為政,,作出獨立的決策。這樣一旦某一個傳感器失靈了,,其余的傳感器仍然能提供決策所必要的信息,。


機器之心:研究者所采用的系統(tǒng)和汽車制造商使用的系統(tǒng)有哪些不同?


如今的車輛和駕駛員輔助系統(tǒng)通常都存在算力非常分散化的現(xiàn)狀,。用于研究的車輛可以有一個集中的處理器,,但是如今的車輛中系統(tǒng)的現(xiàn)狀是,攝像頭的算力只與攝像頭相連,,控制系統(tǒng)的計算單元算力也非常小,,你只能把物體基本信息提交給它,無法把深度信息全部提交給它,。


但是理論上,,只有當(dāng)你集成了所有傳感器獲得的信息,才能獲得最佳的性能,。因此這也是從當(dāng)今的駕駛輔助系統(tǒng)到自動駕駛汽車需要完成的一個轉(zhuǎn)變,。


機器之心:現(xiàn)如今,,絕大多數(shù)自動駕駛公司仍然選用不同類型、數(shù)量的傳感器,,開發(fā)自己的系統(tǒng),。不同傳感器帶來的差異有多大?


大多數(shù)傳感器的工作原理還是相似的,。例如,,對于攝像頭而言,大多數(shù)公司都選擇對光線變化盡可能敏感的,,或者說動態(tài)范圍(dynamic range)盡可能大的攝像頭,。這是因為如今攝像頭的動態(tài)范圍仍然遠小于人眼,例如,,從陽光下駛?cè)胨淼篮缶鸵笙到y(tǒng)迅速更換攝像頭的結(jié)構(gòu)以適應(yīng)突如其來的黑暗,。此外,世界上生產(chǎn)感光元件也只有屈指可數(shù)的幾家,,因此攝像頭之間的差別并不大,。


但是,即使完全相同的攝像頭,,安裝的高度,、位置不同,視野里看到的東西就會存在很大的差異,。比如卡車車頂?shù)臄z像頭和普通的小型車車頂?shù)臄z像頭,,其相對于路面的相對位置的巨大差異就決定了他們的很多配置和算法無法通用。這是一個有待解決的研究課題,。


至于激光雷達,,如今的大多數(shù)激光雷達都來自 Velodyne。但是現(xiàn)在也有越來越多新牌子涌現(xiàn),。同時,,在傳統(tǒng)的旋轉(zhuǎn)式雷達之外也發(fā)展出了更便宜、更容易裝配的固態(tài)雷達,。從學(xué)習(xí)的角度,,這都是需要適應(yīng)的部分。


毫米波雷達更為神秘,,各家都將其工作原理視為機密,,拿到毫米波雷達的原始數(shù)據(jù)都很困難。


總體來講,,如今用于研究的設(shè)備配置方法都非常類似:例如把攝像頭放在盡可能高的地方,、盡可能在每個方向都設(shè)置攝像頭等等。如今也有越來越多功能更為強大的攝像頭問世,,有的攝像頭的分辨率已經(jīng)接近人眼,,有的致力于更遠的焦距,。


機器之心:現(xiàn)在的自動駕駛視覺領(lǐng)域都有哪些前沿問題?


一個非常重要的問題是如何處理那些分布里極少出現(xiàn)的稀有事件,、個案,。如今行之有效的自動駕駛算法都是監(jiān)督算法,而我們在收集訓(xùn)練集的時候無法拿到大量的稀有事件標(biāo)記數(shù)據(jù),。我認為,,我們需要找到好的稀有事件生成模型,現(xiàn)在,,稀有事件刻畫的領(lǐng)軍團隊無疑是 Waymo,但是他們采用的方法是搭建一個大實驗室,,把各種稀有事件人工演出來,。


領(lǐng)域遷移是另一個大問題,我們不希望換了環(huán)境/車之后就要重新訓(xùn)練模型,。遷移學(xué)習(xí)能夠一定程度上通過在一個數(shù)據(jù)集上訓(xùn)練,、在另一個上面精調(diào)來解決這個問題,但是這并不是最終的解決方案,。


此外,,仿真(simulation)雖然不像前兩項那么重要,也仍然有進步的空間,。尤其是如何跨越從仿真到真實以及從真實到仿真的差距,。仿真永遠只是仿真,仿真能夠表達出的維度永遠無法達到真實世界的復(fù)雜程度,,紋理,、幾何關(guān)系都過于簡單了。前面談到的稀有事件也是無法通過仿真習(xí)得的,。


最后,,自動駕駛終歸需要作出「主觀判斷」,這是整個人工智能領(lǐng)域面對的一個挑戰(zhàn):系統(tǒng)需要在前所未見的場景中進行決策,,并且決策時可能需要稍微「違背規(guī)則」,,這是計算機所不擅長的事情。


機器之心:能否介紹下您在圖賓根大學(xué)/馬普所的自動視覺組的工作重點,?


上文提到的研究我們大部分都有涉及,。


我們進行一些底層的研究,例如三維重建和三維動作預(yù)測,。我們研究生成模型,,我希望能將現(xiàn)有的生成模型擴展到能夠生成整個「世界」的模型:生成內(nèi)容包括幾何信息、動作信息等等,。當(dāng)然,,整個學(xué)術(shù)界距離實現(xiàn)這一步還有很長的路要走,,但是一旦實現(xiàn),這將對仿真以及自動駕駛的訓(xùn)練給予極大幫助,。


另一方面,,我們也在研究小數(shù)據(jù)學(xué)習(xí),因為數(shù)據(jù)是一個太大的問題,。在 KITTI 360 數(shù)據(jù)集中,,我們就做了一些嘗試,例如在三維空間進行標(biāo)注,,然后由此獲得二維的標(biāo)注,。對于動作估計來說更是如此,因為人類甚至不能很好地對動作數(shù)據(jù)進行標(biāo)注,。

還有仿真與真實世界的連接,,例如我們近期的工作在研究如何把虛擬的物體放進真實場景中,這樣我們只需要對我們真正關(guān)注的部分建模,。

微信圖片_20180803160727.jpg

在通過多幀三維點云建立的三維重構(gòu)空間里進行一次標(biāo)注,,能夠同時得到多張二維圖像的標(biāo)注


從模型的角度來看,我們主要研究深度學(xué)習(xí)模型和概率模型,。我們對學(xué)術(shù)界的貢獻主要在于將深度學(xué)習(xí)應(yīng)用在三維數(shù)據(jù),、稀疏數(shù)據(jù)等由于存儲或模型能力限制而在現(xiàn)階段無法獲得較好效果的子領(lǐng)域。我們也在思考,,分模塊的自動駕駛系統(tǒng)是不是最優(yōu)的解決方案,?不考慮中間輸出的端到端的自動駕駛模型會不會是更優(yōu)的解決方案?最極端的端到端模型是用一個單獨模型拿到圖像之后直接進行方向盤,、油門剎車的控制,,但是建立這樣的模型也非常難,我想二者中間某處可能存在更好的解決方案,。


我們也致力于提供基準(zhǔn)(benchmarking),,提供一個比較不同模型的公允基礎(chǔ)。包括 KITTI 等一系列數(shù)據(jù)集,、學(xué)術(shù)會議上的研討會和挑戰(zhàn)賽,。KITTI 數(shù)據(jù)集本身就提供了超過了 10 項挑戰(zhàn)。


機器之心:您如何選擇研究課題,?


研究的終極原則是,,不應(yīng)以「最大化論文數(shù)量」為目標(biāo),應(yīng)該以「最大化領(lǐng)域貢獻」為目標(biāo),。這也是為什么我們致力于建立基準(zhǔn):自動駕駛研究領(lǐng)域在 KITTI 的影響下發(fā)生了很多變化,。


另一個原則是「更進一步」,在直接能夠投入業(yè)界應(yīng)用的算法之外,我們更關(guān)心那些高風(fēng)險,,但是也潛在具有高收益的算法:它們有很大的概率會失敗,,但是一旦成功,就會是跨時代的一步,。


機器之心:能否簡要介紹一下 KITTI 數(shù)據(jù)集,?


我們一共進行了超過六小時的行駛,并且公開了三小時的行駛數(shù)據(jù),。這聽起來并不多,,但是相比于之前的自動駕駛公開數(shù)據(jù)集,已經(jīng)有了一個非常巨大的數(shù)量上的提升,。


KITTI 的優(yōu)勢在于我們在車上安裝了各種傳感器,。第一代數(shù)據(jù)集包括了激光雷達、攝像頭,、GPS,、IMU 等不同傳感器的信號數(shù)據(jù)。

微信圖片_20180803160756.jpg

KITTI 數(shù)據(jù)采集車


我們在網(wǎng)上以挑戰(zhàn)賽的形式發(fā)布了一系列任務(wù),,任務(wù)包括立體視覺、光流,、場景流,、二維物體識別和三維物體識別、鳥瞰圖物體識別,、語義分割,、實體分割、道路與車道檢測,、單圖像深度估計,、深度完成(depth completion,把稀疏的激光雷達點云數(shù)據(jù)變?yōu)槊芗膱D像)等,。當(dāng)前的自動駕駛系統(tǒng)需要的各類任務(wù)我們都有涵蓋,。


每個任務(wù)的訓(xùn)練集大小主要取決于標(biāo)注難度,例如立體視覺和光流有 400 張標(biāo)記數(shù)據(jù),,動作估計有超過 10,000 張標(biāo)記數(shù)據(jù),,單圖像深度估計有 90,000 張。


我們給出了訓(xùn)練集和不包含真實標(biāo)簽的測試集,。研究者每個月可以向服務(wù)器上傳他們的結(jié)果,,我們則給出性能反饋。我們不向研究者提供測試集的真實標(biāo)簽,,這在一定程度上解決了過擬合問題,。


機器之心:如何選擇衡量標(biāo)準(zhǔn)(evaluation metrics)?衡量標(biāo)準(zhǔn)與損失函數(shù)之間的區(qū)別是什么,?


我們通常采用業(yè)界已有的衡量標(biāo)準(zhǔn),。例如,,在立體視覺和光流任務(wù)中,我們計算正確與錯誤的像素數(shù),;在物體識別任務(wù)中,,我們計算平均精度,即預(yù)測和真值之間重疊的面積與總面積的比例,。


損失函數(shù)通常是我們想要實現(xiàn)的目標(biāo),,在自動駕駛中,的確存在目標(biāo)和損失函數(shù)錯位的問題,,我們的一些研究也在致力于彌合這種錯位,。例如,在光流任務(wù)里,,一個左上角的代表天空的像素點真的和代表路面的像素點一樣重要嗎,?如果不是的話,如何設(shè)置新的衡量標(biāo)準(zhǔn),?這都是我們在思考的問題,。


機器之心:在數(shù)據(jù)集、衡量標(biāo)準(zhǔn)等方面,,與自動駕駛相關(guān)的計算機視覺任務(wù)和通用計算機視覺任務(wù)有什么差異,?


首先是多樣性程度不一樣。自動駕駛是一個非常特殊的領(lǐng)域,,這甚至讓算法起步變得更「容易」:車輛不會行駛到下水道里,、不會行駛在房頂上,如果你不知道身處何方,,那么預(yù)測面前的像素是「道路」,,準(zhǔn)確率其實很高。


但是另一個角度,,自動駕駛和通用計算機視覺對算法精度的要求也是截然不同的,,一個準(zhǔn)確率 99% 的人臉識別算法已經(jīng)很令人滿意,但是一個準(zhǔn)確率 99% 的自動駕駛模型大概每天都要撞翻點什么,。因此自動駕駛需要注意圖片里的細部,,注意那些此刻距離我們很遠,但是過一會兒就會出現(xiàn)在我們眼前的物體,,通用視覺任務(wù)不需要如此,。


此外,數(shù)據(jù)收集的難度也截然不同,,通用視覺任務(wù)的數(shù)據(jù)集大部分來自互聯(lián)網(wǎng),,但自動駕駛所需的數(shù)據(jù)不是天然存在的。也很難標(biāo)注。在業(yè)界,,僅僅 Mobileye 一家公司每天就有近千人在專門進行數(shù)據(jù)標(biāo)注,,業(yè)界的算法與學(xué)界公開的算法相比,未必有顯著的優(yōu)勢,,其性能優(yōu)勢主要來源于數(shù)據(jù)優(yōu)勢,。


機器之心:KITTI 360 相比于之前的版本有哪些更新?沖浪科技在數(shù)據(jù)集的建設(shè)方面做出了哪些工作,?


KITTI 360 仍然沿用了同一輛車,,我們增加了一個激光雷達,給出了更多,、更加精確的三維信息,。我們也增加了 360 度圖像,為數(shù)據(jù)擴增建立了環(huán)境地圖,。我們希望這能讓我們更好地標(biāo)記視野中的物體,。


我們和沖浪科技合作開發(fā)了 KITTI 360 用到的三維標(biāo)注工具(文中大部分示例圖片截取自該點云數(shù)據(jù)標(biāo)注平臺)。自動駕駛的標(biāo)注是一項十分復(fù)雜的工作,,例如像素級別的語義和實例分割,,通常情況下一張圖像的標(biāo)注要耗時 60 - 90 分鐘。而利用我們共同開發(fā)的標(biāo)注工具,,標(biāo)注時間被極大縮短,,這對于實驗室而言是至關(guān)重要的。

微信圖片_20180803160827.jpg


標(biāo)注工具界面


今年年底我們會公開一些與三維視覺理解相關(guān)的新任務(wù),,比如圖像中所有物體的識別以及方向估計,,我們?nèi)匀辉谔接懞线m的組織方式,。同時我們也很關(guān)注時序連貫的分割,,因為時序連貫是自動駕駛數(shù)據(jù)的固有特性。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章,、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者,。如涉及作品內(nèi)容,、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:[email protected],。