《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > MEMS|傳感技術(shù) > 業(yè)界動(dòng)態(tài) > 基于計(jì)算機(jī)視覺(jué)的自動(dòng)駕駛算法研究綜述

基于計(jì)算機(jī)視覺(jué)的自動(dòng)駕駛算法研究綜述

2018-02-10
關(guān)鍵詞: 自動(dòng)駕駛 算法研究

  近年來(lái),,隨著人工智能技術(shù)的迅速發(fā)展,,傳統(tǒng)汽車(chē)行業(yè)與信息技術(shù)結(jié)合,在汽車(chē)自動(dòng)駕駛技術(shù)方面的研究取得了長(zhǎng)足進(jìn)步,,業(yè)內(nèi)很多大公司都在此領(lǐng)域投入巨資進(jìn)行研發(fā),,如國(guó)外的谷歌、豐田,,國(guó)內(nèi)的百度,、比亞迪等公司都推出了自動(dòng)駕駛汽車(chē),且實(shí)驗(yàn)結(jié)果令人滿意:

  谷歌的自動(dòng)駕駛汽車(chē)已經(jīng)安全行駛超過(guò) 14 萬(wàn)英里,;

  豐田則宣布旗下自動(dòng)駕駛系統(tǒng)將于 2020 正式量產(chǎn),;

  百度在 2015 年底宣布,其自動(dòng)駕駛汽車(chē)計(jì)劃三年商用五年量產(chǎn),,比亞迪已與百度深化合作,,共同研發(fā)無(wú)人駕駛汽車(chē)。

  可以預(yù)見(jiàn),,在不遠(yuǎn)的將來(lái),,隨著技術(shù)不斷發(fā)展完善,自動(dòng)駕駛技術(shù)將進(jìn)入實(shí)用階段,,普及到千家萬(wàn)戶,,人們可以自由出行而無(wú)需擔(dān)心人為駕駛事故,如無(wú)證駕駛,、超速,、疲勞駕駛,、酒駕等人為引起的交通事故。因此,,自動(dòng)駕駛技術(shù)有著廣闊的應(yīng)用前景,。

  1 自動(dòng)駕駛技術(shù)

  自動(dòng)駕駛技術(shù)分為基于傳統(tǒng)特征和基于深度學(xué)習(xí)駕駛技術(shù)。

  在現(xiàn)有的基于傳統(tǒng)特征的自動(dòng)駕駛中,,目標(biāo)識(shí)別是核心任務(wù)之一,,其包括道路及道路邊沿識(shí)別、車(chē)道線檢測(cè),、車(chē)輛識(shí)別,、車(chē)輛類(lèi)型識(shí)別、非機(jī)動(dòng)車(chē)識(shí)別,、行人識(shí)別,、交通標(biāo)志識(shí)別、障礙物識(shí)別與避讓等等,。目標(biāo)識(shí)別系統(tǒng)利用計(jì)算機(jī)視覺(jué)觀測(cè)交通環(huán)境,,從實(shí)時(shí)視頻信號(hào)中自動(dòng)識(shí)別出目標(biāo),為實(shí)時(shí)自動(dòng)駕駛,,如啟動(dòng),、停止、轉(zhuǎn)向,、加速和減速等操作提供判別依據(jù),。

  由于實(shí)際路況極度復(fù)雜,基于傳統(tǒng)目標(biāo)檢測(cè)的輔助駕駛技術(shù)性能難以得到大幅提升,,現(xiàn)有的自動(dòng)駕駛技術(shù),,一般依賴于先進(jìn)的雷達(dá)系統(tǒng)來(lái)彌補(bǔ),顯著增加了系統(tǒng)實(shí)施的成本,。隨著技術(shù)的發(fā)展,,采用卷積神經(jīng)網(wǎng)(Convolutional Neural Networks,CNN)可以直接學(xué)習(xí)和感知路面和道路上的車(chē)輛,,經(jīng)過(guò)一段時(shí)間正確駕駛過(guò)程,,便能學(xué)習(xí)和感知實(shí)際道路情況下的相關(guān)駕駛知能,無(wú)需再通過(guò)感知具體的路況和各種目標(biāo),,大幅度提升了輔助駕駛算法的性能,。

  2 基于傳統(tǒng)特征的自動(dòng)駕駛技術(shù)

  自動(dòng)駕駛技術(shù)中傳統(tǒng)的特征指的是人工提取的特征,如 HOG(梯度直方圖)特征,、SIFF(尺度不變特征變換)特征和 CSS(顏色自相似)等特征,。

  目前,主流自動(dòng)駕駛技術(shù)都基于視頻分析。交通場(chǎng)景下捕捉到的視頻序列中包含各種不同視頻目標(biāo),,如行人,、汽車(chē)、路面,、障礙物,、背景中的各種物體等,需要在測(cè)試圖像中標(biāo)識(shí)出感興趣類(lèi)別的目標(biāo)對(duì)象,,用來(lái)提供給車(chē)輛控制系統(tǒng)作為決策依據(jù),。

  特征的檢測(cè)與表示是關(guān)鍵步驟,涉及到如何編碼描述目標(biāo)圖像信息的問(wèn)題,,比較理想的特征表示方法要能適應(yīng)各種干擾因素的影響,,比如尺度、外觀,、遮擋,、復(fù)雜背景等情況。

  2.1 道路與車(chē)道識(shí)別

  道路與車(chē)道識(shí)別是自動(dòng)駕駛技術(shù)的基礎(chǔ)內(nèi)容,,如 Caltech lane detector中論述。常見(jiàn)的道路的識(shí)別算法基于圖像特征進(jìn)行計(jì)算,,其分析圖像中表示車(chē)道線或道路邊界等的灰度,,顏色,紋理等特征,,通過(guò)神經(jīng)網(wǎng)絡(luò),、支持向量機(jī)、聚類(lèi)分析和區(qū)域生長(zhǎng)等方法便可以分割出路面區(qū)域,。這類(lèi)方法對(duì)道路曲率的變化有很好的魯棒性,。

  最近基于條件隨機(jī)場(chǎng)的道路檢測(cè)方法取得了重要的進(jìn)展。由于道路及邊沿的種類(lèi)繁多,,紛雜的車(chē)輛以及路邊雜物的遮擋,,樹(shù)木以及建筑物的陰影干擾等,使得最基本的道路檢測(cè)存在需要進(jìn)一步提升的空間,。

  2.2 車(chē)輛檢測(cè)技術(shù)

  車(chē)輛檢測(cè)技術(shù)為自動(dòng)駕駛領(lǐng)域研究的熱點(diǎn)之一,。前向車(chē)輛碰撞預(yù)警系統(tǒng)是一種有效降低主動(dòng)事故發(fā)生率的技術(shù),其廣泛采用車(chē)輛定位的方法實(shí)現(xiàn),,可以利用車(chē)輛自身的圖像特征,,如陰影、對(duì)稱性,、邊緣等,,例如常用的底部陰影以及車(chē)輛的兩個(gè)縱向邊緣構(gòu)成的 U 型特征等,快速定位車(chē)輛感興趣的區(qū)域,再利用多目標(biāo)跟蹤算法對(duì)檢測(cè)的車(chē)輛進(jìn)行跟蹤,。

  2.3 行人檢測(cè)及防碰撞系統(tǒng)

  以「行人保護(hù)」為目的的行人檢測(cè)及防碰撞系統(tǒng)也成為自動(dòng)駕駛領(lǐng)域的研究熱點(diǎn),。目前統(tǒng)計(jì)學(xué)習(xí)方法在行人檢測(cè)中應(yīng)用最為廣泛,特征提取和分類(lèi)定位是基于統(tǒng)計(jì)學(xué)習(xí)方法的兩個(gè)關(guān)鍵問(wèn)題,。

  基于統(tǒng)計(jì)學(xué)習(xí)的行人檢測(cè)主要包含基于生成式模型(局部)的檢測(cè)方法和基于特征分類(lèi)(整體)的檢測(cè)算法:

  基于生成式模型的檢測(cè)方法通常采用局部特征或者肢體模型來(lái)描述局部屬性,,結(jié)合局部特征的空間結(jié)構(gòu)特性或分布模型進(jìn)行分類(lèi)。

  基于特征分類(lèi)的檢測(cè)方法目的是找到一種能夠很好地描述行人特征的方法,。通過(guò)提取行人的灰度,、邊緣、紋理,、顏色等信息,,根據(jù)大量的樣本構(gòu)建行人檢測(cè)分類(lèi)器,從樣本集中學(xué)習(xí)人體的不同變化,,把視頻圖像中的行人目標(biāo)從背景中分割出來(lái)并精確定位,。

  2005 年 Dalal 提出梯度直方圖(Histogram of Oriented Gradient,HOG)是一個(gè)最基本的特征,,具有非常強(qiáng)的魯棒性,,其他很多行人檢測(cè)的算法都是在使用 HOG 的基礎(chǔ)上,加上其它特征,,如尺度不變特征轉(zhuǎn)換(Scale-invariant Feature Transform,,SIFT)、局部二值模式(Local Binary Pattern,,LBP),、顏色自相似(Color Self—Similarity,CSS),、多通道等等,。

  Cheng 等人觀察到物體都有閉合邊緣,基于 HOG 特征提出了一種二進(jìn)制歸一化梯度特征(BING)來(lái)預(yù)測(cè)顯著性窗口的方法,,該方法運(yùn)行速度非??欤梢赃_(dá)到 300 fps,。趙勇等在 HOG 的基礎(chǔ)上提出了一個(gè)具有較好的尺度不變特征 eHOG,,將 HOG 中梯度直方圖中每個(gè) bin 的特征重構(gòu)成一個(gè)位平面,再計(jì)算其 HOG 特征,。實(shí)驗(yàn)表明,,在計(jì)算量沒(méi)有大幅度增加的情況下,正確率比原 HOG 高 3 ~ 6 個(gè)百分點(diǎn),。HOG 特征存在一個(gè)問(wèn)題,,即整個(gè) HOG 特征被拉長(zhǎng)成一個(gè)矢量,,弱化了原來(lái)在二維平面局部空間的梯度特征之間的局部關(guān)聯(lián)特性。

  張永軍等人提出的 I-HOG采用多尺度的特征提取算法和構(gòu)建梯度直方圖之間的關(guān)聯(lián),,增強(qiáng)了行人邊緣信息在二維平面空間的局部關(guān)聯(lián),, I-HOG 特征相較于原 HOG 特征較大幅度的提高了檢測(cè)率。SIFT 是一種檢測(cè)局部特征的算法,,該算法通過(guò)求一幅圖中的特征點(diǎn)及其有關(guān)尺度和方向的描述得到特征并進(jìn)行圖像特征點(diǎn)匹配,,用于檢索或者標(biāo)準(zhǔn)圖庫(kù)類(lèi)別的識(shí)別時(shí),其不僅具有尺度不變性,,即使改變旋轉(zhuǎn)角度,,圖像亮度或拍攝視角也能夠得到非常好的檢測(cè)效果。

  3 基于深度學(xué)習(xí)的自動(dòng)駕駛技術(shù)

  基于視頻分析的目標(biāo)檢測(cè)與識(shí)別技術(shù)經(jīng)歷了從傳統(tǒng)特征,,如:HOG,、SIFT、Bag of visual words和 Fisher 核矢量到深度學(xué)習(xí)的過(guò)渡過(guò)程,。

  HOG 得到的描述保持圖像的幾何和光學(xué)轉(zhuǎn)化不變性,。Fisher 核矢量能統(tǒng)一各類(lèi)特征的維度、壓縮時(shí)精度損失很小等,,這些傳統(tǒng)直觀的特征,,在目前階段取得了很好的使用效果。但由于目標(biāo)的種類(lèi)繁多,,變化較大,,以及視角的變化等等,使得傳統(tǒng)基于特征的目標(biāo)檢測(cè)遇到了很難超越的瓶頸,。

  近年來(lái),深度學(xué)習(xí)的興起,,使得大量多類(lèi)多狀態(tài)下目標(biāo)檢測(cè)與識(shí)別的性能可以大幅度提升到擬人水平,,甚至在許多方面超越人類(lèi)。深度學(xué)習(xí)特征為從大量訓(xùn)練數(shù)據(jù)中自動(dòng)學(xué)習(xí)到的特征,,較傳統(tǒng)特征相比,,更能刻畫(huà)目標(biāo)的本質(zhì)。

  深度學(xué)習(xí)有多個(gè)常用模型框架,,如自動(dòng)編碼器,、稀疏編碼、限制波爾茲曼機(jī),、深信度網(wǎng)絡(luò),、卷積神經(jīng)網(wǎng)絡(luò)等。其中基于卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,,CNN)的深度學(xué)習(xí)模型是最常用的模型和研究熱點(diǎn)之一,。

  20 世紀(jì) 60 年代,,Hubel 和 Wiesel在研究貓腦皮層中用于局部敏感和方向選擇的神經(jīng)元時(shí)發(fā)現(xiàn)其獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)可以有效地降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,繼而提出了 CNN,。K.Fukushima 在 1980 年提出的新識(shí)別機(jī)是 CNN 的第一個(gè)實(shí)現(xiàn)網(wǎng)絡(luò),。隨后,目標(biāo)檢測(cè)通過(guò)掃描窗來(lái)學(xué)習(xí)并進(jìn)行檢測(cè),,大大提高了多類(lèi)檢測(cè)目標(biāo)識(shí)別的效率,。最具有代表性的是深度學(xué)習(xí)鼻祖 Hinton 的工作 ,作者訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)來(lái)對(duì) LSVRC-2010 和 LSVRC-2012 的 120 萬(wàn)張圖像進(jìn)行 1000 種以上的分類(lèi),,獲得當(dāng)時(shí)最高的檢測(cè)率,。這種基于掃描窗的方法主要缺點(diǎn)是:掃描窗的大小和位置組合太多,導(dǎo)致計(jì)算量過(guò)大而難以實(shí)現(xiàn),。

  CNN 思路近年來(lái)經(jīng)過(guò)不斷改進(jìn),,其精確度和計(jì)算效率得到極大提升。2014 年 Girshick 等人提出了 R-CNNL ,,其思想為將每個(gè)圖片分為約 2000 個(gè)區(qū)域輸入 CNN 訓(xùn)練,,從預(yù)選框中通過(guò) CNN 提取出固定長(zhǎng)度的特征,最后通過(guò)特定類(lèi)別的支持向量機(jī)(SVM)來(lái)分類(lèi),。由于需將每一個(gè)候選區(qū)域分別送人到 Alexnet 中進(jìn)行檢測(cè),,導(dǎo)致檢測(cè)速度很慢,因此何覬名等人提出SPPnet ,。SPPnet 改變以往使用剪裁一幅圖片使其尺寸滿足 Alexnet 輸入要求,,而是使用任意尺寸圖片作為輸入。

  Fast-RCNN在 SPPnet 的基礎(chǔ)上,,使用顯著性檢測(cè)方法在原始圖像上提取出預(yù)選區(qū)域,,并將每一個(gè)區(qū)域坐標(biāo)映射到特定圖上,在進(jìn)行目標(biāo)檢測(cè)時(shí),,使用 ROI 池化層選取映射的坐標(biāo)區(qū)域,,部分卷積圖像送人分類(lèi)器,無(wú)需對(duì)每一個(gè)預(yù)選區(qū)進(jìn)行卷積運(yùn)算,,大大提高了檢測(cè)速度,。

  2015 年 Ren 等提出 Faster-RCNN ,在之前的基礎(chǔ)上使用一個(gè) RPN 網(wǎng)絡(luò),,使用卷積運(yùn)算一次得到卷積特征圖像,,F(xiàn)aster-RCNN 是對(duì) Fast-RCNN 的進(jìn)一步加速。在 2015 年 12 月的 ICCV 國(guó)際會(huì)議上,,鄒文斌博士在 R-CNN 的基礎(chǔ)上,,提出了基于 RCNN 的多層次結(jié)構(gòu)顯著性目標(biāo)檢測(cè)方法 ,在 MSRA-B ,,PASCAL-1500 和 SOD 三個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)表明,,其檢測(cè)率達(dá)到當(dāng)時(shí)業(yè)界最高水平,。在該會(huì)議上,Kontschieder 舊引等提出了在 CNN 各層輸出的特征基礎(chǔ)上,,采用隨機(jī)森林,,在公開(kāi)的數(shù)據(jù)集 MNIST 和Imagenet上,獲得了較高的檢測(cè)率,。

  CNN 和多通道處理結(jié)合的方法在圖像識(shí)別上也有不錯(cuò)的效果:

  2011 年 Pierre Sermanet等人提出多尺度 CNN 算法,,將原始圖像和其子取樣的卷積結(jié)果通過(guò)線性分類(lèi)器分類(lèi),其 GTSRB 數(shù)據(jù)集上精確度達(dá)到 98.97%,。

  2012 年 Dan Ciresan等人提出使用多通道深度神經(jīng)網(wǎng)絡(luò)的方法識(shí)別交通信號(hào),。該方法將訓(xùn)練圖片同時(shí)輸入 N 個(gè)深度神經(jīng)網(wǎng)同時(shí)訓(xùn)練,進(jìn)行預(yù)測(cè)時(shí),,計(jì)算輸入圖像的 N 個(gè)深度神經(jīng)網(wǎng)預(yù)測(cè)結(jié)果的平均值作為最終結(jié)果,,其預(yù)測(cè)結(jié)果準(zhǔn)確率達(dá)到 99.46%,超過(guò)了人工識(shí)別精度,。

  2014 年 Karen Simonyan釗等人將連續(xù)視頻分為空間流和時(shí)間流,,使用不同的 CNN 處理同一段視頻的物體特征和行為特征,并將二者結(jié)合進(jìn)行行為判別,,也極大地提升了識(shí)別的精確度,。

  在輔助駕駛和自動(dòng)駕駛中,需要識(shí)別和估計(jì)的目標(biāo)繁多,,包括前方機(jī)動(dòng)車(chē),、非機(jī)動(dòng)車(chē)、行人,、道路標(biāo)識(shí),、道路本身、車(chē)道線等等,,導(dǎo)致基于目標(biāo)監(jiān)測(cè)與識(shí)別的學(xué)習(xí)算法變得十分復(fù)雜,。在自動(dòng)駕駛與機(jī)器人導(dǎo)航中,另一種方法直接從視頻圖像中學(xué)習(xí)前進(jìn)方向的角度來(lái)尋找路徑和繞開(kāi)障礙物,,以及Yann Lecun 的工作 ,即通過(guò)端到端學(xué)習(xí),,以實(shí)現(xiàn)非道路上的障礙物避讓?zhuān)褂?6 層的 CNN 學(xué)習(xí)人的駕駛行為,,可以在穿越視野內(nèi)區(qū)域的同時(shí)學(xué)習(xí)低層和高層特征,消除人工的校準(zhǔn),、矯正,、參數(shù)調(diào)整等等,該系統(tǒng)主要的優(yōu)點(diǎn)是對(duì)各種不同環(huán)境下的非道路環(huán)境有非常好的魯棒性,。

  6365376138620401257975901.png

  圖 1  深度駕駛算法架構(gòu)

  以上工作均為通過(guò)深度學(xué)習(xí)直接將圖像映射到行駛的角度下進(jìn)行的,。在這一思想的影響下,,在 ICCV 2015 上,普林斯頓大學(xué)提出了深度駕駛算法,,其算法架構(gòu)如圖 1 所示,,通過(guò)深度神經(jīng)網(wǎng)絡(luò)直接感知駕駛操控(driving affordance),不僅大大簡(jiǎn)化了算法的復(fù)雜度,,而且大大提高了自動(dòng)駕駛的魯棒性和智能化水平,,是自動(dòng)駕駛技術(shù)上的一個(gè)重大突破。

  深度駕駛的技術(shù),,通過(guò)采用 CNN 來(lái)直接學(xué)習(xí)和感知一段時(shí)間正確駕駛過(guò)程以后,,就能學(xué)習(xí)和感知到實(shí)際道路情況下的相關(guān)駕駛智能,無(wú)需通過(guò)感知具體的路況和各種目標(biāo),,大幅度提升了輔助駕駛算法的性能,。

  4 總結(jié)與展望

  自動(dòng)駕駛技術(shù)是未來(lái)汽車(chē)智能化的研究熱點(diǎn)之一。從綜述的文章中可以得出,,基于傳統(tǒng)目標(biāo)檢測(cè)最有效 HOG 特征,、SIFT 特征、CSS 等特征的自動(dòng)駕駛技術(shù)已經(jīng)取得了不錯(cuò)成績(jī),。

  由于實(shí)際路況極度復(fù)雜,,基于傳統(tǒng)目標(biāo)檢測(cè)的輔助駕駛技術(shù)性能難以得到大幅度提升,現(xiàn)有的自動(dòng)駕駛技術(shù),,一般依賴于先進(jìn)的雷達(dá)系統(tǒng),,顯著增加了系統(tǒng)實(shí)施的成本。深度駕駛技術(shù)能同時(shí)感知道路和道路上的各類(lèi)目標(biāo),,為自動(dòng)駕駛系統(tǒng)提供駕駛邏輯支持,,是未來(lái)自動(dòng)駕駛技術(shù)研究的方向之一。

  在具體的輔助駕駛算法中,,如果對(duì)路況和目標(biāo)缺乏整體感知,,則很難達(dá)到實(shí)用化和商用化水平。吸取傳統(tǒng)自動(dòng)駕駛技術(shù)中的精華,,借鑒深度學(xué)習(xí)研究的最新成果,,整合傳統(tǒng)特征和深度學(xué)習(xí)特征,以提供更多信息,,不失為一個(gè)較好的解決方法,。設(shè)計(jì)自動(dòng)駕駛技術(shù)的新算法,進(jìn)一步提升深度駕駛的擬人化和實(shí)用化水平,,是一條值得去繼續(xù)探索的道路,。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點(diǎn),。轉(zhuǎn)載的所有的文章,、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問(wèn)題,,請(qǐng)及時(shí)通過(guò)電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected]