基于計算機視覺的自動駕駛算法研究綜述-AET-電子技術(shù)應(yīng)用

基于計算機視覺的自動駕駛算法研究綜述

日期： 2018-02-10

關(guān)鍵詞： 自動駕駛算法研究

　　近年來，隨著人工智能技術(shù)的迅速發(fā)展，傳統(tǒng)汽車行業(yè)與信息技術(shù)結(jié)合，在汽車自動駕駛技術(shù)方面的研究取得了長足進步，業(yè)內(nèi)很多大公司都在此領(lǐng)域投入巨資進行研發(fā)，如國外的谷歌、豐田，國內(nèi)的百度、比亞迪等公司都推出了自動駕駛汽車，且實驗結(jié)果令人滿意：

　　谷歌的自動駕駛汽車已經(jīng)安全行駛超過 14 萬英里；

　　豐田則宣布旗下自動駕駛系統(tǒng)將于 2020 正式量產(chǎn)；

　　百度在 2015 年底宣布，其自動駕駛汽車計劃三年商用五年量產(chǎn)，比亞迪已與百度深化合作，共同研發(fā)無人駕駛汽車。

　　可以預(yù)見，在不遠的將來，隨著技術(shù)不斷發(fā)展完善，自動駕駛技術(shù)將進入實用階段，普及到千家萬戶，人們可以自由出行而無需擔心人為駕駛事故，如無證駕駛、超速、疲勞駕駛、酒駕等人為引起的交通事故。因此，自動駕駛技術(shù)有著廣闊的應(yīng)用前景。

　　1 自動駕駛技術(shù)

　　自動駕駛技術(shù)分為基于傳統(tǒng)特征和基于深度學(xué)習(xí)駕駛技術(shù)。

　　在現(xiàn)有的基于傳統(tǒng)特征的自動駕駛中，目標識別是核心任務(wù)之一，其包括道路及道路邊沿識別、車道線檢測、車輛識別、車輛類型識別、非機動車識別、行人識別、交通標志識別、障礙物識別與避讓等等。目標識別系統(tǒng)利用計算機視覺觀測交通環(huán)境，從實時視頻信號中自動識別出目標，為實時自動駕駛，如啟動、停止、轉(zhuǎn)向、加速和減速等操作提供判別依據(jù)。

　　由于實際路況極度復(fù)雜，基于傳統(tǒng)目標檢測的輔助駕駛技術(shù)性能難以得到大幅提升，現(xiàn)有的自動駕駛技術(shù)，一般依賴于先進的雷達系統(tǒng)來彌補，顯著增加了系統(tǒng)實施的成本。隨著技術(shù)的發(fā)展，采用卷積神經(jīng)網(wǎng)（Convolutional Neural Networks，CNN）可以直接學(xué)習(xí)和感知路面和道路上的車輛，經(jīng)過一段時間正確駕駛過程，便能學(xué)習(xí)和感知實際道路情況下的相關(guān)駕駛知能，無需再通過感知具體的路況和各種目標，大幅度提升了輔助駕駛算法的性能。

　　2 基于傳統(tǒng)特征的自動駕駛技術(shù)

　　自動駕駛技術(shù)中傳統(tǒng)的特征指的是人工提取的特征，如 HOG（梯度直方圖）特征、SIFF（尺度不變特征變換）特征和 CSS（顏色自相似）等特征。

　　目前，主流自動駕駛技術(shù)都基于視頻分析。交通場景下捕捉到的視頻序列中包含各種不同視頻目標，如行人、汽車、路面、障礙物、背景中的各種物體等，需要在測試圖像中標識出感興趣類別的目標對象，用來提供給車輛控制系統(tǒng)作為決策依據(jù)。

　　特征的檢測與表示是關(guān)鍵步驟，涉及到如何編碼描述目標圖像信息的問題，比較理想的特征表示方法要能適應(yīng)各種干擾因素的影響，比如尺度、外觀、遮擋、復(fù)雜背景等情況。

　　2.1 道路與車道識別

　　道路與車道識別是自動駕駛技術(shù)的基礎(chǔ)內(nèi)容，如 Caltech lane detector中論述。常見的道路的識別算法基于圖像特征進行計算，其分析圖像中表示車道線或道路邊界等的灰度，顏色，紋理等特征，通過神經(jīng)網(wǎng)絡(luò)、支持向量機、聚類分析和區(qū)域生長等方法便可以分割出路面區(qū)域。這類方法對道路曲率的變化有很好的魯棒性。

　　最近基于條件隨機場的道路檢測方法取得了重要的進展。由于道路及邊沿的種類繁多，紛雜的車輛以及路邊雜物的遮擋，樹木以及建筑物的陰影干擾等，使得最基本的道路檢測存在需要進一步提升的空間。

　　2.2 車輛檢測技術(shù)

　　車輛檢測技術(shù)為自動駕駛領(lǐng)域研究的熱點之一。前向車輛碰撞預(yù)警系統(tǒng)是一種有效降低主動事故發(fā)生率的技術(shù)，其廣泛采用車輛定位的方法實現(xiàn)，可以利用車輛自身的圖像特征，如陰影、對稱性、邊緣等，例如常用的底部陰影以及車輛的兩個縱向邊緣構(gòu)成的 U 型特征等，快速定位車輛感興趣的區(qū)域，再利用多目標跟蹤算法對檢測的車輛進行跟蹤。

　　2.3 行人檢測及防碰撞系統(tǒng)

　　以「行人保護」為目的的行人檢測及防碰撞系統(tǒng)也成為自動駕駛領(lǐng)域的研究熱點。目前統(tǒng)計學(xué)習(xí)方法在行人檢測中應(yīng)用最為廣泛，特征提取和分類定位是基于統(tǒng)計學(xué)習(xí)方法的兩個關(guān)鍵問題。

　　基于統(tǒng)計學(xué)習(xí)的行人檢測主要包含基于生成式模型（局部）的檢測方法和基于特征分類（整體）的檢測算法：

　　基于生成式模型的檢測方法通常采用局部特征或者肢體模型來描述局部屬性，結(jié)合局部特征的空間結(jié)構(gòu)特性或分布模型進行分類。

　　基于特征分類的檢測方法目的是找到一種能夠很好地描述行人特征的方法。通過提取行人的灰度、邊緣、紋理、顏色等信息，根據(jù)大量的樣本構(gòu)建行人檢測分類器，從樣本集中學(xué)習(xí)人體的不同變化，把視頻圖像中的行人目標從背景中分割出來并精確定位。

　　2005 年 Dalal 提出梯度直方圖（Histogram of Oriented Gradient，HOG）是一個最基本的特征，具有非常強的魯棒性，其他很多行人檢測的算法都是在使用 HOG 的基礎(chǔ)上，加上其它特征，如尺度不變特征轉(zhuǎn)換（Scale-invariant Feature Transform，SIFT）、局部二值模式（Local Binary Pattern，LBP）、顏色自相似（Color Self—Similarity，CSS）、多通道等等。

　　Cheng 等人觀察到物體都有閉合邊緣，基于 HOG 特征提出了一種二進制歸一化梯度特征（BING）來預(yù)測顯著性窗口的方法，該方法運行速度非常快，可以達到 300 fps。趙勇等在 HOG 的基礎(chǔ)上提出了一個具有較好的尺度不變特征 eHOG，將 HOG 中梯度直方圖中每個 bin 的特征重構(gòu)成一個位平面，再計算其 HOG 特征。實驗表明，在計算量沒有大幅度增加的情況下，正確率比原 HOG 高 3 ~ 6 個百分點。HOG 特征存在一個問題，即整個 HOG 特征被拉長成一個矢量，弱化了原來在二維平面局部空間的梯度特征之間的局部關(guān)聯(lián)特性。

　　張永軍等人提出的 I-HOG采用多尺度的特征提取算法和構(gòu)建梯度直方圖之間的關(guān)聯(lián)，增強了行人邊緣信息在二維平面空間的局部關(guān)聯(lián)， I-HOG 特征相較于原 HOG 特征較大幅度的提高了檢測率。SIFT 是一種檢測局部特征的算法，該算法通過求一幅圖中的特征點及其有關(guān)尺度和方向的描述得到特征并進行圖像特征點匹配，用于檢索或者標準圖庫類別的識別時，其不僅具有尺度不變性，即使改變旋轉(zhuǎn)角度，圖像亮度或拍攝視角也能夠得到非常好的檢測效果。

　　3 基于深度學(xué)習(xí)的自動駕駛技術(shù)

　　基于視頻分析的目標檢測與識別技術(shù)經(jīng)歷了從傳統(tǒng)特征，如：HOG、SIFT、Bag of visual words和 Fisher 核矢量到深度學(xué)習(xí)的過渡過程。

　　HOG 得到的描述保持圖像的幾何和光學(xué)轉(zhuǎn)化不變性。Fisher 核矢量能統(tǒng)一各類特征的維度、壓縮時精度損失很小等，這些傳統(tǒng)直觀的特征，在目前階段取得了很好的使用效果。但由于目標的種類繁多，變化較大，以及視角的變化等等，使得傳統(tǒng)基于特征的目標檢測遇到了很難超越的瓶頸。

　　近年來，深度學(xué)習(xí)的興起，使得大量多類多狀態(tài)下目標檢測與識別的性能可以大幅度提升到擬人水平，甚至在許多方面超越人類。深度學(xué)習(xí)特征為從大量訓(xùn)練數(shù)據(jù)中自動學(xué)習(xí)到的特征，較傳統(tǒng)特征相比，更能刻畫目標的本質(zhì)。

　　深度學(xué)習(xí)有多個常用模型框架，如自動編碼器、稀疏編碼、限制波爾茲曼機、深信度網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)等。其中基于卷積神經(jīng)網(wǎng)絡(luò)（Convolution Neural Network，CNN）的深度學(xué)習(xí)模型是最常用的模型和研究熱點之一。

　　20 世紀 60 年代，Hubel 和 Wiesel在研究貓腦皮層中用于局部敏感和方向選擇的神經(jīng)元時發(fā)現(xiàn)其獨特的網(wǎng)絡(luò)結(jié)構(gòu)可以有效地降低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性，繼而提出了 CNN。K.Fukushima 在 1980 年提出的新識別機是 CNN 的第一個實現(xiàn)網(wǎng)絡(luò)。隨后，目標檢測通過掃描窗來學(xué)習(xí)并進行檢測，大大提高了多類檢測目標識別的效率。最具有代表性的是深度學(xué)習(xí)鼻祖 Hinton 的工作，作者訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)來對 LSVRC-2010 和 LSVRC-2012 的 120 萬張圖像進行 1000 種以上的分類，獲得當時最高的檢測率。這種基于掃描窗的方法主要缺點是：掃描窗的大小和位置組合太多，導(dǎo)致計算量過大而難以實現(xiàn)。

　　CNN 思路近年來經(jīng)過不斷改進，其精確度和計算效率得到極大提升。2014 年 Girshick 等人提出了 R-CNNL ，其思想為將每個圖片分為約 2000 個區(qū)域輸入 CNN 訓(xùn)練，從預(yù)選框中通過 CNN 提取出固定長度的特征，最后通過特定類別的支持向量機（SVM）來分類。由于需將每一個候選區(qū)域分別送人到 Alexnet 中進行檢測，導(dǎo)致檢測速度很慢，因此何覬名等人提出SPPnet 。SPPnet 改變以往使用剪裁一幅圖片使其尺寸滿足 Alexnet 輸入要求，而是使用任意尺寸圖片作為輸入。

　　Fast-RCNN在 SPPnet 的基礎(chǔ)上，使用顯著性檢測方法在原始圖像上提取出預(yù)選區(qū)域，并將每一個區(qū)域坐標映射到特定圖上，在進行目標檢測時，使用 ROI 池化層選取映射的坐標區(qū)域，部分卷積圖像送人分類器，無需對每一個預(yù)選區(qū)進行卷積運算，大大提高了檢測速度。

　　2015 年 Ren 等提出 Faster-RCNN ，在之前的基礎(chǔ)上使用一個 RPN 網(wǎng)絡(luò)，使用卷積運算一次得到卷積特征圖像，F(xiàn)aster-RCNN 是對 Fast-RCNN 的進一步加速。在 2015 年 12 月的 ICCV 國際會議上，鄒文斌博士在 R-CNN 的基礎(chǔ)上，提出了基于 RCNN 的多層次結(jié)構(gòu)顯著性目標檢測方法，在 MSRA-B ，PASCAL-1500 和 SOD 三個數(shù)據(jù)集上的實驗表明，其檢測率達到當時業(yè)界最高水平。在該會議上，Kontschieder 舊引等提出了在 CNN 各層輸出的特征基礎(chǔ)上，采用隨機森林，在公開的數(shù)據(jù)集 MNIST 和Imagenet上，獲得了較高的檢測率。

　　CNN 和多通道處理結(jié)合的方法在圖像識別上也有不錯的效果：

　　2011 年 Pierre Sermanet等人提出多尺度 CNN 算法，將原始圖像和其子取樣的卷積結(jié)果通過線性分類器分類，其 GTSRB 數(shù)據(jù)集上精確度達到 98.97％。

　　2012 年 Dan Ciresan等人提出使用多通道深度神經(jīng)網(wǎng)絡(luò)的方法識別交通信號。該方法將訓(xùn)練圖片同時輸入 N 個深度神經(jīng)網(wǎng)同時訓(xùn)練，進行預(yù)測時，計算輸入圖像的 N 個深度神經(jīng)網(wǎng)預(yù)測結(jié)果的平均值作為最終結(jié)果，其預(yù)測結(jié)果準確率達到 99.46％，超過了人工識別精度。

　　2014 年 Karen Simonyan釗等人將連續(xù)視頻分為空間流和時間流，使用不同的 CNN 處理同一段視頻的物體特征和行為特征，并將二者結(jié)合進行行為判別，也極大地提升了識別的精確度。

　　在輔助駕駛和自動駕駛中，需要識別和估計的目標繁多，包括前方機動車、非機動車、行人、道路標識、道路本身、車道線等等，導(dǎo)致基于目標監(jiān)測與識別的學(xué)習(xí)算法變得十分復(fù)雜。在自動駕駛與機器人導(dǎo)航中，另一種方法直接從視頻圖像中學(xué)習(xí)前進方向的角度來尋找路徑和繞開障礙物，以及Yann Lecun 的工作，即通過端到端學(xué)習(xí)，以實現(xiàn)非道路上的障礙物避讓，使用 6 層的 CNN 學(xué)習(xí)人的駕駛行為，可以在穿越視野內(nèi)區(qū)域的同時學(xué)習(xí)低層和高層特征，消除人工的校準、矯正、參數(shù)調(diào)整等等，該系統(tǒng)主要的優(yōu)點是對各種不同環(huán)境下的非道路環(huán)境有非常好的魯棒性。

　　圖 1 深度駕駛算法架構(gòu)

　　以上工作均為通過深度學(xué)習(xí)直接將圖像映射到行駛的角度下進行的。在這一思想的影響下，在 ICCV 2015 上，普林斯頓大學(xué)提出了深度駕駛算法，其算法架構(gòu)如圖 1 所示，通過深度神經(jīng)網(wǎng)絡(luò)直接感知駕駛操控（driving affordance），不僅大大簡化了算法的復(fù)雜度，而且大大提高了自動駕駛的魯棒性和智能化水平，是自動駕駛技術(shù)上的一個重大突破。

　　深度駕駛的技術(shù)，通過采用 CNN 來直接學(xué)習(xí)和感知一段時間正確駕駛過程以后，就能學(xué)習(xí)和感知到實際道路情況下的相關(guān)駕駛智能，無需通過感知具體的路況和各種目標，大幅度提升了輔助駕駛算法的性能。

　　4 總結(jié)與展望

　　自動駕駛技術(shù)是未來汽車智能化的研究熱點之一。從綜述的文章中可以得出，基于傳統(tǒng)目標檢測最有效 HOG 特征、SIFT 特征、CSS 等特征的自動駕駛技術(shù)已經(jīng)取得了不錯成績。

　　由于實際路況極度復(fù)雜，基于傳統(tǒng)目標檢測的輔助駕駛技術(shù)性能難以得到大幅度提升，現(xiàn)有的自動駕駛技術(shù)，一般依賴于先進的雷達系統(tǒng)，顯著增加了系統(tǒng)實施的成本。深度駕駛技術(shù)能同時感知道路和道路上的各類目標，為自動駕駛系統(tǒng)提供駕駛邏輯支持，是未來自動駕駛技術(shù)研究的方向之一。

　　在具體的輔助駕駛算法中，如果對路況和目標缺乏整體感知，則很難達到實用化和商用化水平。吸取傳統(tǒng)自動駕駛技術(shù)中的精華，借鑒深度學(xué)習(xí)研究的最新成果，整合傳統(tǒng)特征和深度學(xué)習(xí)特征，以提供更多信息，不失為一個較好的解決方法。設(shè)計自動駕駛技術(shù)的新算法，進一步提升深度駕駛的擬人化和實用化水平，是一條值得去繼續(xù)探索的道路。

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話：010-82306118；郵箱：aet@chinaaet.com。

基于計算機視覺的自動駕駛算法研究綜述

日期： 2018-02-10

相關(guān)內(nèi)容