文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.174570
中文引用格式: 林付春,劉宇紅,,張達(dá)峰,,等. 基于深度學(xué)習(xí)的智能路牌識(shí)別系統(tǒng)設(shè)計(jì)[J].電子技術(shù)應(yīng)用,2018,,44(6):68-71.
英文引用格式: Lin Fuchun,,Liu Yuhong,Zhang Dafeng,,et al. Design of intelligent road card recognition system based on deep learning[J]. Application of Electronic Technique,,2018,44(6):68-71.
0 引言
隨著社會(huì)的快速發(fā)展,,現(xiàn)今的生活中,,汽車已經(jīng)成為主要的交通工具,路牌也成為一種重要的導(dǎo)航工具,。無(wú)論是高速公路還是國(guó)道,、省道,到處都樹立著路牌,。然而,,由于路牌常常被豎立在路的兩邊,當(dāng)司機(jī)需要了解路旁路牌的信息時(shí),,注意力很容易被分散,,當(dāng)駕駛者對(duì)自己所在道路不熟悉的時(shí)候,前方路況和各種標(biāo)志的路牌會(huì)讓駕駛者的心里壓力變大,,駕駛者由于減速觀看路牌很容易發(fā)生交通堵塞和交通事故,,使得交通狀況變得更加惡劣。對(duì)此,,國(guó)內(nèi)外一些研究學(xué)者對(duì)路牌的識(shí)別進(jìn)行了研究[1],,但效果不是很理想,將路牌識(shí)別系統(tǒng)實(shí)現(xiàn)的更是少之又少,。智能路牌識(shí)別系統(tǒng)能有效地提取路牌信息,,幫助駕駛者理解路牌的信息,對(duì)于安全駕駛有著極其重要意義,,對(duì)將來(lái)智能駕駛戰(zhàn)略也將做出突出的貢獻(xiàn),。
1 智能路牌識(shí)別控制系統(tǒng)的總體設(shè)計(jì)
本系統(tǒng)由基于嵌入式技術(shù)的前端采集、通信傳輸系統(tǒng)和遠(yuǎn)程云服務(wù)器識(shí)別系統(tǒng)組成,。前端采集傳輸采用基于三星Cortex-A9架構(gòu)的核心板,,配備一千萬(wàn)像素?cái)z像頭、語(yǔ)音播報(bào)模塊和4G通信模塊構(gòu)建智能路牌識(shí)別系統(tǒng)的硬件平臺(tái),。攝像頭采集含有路牌的圖像,,由主控芯片對(duì)圖像進(jìn)行壓縮,壓縮后的圖像在4G模塊下通過(guò)SOCKET程序傳送到云服務(wù)器上,。采用云平臺(tái)服務(wù)器作為智能路牌識(shí)別器的數(shù)據(jù)處理中心,,在服務(wù)器上通過(guò)深度學(xué)習(xí)算法訓(xùn)練文字識(shí)別網(wǎng)絡(luò),將分割后的圖像在訓(xùn)練好的網(wǎng)絡(luò)上進(jìn)行識(shí)別,,然后將得到的結(jié)果傳輸?shù)角岸耍ㄟ^(guò)語(yǔ)音模塊播報(bào)給使用者,。智能路牌識(shí)別器的總體設(shè)計(jì)如圖1所示,。
2 智能路牌識(shí)別控制系統(tǒng)的硬件設(shè)計(jì)
2.1 主控單元模塊
該模塊采用ARM9核心的處理器作為中央控制單元模塊,,用它實(shí)現(xiàn)對(duì)前端采集系統(tǒng)各個(gè)單元模塊所采集的數(shù)據(jù)信息進(jìn)行匯總分析和處理,對(duì)各個(gè)功能模塊發(fā)出控制指令,,協(xié)調(diào)整個(gè)系統(tǒng)穩(wěn)定運(yùn)行,。中央控制單元完成圖像采集,根據(jù)預(yù)先板載的壓縮算法程序完成圖像壓縮,,通??蛇_(dá)到6:1的壓縮率,并發(fā)給云服務(wù)器,,減小了傳輸時(shí)間,,保證了信息傳輸?shù)膶?shí)時(shí)性。中央控制單元同時(shí)接收來(lái)自云服務(wù)器發(fā)送的識(shí)別結(jié)果,,并將結(jié)果通過(guò)語(yǔ)音模塊反饋給使用者,。
2.2 前端采集模塊
前端采集采用的是一千萬(wàn)像素的CMOS高清攝像頭,它能夠清晰地拍攝前方場(chǎng)景信息,,用于智能路牌識(shí)別系統(tǒng)對(duì)路牌信息的采集,。得到的高清圖片存儲(chǔ)在中央控制單元,并由中央控制單元對(duì)其進(jìn)行處理,。
2.3 無(wú)線通信模塊
無(wú)線通信模塊由外圍電路和4G通信芯片構(gòu)成,,使用SOCKET通信和4G通信技術(shù),完成智能路牌識(shí)別系統(tǒng)和云端服務(wù)器的相互連接,。在中央處理器模塊的控制下,,前端采集壓縮的圖片在無(wú)線通信模塊的作用下發(fā)送給云端服務(wù)器,同時(shí)云端服務(wù)器將處理完成的信息通過(guò)無(wú)線傳輸模塊發(fā)送給中央控制單元,,把結(jié)果實(shí)時(shí)反饋給使用者,。
2.4 語(yǔ)音文字播報(bào)模塊
語(yǔ)音播報(bào)模塊主要作用是將云端服務(wù)器處理的路牌文字信息以語(yǔ)音播報(bào)的形式展現(xiàn)給駕駛者,使得駕駛者不用因環(huán)顧四周的路牌文字而分心,。該模塊主要采用SYN6288中文語(yǔ)音合成芯片實(shí)現(xiàn)對(duì)語(yǔ)音文字的播報(bào),,把云端服務(wù)器發(fā)送的文本文字轉(zhuǎn)化為音頻信息。SYN6288語(yǔ)音芯片采用UART和SPI兩種通信方式,,實(shí)現(xiàn)文本智能分析處理,、多音字處理功能。該模塊的電路如圖2所示,。
3 智能路牌識(shí)別控制系統(tǒng)的軟件設(shè)計(jì)
本系統(tǒng)軟件的設(shè)計(jì)由兩部分組成,。一部分是前端ARM9加載Linux系統(tǒng)的設(shè)計(jì),完成前端信息的采集壓縮,、云端服務(wù)器通信和語(yǔ)音播報(bào)的功能,。前端采集程序流程圖如圖3所示。
另一部分是在云端服務(wù)器上實(shí)現(xiàn)對(duì)采集圖像的預(yù)處理,、檢測(cè),、分割和分類識(shí)別功能,。云端服務(wù)器首先對(duì)前端發(fā)送的圖像解壓縮、預(yù)處理,,利用支持向量機(jī)(SVM)算法檢測(cè)是否含有路牌,。檢測(cè)到路牌之后對(duì)路牌區(qū)域進(jìn)行提取,對(duì)提取后的路牌進(jìn)行圖像處理,,然后利用投影法對(duì)文字進(jìn)行分割,,最后進(jìn)行文字識(shí)別。其中文字識(shí)別部分采用的是目前流行的深度學(xué)習(xí)框架——CAFFE框架,,主要采用C++/CUDA高級(jí)語(yǔ)言來(lái)實(shí)現(xiàn)對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練和文字的識(shí)別,。云端服務(wù)器程序流程圖如圖4所示。
4 基于卷積神經(jīng)網(wǎng)絡(luò)的文字識(shí)別算法
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是深度學(xué)習(xí)領(lǐng)域的一個(gè)重要算法,,在很多應(yīng)用上表現(xiàn)出卓越的效果[2-3],。目前字符識(shí)別算法有很多種,但對(duì)漢字的識(shí)別,,特別是自然場(chǎng)景的文字識(shí)別都有一定的局限[4-5],。將多種文檔字符識(shí)別算法與CNN比較,會(huì)發(fā)現(xiàn)CNN算法比其他算法的效果都好,。在本文的智能路牌識(shí)別系統(tǒng)中,,主要利用CNN對(duì)日常生活中常見的3 000個(gè)漢字進(jìn)行訓(xùn)練然后識(shí)別。CNN是在BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)上改進(jìn)得到的,,它們都是采用了向前傳播計(jì)算網(wǎng)絡(luò)的輸出值,,通過(guò)誤差計(jì)算公式,向后傳播修正權(quán)重和偏置的值,。與傳統(tǒng)的特征提取方法相比,,CNN最大的改進(jìn)就是卷積神經(jīng)網(wǎng)絡(luò)是利用卷積核進(jìn)行特征提取,相鄰層之間不是全連接,,而只是部分進(jìn)行連接,,從而得到局部特征。在一個(gè)特征平面采用權(quán)值共享機(jī)制,,很大程度上減少了權(quán)值的數(shù)量,。
本文設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,輸入的數(shù)據(jù)為一張40×40像素的圖片,,第一層為卷積層,,由64個(gè)3×3卷積核組成,每個(gè)卷積核都各自提取不同的一種特征,,通過(guò)輸入與卷積核運(yùn)算來(lái)提取圖像的局部特征,。然后進(jìn)入池化層,在2×2的窗口中選取最大值作為一個(gè)輸出值,,從而降低了數(shù)據(jù)維度,。以此類推,,計(jì)算第二層128個(gè)卷積核和第三層256個(gè)卷積核的卷積運(yùn)算,。全連接層分別采用4 096和3 000個(gè)1×1的卷積核進(jìn)行全連接來(lái)提取圖片文字的全局特征進(jìn)行分類,。然后根據(jù)誤差輸出公式進(jìn)行誤差計(jì)算,反向進(jìn)行權(quán)值和偏置更新,。為了防止過(guò)擬合,,采用dropout對(duì)網(wǎng)絡(luò)權(quán)值和偏置進(jìn)行部分更新。反復(fù)進(jìn)行計(jì)算多次實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練的目的,。
在智能路牌識(shí)別系統(tǒng)中,,挑選日常常用的3 000個(gè)漢字進(jìn)行了訓(xùn)練,基于國(guó)家標(biāo)準(zhǔn)規(guī)定——道路路牌采用方正黑體格式漢字,,實(shí)驗(yàn)中通過(guò)計(jì)算機(jī)生成了相應(yīng)圖像數(shù)據(jù),。利用C#語(yǔ)言生成40像素×40像素的漢字圖片作為測(cè)試集和訓(xùn)練集,如圖6所示,。
考慮到前端采集模塊在實(shí)際采集圖片時(shí)會(huì)出現(xiàn)各種干擾,,如硬件發(fā)熱、外界環(huán)境干擾,、光線的亮暗等因素的影響,,使得圖像帶有噪聲點(diǎn)、圖片模糊,、字跡不清或者產(chǎn)生旋轉(zhuǎn)和扭曲等狀況,,因此,需將生成的每個(gè)漢字圖像進(jìn)行圖像處理,,分別對(duì)其進(jìn)行各種隨機(jī)的噪聲點(diǎn)生成,、腐蝕膨脹以及不同角度的旋轉(zhuǎn)和扭曲。這樣對(duì)每一個(gè)漢字圖片產(chǎn)生300張不同的圖片,,獲得了更多的數(shù)據(jù)量,,這樣測(cè)試集和訓(xùn)練集一共有900 000個(gè)數(shù)據(jù)。通過(guò)圖5所示的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,。
5 系統(tǒng)的測(cè)試與分析
由于現(xiàn)在路牌場(chǎng)景種類繁多,,測(cè)試實(shí)驗(yàn)中采用比較規(guī)范、應(yīng)用比較多,、文字方向從左自右的路牌進(jìn)行實(shí)驗(yàn),。如圖7(a)所示,對(duì)前端發(fā)送到服務(wù)器的圖像,,先通過(guò)Canny算子邊緣檢測(cè)粗定位和MSER算法細(xì)定位,,使用SVM算法來(lái)判斷是否含有路牌,判斷出路牌標(biāo)識(shí)后對(duì)圖像進(jìn)行路牌區(qū)域提取,。
路牌區(qū)域提取采用基于HSI顏色空間的方法,?;谖覈?guó)以綠底和藍(lán)底作為路牌的背景,采用HSI空間中的H分量將路牌區(qū)域提取出來(lái),。本實(shí)驗(yàn)將H參數(shù)設(shè)定在[150,,190]區(qū)間,得出實(shí)驗(yàn)結(jié)果如圖7(b)所示,。
在文字檢測(cè)部分,,采用Canny算子進(jìn)行邊緣檢測(cè)[6],提取漢字的邊緣,,然后用形態(tài)學(xué)對(duì)漢字進(jìn)行處理,,將文字與文字分開同時(shí)將文字的各個(gè)部分進(jìn)行連接,以便于進(jìn)行文字分割,。在文字分割部分,,采用投影法,根據(jù)像素值的特征進(jìn)行分割,。首先對(duì)路牌進(jìn)行二值化處理,,先進(jìn)行水平投影像素值相加,進(jìn)行行分割,,分割效果如圖8所示,。
然后豎直方向投影進(jìn)行像素值相加,進(jìn)行豎直方向分割,,分割效果如圖9所示,。通過(guò)連通區(qū)域算法分析得到各個(gè)文字區(qū)域,最后歸一化為40像素×40像素圖像,,送入深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類識(shí)別,。
采用本實(shí)驗(yàn)設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu),將數(shù)據(jù)集的800 000個(gè)數(shù)據(jù)作為訓(xùn)練集,,100 000個(gè)數(shù)據(jù)集作為測(cè)試集,,在云服務(wù)器上迭代8 000次,得到99%的準(zhǔn)確率,,測(cè)試的準(zhǔn)確率和損失值如圖10所示,,當(dāng)?shù)螖?shù)達(dá)到900次左右時(shí),準(zhǔn)確率趨于平穩(wěn),,由此可見CNN在路牌漢字識(shí)別上具有優(yōu)勢(shì)和潛在的應(yīng)用價(jià)值,。
6 結(jié)論
本文完成了智能路牌識(shí)別系統(tǒng)從硬件到軟件的設(shè)計(jì),實(shí)現(xiàn)了硬件的圖像采集壓縮和軟件的圖像處理,、區(qū)域檢測(cè)和文字分割,,最后通過(guò)語(yǔ)音模塊播報(bào)給使用者的功能。該系統(tǒng)對(duì)駕駛者有十分重要的作用,并可運(yùn)用在無(wú)人駕駛領(lǐng)域,,對(duì)新世紀(jì)的智能交通也將做出突出的貢獻(xiàn),。本文系統(tǒng)未考慮前端動(dòng)態(tài)拍攝時(shí)的模糊圖像處理問(wèn)題,即當(dāng)車輛行駛太快情況下,,前端采集的圖像可能會(huì)不清晰,,這也是下一步將努力的方向。
參考文獻(xiàn)
[1] GONZALEZ A,,BERGASA L M,,YEBES J J.Text detection and recognition on traffic panels from street-level imagery using visual appearance[J].IEEE Transaction on Intelligent Transportation Systems,2014,,15(1):228-238.
[2] 王愷,靳簡(jiǎn)明,,史廣順,,等.基于特征點(diǎn)的漢字字體識(shí)別研究[J].電子與信息學(xué)報(bào),2008,,30(2):272-276.
[3] 鄭胤,,陳權(quán)崎,章毓晉.深度學(xué)習(xí)及其在目標(biāo)和行為識(shí)別中的新進(jìn)展[J].中國(guó)圖象圖形學(xué)報(bào),,2014,,19(2):175-184.
[4] 孫彩虹.自然場(chǎng)景中路牌漢字識(shí)別技術(shù)研究[D].南京:南京理工大學(xué),2014.
[5] 劉居鋒.自然場(chǎng)景中交通標(biāo)志文字檢測(cè)算法研究[D].北京:北京理工大學(xué),,2014.
[6] 曾俊.圖像邊緣檢測(cè)技術(shù)及其應(yīng)用研究[D].武漢:華中科技大學(xué),,2011.
作者信息:
林付春,劉宇紅,,張達(dá)峰,,張榮芬
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽(yáng)550025)