《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 基于深度學(xué)習(xí)的智能路牌識(shí)別系統(tǒng)設(shè)計(jì)
基于深度學(xué)習(xí)的智能路牌識(shí)別系統(tǒng)設(shè)計(jì)
2018年電子技術(shù)應(yīng)用第6期
林付春,劉宇紅,,張達(dá)峰,,張榮芬
貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽(yáng)550025
摘要: 提出了一種基于機(jī)器視覺和深度學(xué)習(xí)的智能路牌識(shí)別系統(tǒng),。采用嵌入式的ARM9作為前端采集系統(tǒng),在服務(wù)器上采用圖像處理算法先對(duì)前端采集的路牌圖像進(jìn)行文字區(qū)域的提取和分割,,然后用訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)對(duì)分割的文字進(jìn)行識(shí)別,,最后將識(shí)別信息以語(yǔ)音的形式反饋給使用者。使用前端硬件在高速公路上采集路牌圖像并在服務(wù)器的CAFFE框架上進(jìn)行測(cè)試,,結(jié)果表明該系統(tǒng)能實(shí)時(shí)準(zhǔn)確地將路牌信息以語(yǔ)音的方式播報(bào)給使用者,。
中圖分類號(hào): TP181
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.174570
中文引用格式: 林付春,劉宇紅,,張達(dá)峰,,等. 基于深度學(xué)習(xí)的智能路牌識(shí)別系統(tǒng)設(shè)計(jì)[J].電子技術(shù)應(yīng)用,2018,,44(6):68-71.
英文引用格式: Lin Fuchun,,Liu Yuhong,Zhang Dafeng,,et al. Design of intelligent road card recognition system based on deep learning[J]. Application of Electronic Technique,,2018,44(6):68-71.
Design of intelligent road card recognition system based on deep learning
Lin Fuchun,,Liu Yuhong,,Zhang Dafeng,Zhang Rongfen
College of Big Data and Information Engineering,,Guizhou University,,Guiyang 550025,China
Abstract: This paper proposed a scheme design of intelligent road card recognition system based on machine vision and deep learning. ARM9 is used as the part of front-end collection system,the image processing algorithm is used to complete the area extraction and segmentation of the road card text from the front-end acquisition image, the deep learning with a convolutional neural network is used to recognize the text in the cloud server, and the speech of the text information is presented to the user. Using the front-end hardware to get the road card images on the high way, the function of our system under CAFFE framework on the server is tested and the results show that the system can broadcast the road card information effectively to the user in real time.
Key words : road card recognition,;machine vision,;deep learning,;convolutional neural network;Cortex-A9

0 引言

    隨著社會(huì)的快速發(fā)展,,現(xiàn)今的生活中,,汽車已經(jīng)成為主要的交通工具,路牌也成為一種重要的導(dǎo)航工具,。無(wú)論是高速公路還是國(guó)道,、省道,到處都樹立著路牌,。然而,,由于路牌常常被豎立在路的兩邊,當(dāng)司機(jī)需要了解路旁路牌的信息時(shí),,注意力很容易被分散,,當(dāng)駕駛者對(duì)自己所在道路不熟悉的時(shí)候,前方路況和各種標(biāo)志的路牌會(huì)讓駕駛者的心里壓力變大,,駕駛者由于減速觀看路牌很容易發(fā)生交通堵塞和交通事故,,使得交通狀況變得更加惡劣。對(duì)此,,國(guó)內(nèi)外一些研究學(xué)者對(duì)路牌的識(shí)別進(jìn)行了研究[1],,但效果不是很理想,將路牌識(shí)別系統(tǒng)實(shí)現(xiàn)的更是少之又少,。智能路牌識(shí)別系統(tǒng)能有效地提取路牌信息,,幫助駕駛者理解路牌的信息,對(duì)于安全駕駛有著極其重要意義,,對(duì)將來(lái)智能駕駛戰(zhàn)略也將做出突出的貢獻(xiàn),。

1 智能路牌識(shí)別控制系統(tǒng)的總體設(shè)計(jì)

    本系統(tǒng)由基于嵌入式技術(shù)的前端采集、通信傳輸系統(tǒng)和遠(yuǎn)程云服務(wù)器識(shí)別系統(tǒng)組成,。前端采集傳輸采用基于三星Cortex-A9架構(gòu)的核心板,,配備一千萬(wàn)像素?cái)z像頭、語(yǔ)音播報(bào)模塊和4G通信模塊構(gòu)建智能路牌識(shí)別系統(tǒng)的硬件平臺(tái),。攝像頭采集含有路牌的圖像,,由主控芯片對(duì)圖像進(jìn)行壓縮,壓縮后的圖像在4G模塊下通過(guò)SOCKET程序傳送到云服務(wù)器上,。采用云平臺(tái)服務(wù)器作為智能路牌識(shí)別器的數(shù)據(jù)處理中心,,在服務(wù)器上通過(guò)深度學(xué)習(xí)算法訓(xùn)練文字識(shí)別網(wǎng)絡(luò),將分割后的圖像在訓(xùn)練好的網(wǎng)絡(luò)上進(jìn)行識(shí)別,,然后將得到的結(jié)果傳輸?shù)角岸耍ㄟ^(guò)語(yǔ)音模塊播報(bào)給使用者,。智能路牌識(shí)別器的總體設(shè)計(jì)如圖1所示,。

ck5-t1.gif

2 智能路牌識(shí)別控制系統(tǒng)的硬件設(shè)計(jì)

2.1 主控單元模塊

    該模塊采用ARM9核心的處理器作為中央控制單元模塊,,用它實(shí)現(xiàn)對(duì)前端采集系統(tǒng)各個(gè)單元模塊所采集的數(shù)據(jù)信息進(jìn)行匯總分析和處理,對(duì)各個(gè)功能模塊發(fā)出控制指令,,協(xié)調(diào)整個(gè)系統(tǒng)穩(wěn)定運(yùn)行,。中央控制單元完成圖像采集,根據(jù)預(yù)先板載的壓縮算法程序完成圖像壓縮,,通??蛇_(dá)到6:1的壓縮率,并發(fā)給云服務(wù)器,,減小了傳輸時(shí)間,,保證了信息傳輸?shù)膶?shí)時(shí)性。中央控制單元同時(shí)接收來(lái)自云服務(wù)器發(fā)送的識(shí)別結(jié)果,,并將結(jié)果通過(guò)語(yǔ)音模塊反饋給使用者,。

2.2 前端采集模塊

    前端采集采用的是一千萬(wàn)像素的CMOS高清攝像頭,它能夠清晰地拍攝前方場(chǎng)景信息,,用于智能路牌識(shí)別系統(tǒng)對(duì)路牌信息的采集,。得到的高清圖片存儲(chǔ)在中央控制單元,并由中央控制單元對(duì)其進(jìn)行處理,。

2.3 無(wú)線通信模塊

    無(wú)線通信模塊由外圍電路和4G通信芯片構(gòu)成,,使用SOCKET通信和4G通信技術(shù),完成智能路牌識(shí)別系統(tǒng)和云端服務(wù)器的相互連接,。在中央處理器模塊的控制下,,前端采集壓縮的圖片在無(wú)線通信模塊的作用下發(fā)送給云端服務(wù)器,同時(shí)云端服務(wù)器將處理完成的信息通過(guò)無(wú)線傳輸模塊發(fā)送給中央控制單元,,把結(jié)果實(shí)時(shí)反饋給使用者,。

2.4 語(yǔ)音文字播報(bào)模塊

    語(yǔ)音播報(bào)模塊主要作用是將云端服務(wù)器處理的路牌文字信息以語(yǔ)音播報(bào)的形式展現(xiàn)給駕駛者,使得駕駛者不用因環(huán)顧四周的路牌文字而分心,。該模塊主要采用SYN6288中文語(yǔ)音合成芯片實(shí)現(xiàn)對(duì)語(yǔ)音文字的播報(bào),,把云端服務(wù)器發(fā)送的文本文字轉(zhuǎn)化為音頻信息。SYN6288語(yǔ)音芯片采用UART和SPI兩種通信方式,,實(shí)現(xiàn)文本智能分析處理,、多音字處理功能。該模塊的電路如圖2所示,。

ck5-t2.gif

3 智能路牌識(shí)別控制系統(tǒng)的軟件設(shè)計(jì)

    本系統(tǒng)軟件的設(shè)計(jì)由兩部分組成,。一部分是前端ARM9加載Linux系統(tǒng)的設(shè)計(jì),完成前端信息的采集壓縮,、云端服務(wù)器通信和語(yǔ)音播報(bào)的功能,。前端采集程序流程圖如圖3所示。

ck5-t3.gif

    另一部分是在云端服務(wù)器上實(shí)現(xiàn)對(duì)采集圖像的預(yù)處理,、檢測(cè),、分割和分類識(shí)別功能,。云端服務(wù)器首先對(duì)前端發(fā)送的圖像解壓縮、預(yù)處理,,利用支持向量機(jī)(SVM)算法檢測(cè)是否含有路牌,。檢測(cè)到路牌之后對(duì)路牌區(qū)域進(jìn)行提取,對(duì)提取后的路牌進(jìn)行圖像處理,,然后利用投影法對(duì)文字進(jìn)行分割,,最后進(jìn)行文字識(shí)別。其中文字識(shí)別部分采用的是目前流行的深度學(xué)習(xí)框架——CAFFE框架,,主要采用C++/CUDA高級(jí)語(yǔ)言來(lái)實(shí)現(xiàn)對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練和文字的識(shí)別,。云端服務(wù)器程序流程圖如圖4所示。

ck5-t4.gif

4 基于卷積神經(jīng)網(wǎng)絡(luò)的文字識(shí)別算法

    卷積神經(jīng)網(wǎng)絡(luò)(CNN)是深度學(xué)習(xí)領(lǐng)域的一個(gè)重要算法,,在很多應(yīng)用上表現(xiàn)出卓越的效果[2-3],。目前字符識(shí)別算法有很多種,但對(duì)漢字的識(shí)別,,特別是自然場(chǎng)景的文字識(shí)別都有一定的局限[4-5],。將多種文檔字符識(shí)別算法與CNN比較,會(huì)發(fā)現(xiàn)CNN算法比其他算法的效果都好,。在本文的智能路牌識(shí)別系統(tǒng)中,,主要利用CNN對(duì)日常生活中常見的3 000個(gè)漢字進(jìn)行訓(xùn)練然后識(shí)別。CNN是在BP神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)上改進(jìn)得到的,,它們都是采用了向前傳播計(jì)算網(wǎng)絡(luò)的輸出值,,通過(guò)誤差計(jì)算公式,向后傳播修正權(quán)重和偏置的值,。與傳統(tǒng)的特征提取方法相比,,CNN最大的改進(jìn)就是卷積神經(jīng)網(wǎng)絡(luò)是利用卷積核進(jìn)行特征提取,相鄰層之間不是全連接,,而只是部分進(jìn)行連接,,從而得到局部特征。在一個(gè)特征平面采用權(quán)值共享機(jī)制,,很大程度上減少了權(quán)值的數(shù)量,。

    本文設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,輸入的數(shù)據(jù)為一張40×40像素的圖片,,第一層為卷積層,,由64個(gè)3×3卷積核組成,每個(gè)卷積核都各自提取不同的一種特征,,通過(guò)輸入與卷積核運(yùn)算來(lái)提取圖像的局部特征,。然后進(jìn)入池化層,在2×2的窗口中選取最大值作為一個(gè)輸出值,,從而降低了數(shù)據(jù)維度,。以此類推,,計(jì)算第二層128個(gè)卷積核和第三層256個(gè)卷積核的卷積運(yùn)算,。全連接層分別采用4 096和3 000個(gè)1×1的卷積核進(jìn)行全連接來(lái)提取圖片文字的全局特征進(jìn)行分類,。然后根據(jù)誤差輸出公式進(jìn)行誤差計(jì)算,反向進(jìn)行權(quán)值和偏置更新,。為了防止過(guò)擬合,,采用dropout對(duì)網(wǎng)絡(luò)權(quán)值和偏置進(jìn)行部分更新。反復(fù)進(jìn)行計(jì)算多次實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練的目的,。

ck5-t5.gif

    在智能路牌識(shí)別系統(tǒng)中,,挑選日常常用的3 000個(gè)漢字進(jìn)行了訓(xùn)練,基于國(guó)家標(biāo)準(zhǔn)規(guī)定——道路路牌采用方正黑體格式漢字,,實(shí)驗(yàn)中通過(guò)計(jì)算機(jī)生成了相應(yīng)圖像數(shù)據(jù),。利用C#語(yǔ)言生成40像素×40像素的漢字圖片作為測(cè)試集和訓(xùn)練集,如圖6所示,。

ck5-t6.gif

    考慮到前端采集模塊在實(shí)際采集圖片時(shí)會(huì)出現(xiàn)各種干擾,,如硬件發(fā)熱、外界環(huán)境干擾,、光線的亮暗等因素的影響,,使得圖像帶有噪聲點(diǎn)、圖片模糊,、字跡不清或者產(chǎn)生旋轉(zhuǎn)和扭曲等狀況,,因此,需將生成的每個(gè)漢字圖像進(jìn)行圖像處理,,分別對(duì)其進(jìn)行各種隨機(jī)的噪聲點(diǎn)生成,、腐蝕膨脹以及不同角度的旋轉(zhuǎn)和扭曲。這樣對(duì)每一個(gè)漢字圖片產(chǎn)生300張不同的圖片,,獲得了更多的數(shù)據(jù)量,,這樣測(cè)試集和訓(xùn)練集一共有900 000個(gè)數(shù)據(jù)。通過(guò)圖5所示的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,。

5 系統(tǒng)的測(cè)試與分析

    由于現(xiàn)在路牌場(chǎng)景種類繁多,,測(cè)試實(shí)驗(yàn)中采用比較規(guī)范、應(yīng)用比較多,、文字方向從左自右的路牌進(jìn)行實(shí)驗(yàn),。如圖7(a)所示,對(duì)前端發(fā)送到服務(wù)器的圖像,,先通過(guò)Canny算子邊緣檢測(cè)粗定位和MSER算法細(xì)定位,,使用SVM算法來(lái)判斷是否含有路牌,判斷出路牌標(biāo)識(shí)后對(duì)圖像進(jìn)行路牌區(qū)域提取,。

    路牌區(qū)域提取采用基于HSI顏色空間的方法,?;谖覈?guó)以綠底和藍(lán)底作為路牌的背景,采用HSI空間中的H分量將路牌區(qū)域提取出來(lái),。本實(shí)驗(yàn)將H參數(shù)設(shè)定在[150,,190]區(qū)間,得出實(shí)驗(yàn)結(jié)果如圖7(b)所示,。

ck5-t7.gif

    在文字檢測(cè)部分,,采用Canny算子進(jìn)行邊緣檢測(cè)[6],提取漢字的邊緣,,然后用形態(tài)學(xué)對(duì)漢字進(jìn)行處理,,將文字與文字分開同時(shí)將文字的各個(gè)部分進(jìn)行連接,以便于進(jìn)行文字分割,。在文字分割部分,,采用投影法,根據(jù)像素值的特征進(jìn)行分割,。首先對(duì)路牌進(jìn)行二值化處理,,先進(jìn)行水平投影像素值相加,進(jìn)行行分割,,分割效果如圖8所示,。

ck5-t8.gif

    然后豎直方向投影進(jìn)行像素值相加,進(jìn)行豎直方向分割,,分割效果如圖9所示,。通過(guò)連通區(qū)域算法分析得到各個(gè)文字區(qū)域,最后歸一化為40像素×40像素圖像,,送入深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類識(shí)別,。

ck5-t9.gif

    采用本實(shí)驗(yàn)設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu),將數(shù)據(jù)集的800 000個(gè)數(shù)據(jù)作為訓(xùn)練集,,100 000個(gè)數(shù)據(jù)集作為測(cè)試集,,在云服務(wù)器上迭代8 000次,得到99%的準(zhǔn)確率,,測(cè)試的準(zhǔn)確率和損失值如圖10所示,,當(dāng)?shù)螖?shù)達(dá)到900次左右時(shí),準(zhǔn)確率趨于平穩(wěn),,由此可見CNN在路牌漢字識(shí)別上具有優(yōu)勢(shì)和潛在的應(yīng)用價(jià)值,。

ck5-t10.gif

6 結(jié)論

    本文完成了智能路牌識(shí)別系統(tǒng)從硬件到軟件的設(shè)計(jì),實(shí)現(xiàn)了硬件的圖像采集壓縮和軟件的圖像處理,、區(qū)域檢測(cè)和文字分割,,最后通過(guò)語(yǔ)音模塊播報(bào)給使用者的功能。該系統(tǒng)對(duì)駕駛者有十分重要的作用,并可運(yùn)用在無(wú)人駕駛領(lǐng)域,,對(duì)新世紀(jì)的智能交通也將做出突出的貢獻(xiàn),。本文系統(tǒng)未考慮前端動(dòng)態(tài)拍攝時(shí)的模糊圖像處理問(wèn)題,即當(dāng)車輛行駛太快情況下,,前端采集的圖像可能會(huì)不清晰,,這也是下一步將努力的方向。

參考文獻(xiàn)

[1] GONZALEZ A,,BERGASA L M,,YEBES J J.Text detection and recognition on traffic panels from street-level imagery using visual appearance[J].IEEE Transaction on Intelligent Transportation Systems,2014,,15(1):228-238.

[2] 王愷,靳簡(jiǎn)明,,史廣順,,等.基于特征點(diǎn)的漢字字體識(shí)別研究[J].電子與信息學(xué)報(bào),2008,,30(2):272-276.

[3] 鄭胤,,陳權(quán)崎,章毓晉.深度學(xué)習(xí)及其在目標(biāo)和行為識(shí)別中的新進(jìn)展[J].中國(guó)圖象圖形學(xué)報(bào),,2014,,19(2):175-184.

[4] 孫彩虹.自然場(chǎng)景中路牌漢字識(shí)別技術(shù)研究[D].南京:南京理工大學(xué),2014.

[5] 劉居鋒.自然場(chǎng)景中交通標(biāo)志文字檢測(cè)算法研究[D].北京:北京理工大學(xué),,2014.

[6] 曾俊.圖像邊緣檢測(cè)技術(shù)及其應(yīng)用研究[D].武漢:華中科技大學(xué),,2011.



作者信息:

林付春,劉宇紅,,張達(dá)峰,,張榮芬

(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽(yáng)550025)

此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載,。