文獻標識碼: A
文章編號: 0258-7998(2011)04-0122-04
車牌識別系統(tǒng)LPR(License Plate Recognition)包括車牌定位,、字符分割和字符識別三大部分。其中,,字符識別的準確及高效成為整個車牌識別系統(tǒng)的關鍵,。
車牌字符識別是模式識別的一個重要研究領域,字符特征提取可分為基于統(tǒng)計特征和基于結構特征兩大類[1],,統(tǒng)計方法具有良好的魯棒性和抗干擾性等,,但是,由于其采用累加的方法,對于“敏感部位”的差異也隨之消失,,即對形近字的區(qū)分能力較差,。而結構方法對細節(jié)特征較敏感,區(qū)分形近字符的能力較強,,但是難以抽取,、不穩(wěn)定、算法復雜度高,。分類器設計方面,,人工神經網絡和支持向量機SVM(Support Vector Machine)[2]等技術已被用于車牌字符識別研究中,有效地提高了識別率,,但缺少基于特征的優(yōu)化設計,。
本文針對實際采集的車牌圖像質量不高所導致的字符形變、噪聲,、易混淆的問題,,根據人類視覺活動的問題,選取基于輪廓的統(tǒng)計特征反映字符整體信息,;選取結構特征反映字符細節(jié)信息,,采用SVM作為分類器,并對基于輪廓的特征提取方法進行了優(yōu)化設計,。
1 車牌字符識別算法框架
本文提出的識別算法模擬人類智能,,采用兩級分類識別的思想處理車牌字符識別問題,引入可信度評判機制,。經預處理后的字符首先進入粗分類識別,,采用基于輪廓的統(tǒng)計特征作為粗分類的特征提取方法,利用SVM分類器得出分類識別結果,,并計算結果的可信度,。識別系統(tǒng)將粗分類識別結果的可信度與預先設置好的用于判別形近字的可信度閾值相比較,如果可信度大于閾值,則識別系統(tǒng)將字符歸為非形近字,并將結果輸出;否則, 識別系統(tǒng)將字符歸為形近字,并根據粗分類識別結果,計算字符所屬的形近字類別,將字符送入細分類識別,提取字符的結構特征作為細分類的特征提取方法,利用決策表中的形近字區(qū)分規(guī)則,,得到識別結果,。圖1為識別系統(tǒng)算法流程圖。
2 一級分類識別
2.1 粗分類特征提取
粗分類的特征提取方法應該能夠描繪字符的整體信息,,基于輪廓的統(tǒng)計特征描繪字符外圍輪廓的變化,。利用距離反映輪廓的方法,通過計算字符圖像左,、右,、上、下四個邊框到筆畫間的距離,,得到圖像輪廓的統(tǒng)計特征,。設預處理后的二值化字符圖像為f(i,j),,具體算法為:
其中,width、length為字符圖像的寬和高,。規(guī)定此行或此列沒有筆畫時,,其特征值為零。
圖2為字符‘6’的四組輪廓特征,,從圖中可以看出,,曲線在高度變化上反映出了字符外圍輪廓特征。根據輪廓特征曲線可以找出同類字符間的相關性,、不同類字符間的差異性,。
然而,這樣直接提取的特征容易受到字符偏移的影響,,因此,,本文對提取的原始特征進行了如下優(yōu)化:
(1)分別循環(huán)平移特征值LP(i)、RP(i),、TP(i),、BP(i),使其前后為零特征值的個數大致相等,,這樣提取的特征值在分類器中更具可比性,。
(2)由于字符存在水平偏移和垂直偏移,所以需要消除字符偏移對特征值的影響,。首先,按照下式計算字符水平偏移量LO:
其中,,[·]表示取整數,。
消除垂直偏移量對特征值的影響與消除水平偏移量方法類似,這里不再重復,。
圖3所示為圖2優(yōu)化后的特征曲線,。從圖中可以看出,優(yōu)化后的特征曲線左右為零值的特征數量大致相等,,第一,、二組的最小特征值大致相等,第三,、四組最小特征值也大致相等,。由此可見,依據上述優(yōu)化方法對四組輪廓特征加以修正,,可以有效地克服字符位置偏移對特征值的影響,,增加同類字符間的相關性。
2.2 一級粗分類器設計
本文提取的粗分類特征維數比較大,SVM能夠較好地解決小樣本,、非線性及高維的模式識別問題,,而且在高維空間中的推廣能力并不受維數影響,所以本文選取SVM作為分類器進行車牌字符的識別,。
2.2.1 支持向量機(SVM)算法原理
SVM是建立在統(tǒng)計學習理論的VC維(Vapnik-Chervonenkis Dimension)理論和結構風險最小化原理SRM(Structural Risk Minimization)基礎上的一種新機器學習系統(tǒng)[3]。SVM方法是從線性可分情況下的最優(yōu)分類面提出的,。對于線性不可分情況,,SVM通過增加一個松弛項ξi≥0和對錯分樣本的懲罰因子C進行推廣。而對于非線性問題,,首先通過非線性變換將輸入空間變換到一個高維內積空間,,然后在這個新空間中求取最優(yōu)超平面。由于在特征空間H中構造最優(yōu)超平面時,訓練算法只涉及訓練樣本之間的內積運算(xi·xj),。
2.2.2 核函數的選取
根據Hilbert-Schmidt原理,只要一種核函數K(x,y)滿足Mercer條件,,它就對應某一變換空間中的內積。K(x,y)只涉及x,、y,,并沒有高維運算。由此可見,,核函數的引入避免了非線性映射計算的復雜性,。有研究表明,SVM方法并不十分依賴核函數的選取,,即不同的核函數對分類性能影響不大,,所以本文選取應用廣泛的徑向基核函數(RBF)作為核函數:
2.3 可信度
可信度是不確定性推理中用于度量證據、規(guī)則和結論不確定性的一種方法,。由于多種因素的影響,,車牌字符識別過程中存在一定的不確定性,所以本文引入不確定性推理來判斷識別結果是否可以被信任,。
2.3.1 可信度概念
可信度CF用于度量證據,、結論和規(guī)則的不確定性程度[6],CF的作用域為[-1,1],。設一個不確定推理過程的證據為A,結論為B,推理規(guī)則為:IF A THEN B,。
(1)證據的不確定性度量:CF(A)表示證據的可信度,CF(A)>0,,表示A以CF(A)程度為真,;CF(A)<0,表示A以CF(A)程度為假,。
(2)規(guī)則的不確定性度量:CF(B,A)表示規(guī)則的可信度,。CF(B,A)>0,表示證據增加了結論為真的程度,;反之CF(B,A)<0,,表示證據增加了結論為假的程度。
當CF(B)的值大于形近字判別閾值CFmin時,,直接輸出粗分類識別結果;反之,,分類器查找形近字所屬類別,,并將字符送入二級分類識別。
2.4 粗分類實驗和分析
粗分類中字母和數字共有33類,,每類有100個樣本,。其中每類用60個樣本進行SVM訓練,構造SVM分類器,,剩下的40個樣本做測試,。
本文對粗分類器在不同可信度閾值下的性能進行了測試,測試結果如圖4所示,。從圖中可以看出,,粗分類識別率隨著可信度閾值的增加而提高,但閾值設置太高時,,粗分類有較高的拒識率,,而將字符送入二級分類識別,導致浪費粗分類器的識別能力,。所以可信度閾值選取0.7,,粗分類器的識別性能最佳。
當CFmin=0.7時,粗分類字符識別正確率只有96.4%,,但是出現錯誤的字符基本上都是形近字,。如8、B,、O,、D、Q,,2,、Z,5,、S等外形比較相似的字符,,這些形近字符的差別體現在細微的結構上,。如果將這些形近字符暫時歸為一類,,然后將其送入二級分類識別,則粗分類識別正確率會大幅提升接近100%,這樣的結果可以滿足特征提取算法復雜度低,,識別率較高,、形近字較少的粗分類的要求。
3 二級分類識別
3.1 細分類特征提取
細分類的特征提取方法應該能夠表征字符細節(jié)信息,刻畫形近字間更細微的差別,。結構特征可以很好地反映字符的細節(jié)特征,。所以本文選取環(huán)數、彎曲度,、交點數等結構特征作為細分類的特征提取方法,。
(1)環(huán)數(H):字符中閉合曲線的個數,。
(2)彎曲度(R):設字符中光滑曲線段的兩個端點為M(Mx,My)和N(Nx,Ny),這兩點所構成線段為MN,,曲線到線段MN垂直距離最遠的點為T,,對應的投影點為P,點T到線段MN的距離Dtp和該線段長度Dmn的比值為彎曲度R,則:
(3)交點數(E):在水平或垂直方向上掃描字符時與字符相交的次數,。以左右上下水平垂直的首字母L,、R、T,、B,、L、V與特征的組合表示具體提取的特征,,如TR表示上筆畫彎曲度,。
在二級分類識別中,分類器根據環(huán)數,、彎曲度和交點數等結構特征的邏輯組合對形近字進行分類識別,,得出的決策表如表1所示。例如,,字符‘2’和‘Z’的差別在于上面橫筆畫的彎曲度,;字符‘C’和‘G’的差別在于垂直交點數。
3.2細分類實驗和分析
形近字符分為四組,,每組選120個樣本做測試,,形近字符的識別結果如表2所示。
表2中形近字符是否具有較高的識別率,,在很大程度上取決于特征的選取,。首先將形近字符分成不同的組,然后根據細微的差別提取不同的結構特征,,使得同一組中不同字符之間的細微差異能比較穩(wěn)定地體現出來,,這是正確識別形近字的關鍵。實驗表明決策表可以很好地區(qū)分形近字符,,達到二級細分類識別的要求,。
4 實驗結果
實驗中的測試車牌圖像是由重慶易博數字有限公司研制的電子警察在高速公路收費站拍攝的,總共采集了一天中不同時段的幾千幅車牌圖像,大部分為本市的車輛,,所以車牌圖像中的漢字均相同,。在測試時,從這幾千幅車牌圖像中,,總共選取1 200幅車牌圖像,,并隨機分為3組作為實驗中的測試車牌圖像,且僅統(tǒng)計英文字母和數字部分的識別率,,最終的識別率以車牌牌照為單位進行實驗,,識別結果如表3所示,。
本文算法在P4 2.80 GB、512 MB計算機上,,用VC6. 0編程實現,,平均識別一個車牌需要0.3 s左右的時間。
本文在分析常用的車牌識別方法和人眼視覺活動特點的基礎上,,設計了一種由粗到細的二級識別算法,,使車牌中易混的形近字符識別率得以提高。在特征提取方面將統(tǒng)計特征和結構特征相結合,,并對提取的輪廓特征進行優(yōu)化,,使其有效地克服了字符偏移的影響。引入可信度評判機制,,提升了分類識別的靈活性和可靠性,。從實驗結果可以看出,本文的算法取得了較高的識別正確率,,實時性好,,可以滿足實際應用的需要。
參考文獻
[1] 高勇.車牌識別系統(tǒng)中的字符分割與識別[D].合肥:安徽大學,2007.
[2] HUANG R, TAWFIK H, NAGAR A K. License plate character recognition based on support vector machines with colonel Selection and Fish Swarm Algorithms[C]. International Conference on Computer Modeling and Simulation, 2009:101-106.
[3] 李琳,張曉龍. 基于RBF核的SVM學習算法的優(yōu)化計算[J].計算機工程與應用,2006,29:190-192.