摘 要: 在實(shí)驗(yàn)的基礎(chǔ)上通過對(duì)現(xiàn)有的二值化算法進(jìn)行研究分析, 提出了一種新的二值化算法,。該算法利用形態(tài)學(xué)的開運(yùn)算來(lái)消除圖像光照不均勻,根據(jù)最大類間方差確定圖像閾值,,然后高斯平滑噪聲,銳化邊緣,。結(jié)果表明該算法能較好地保留圖像特征,,并且能夠克服傳統(tǒng)方法帶來(lái)的離散噪聲,二值化效果較好,。
關(guān)鍵詞: 光學(xué)字符識(shí)別;數(shù)學(xué)形態(tài)學(xué);二值化;熵
?
目前,,光學(xué)字符識(shí)別OCR(Optical Character Recognition)技術(shù)已在眾多領(lǐng)域得到廣泛應(yīng)用。它作為計(jì)算機(jī)智能接口的重要組成部分,,能夠?qū)崿F(xiàn)文字信息高速,、自動(dòng)地輸入。在字符圖像識(shí)別方面,,預(yù)處理效果的好壞直接影響OCR系統(tǒng)的性能,,其中二值化更是整個(gè)預(yù)處理過程的關(guān)鍵所在。盡管近年來(lái)各位研究人員提出了許多二值化方法[1,2],,但是到目前為止還沒有一種通用的方法,,也不存在一個(gè)判斷二值化是否成功的客觀標(biāo)準(zhǔn),因此它被認(rèn)為是計(jì)算機(jī)視覺中的一個(gè)瓶頸,。
本文提出了一種基于灰度形態(tài)學(xué)的處理方法:提取圖像的背景,,用原圖減去背景使其變成零背景圖像,接著采用最大類間方差法確定閾值進(jìn)行二值化。實(shí)驗(yàn)結(jié)果表明了算法的有效性,,適用于字符識(shí)別的預(yù)處理,。本實(shí)驗(yàn)的全部程序在Visual Studio 2005.NET環(huán)境下開發(fā)實(shí)現(xiàn),源代碼用C++語(yǔ)言編寫[3,4],。
1 基本原理
1.1 數(shù)學(xué)形態(tài)學(xué)圖像處理[5,6]
數(shù)學(xué)形態(tài)學(xué)是一門新興的圖像處理分析工具,,在圖像分析中得到了廣泛的應(yīng)用。通常情況下,,形態(tài)學(xué)處理以在圖像中移動(dòng)一個(gè)結(jié)構(gòu)元素并進(jìn)行一種類似于卷積操作的方式進(jìn)行,。數(shù)學(xué)形態(tài)學(xué)由一系列代數(shù)算子組成,基本的算子包括腐蝕,、膨脹以及由這兩種運(yùn)算組合而成的開運(yùn)算和閉運(yùn)算,。圖像B和結(jié)構(gòu)元素S都是定義在二維笛卡爾網(wǎng)格上的集合。當(dāng)一個(gè)結(jié)構(gòu)元素的原點(diǎn)平移到點(diǎn)(x,y)處時(shí),,將其記為Sxy,。
由形態(tài)學(xué)的運(yùn)算可知,開運(yùn)算可以去除較小的明亮細(xì)節(jié)并保持較大的明亮區(qū)域不變,;閉運(yùn)算用于去除圖像中的暗細(xì)節(jié)部分而保持明亮細(xì)節(jié)不受影響,。由于背景表現(xiàn)為圖像中的高頻部分,因此可采用開運(yùn)算進(jìn)行背景估計(jì),,然后從原始圖像中減去背景[7],。本文正是用這個(gè)方法去除背景得到零背景圖像,去除背景可能不均勻所帶來(lái)的影響[8],。
1.2 最大類間方差法
最大類間方差法[9,10]是由日本學(xué)者大津于1979 年提出的,,是一種自適應(yīng)的閾值確定方法,又叫大津法,,簡(jiǎn)稱Otsu,。它按圖像的灰度特性,將圖像分成背景和目標(biāo)兩部分,。因方差是灰度分布均勻性的一種度量,,方差值越大,說(shuō)明構(gòu)成圖像的兩部分差別越大,,因此,,背景和目標(biāo)之間的類間方差越大,說(shuō)明構(gòu)成圖像的兩部分的差別也越大,。當(dāng)部分目標(biāo)錯(cuò)分為背景或部分背景錯(cuò)分為目標(biāo)都會(huì)導(dǎo)致兩部分差別變小,,因此,使類間方差最大的分割意味著錯(cuò)分概率最小,。設(shè)t為前景與背景的二值化閾值,;屬于前景像素點(diǎn)數(shù)占圖像比例為w0,平均灰度為u0;背景點(diǎn)數(shù)占圖像比例為w1,,平均灰度為u1,;圖像的總平均灰度為u,類間方差記為g,。假設(shè)圖像的背景較暗,,圖像的大小為M×N,圖中像素的灰度小于閾值t的像素個(gè)數(shù)為N0(此類像素被判為前景),,像素灰度值大于閾值t的像素個(gè)數(shù)為N1(此類像素被判為背景),,則有:
采用遍歷的方法得到使類間方差最大的閾值t,即為所求,。
1.3 最大熵法[7]
熵是作為函數(shù)不確定性的度量,,將熵的概念引入圖像二值化處理中,就是基于圖像灰度直方圖的熵測(cè)量,。通常,,可以從不同的角度出發(fā)來(lái)定義不同的圖像灰度直方圖的熵測(cè)量方法,在此基礎(chǔ)上定義獲得最大熵以及選擇最佳二值化閾值的方法,。一般情況下,,有3種基于圖像灰度直方圖熵測(cè)量的圖像二值化處理閾值法:基于一個(gè)分布假設(shè)提出的P氏熵法、基于2個(gè)分布假設(shè)提出的KSW 熵法以及基于極小類間依賴性的JM熵法,。
下面,,本文將重點(diǎn)討論基于2個(gè)分布假設(shè)提出的KSW熵法。?
2 本文算法的基本原理與步驟
本文提出了一種基于數(shù)學(xué)形態(tài)學(xué)的文本圖像二值化算法,,首先用形態(tài)學(xué)開運(yùn)算得到零背景圖像,,然后將Otsu算法用于零背景圖像,確定閾值t*,。由于此時(shí)二值化圖像中出現(xiàn)離散雜點(diǎn),故用高斯平滑來(lái)消除這些雜點(diǎn),,最后用拉普拉斯銳化來(lái)增強(qiáng)圖像,。算法的具體過程描述如下:
(1)導(dǎo)入目標(biāo)圖像A;
(2)選取一個(gè)大的結(jié)構(gòu)對(duì)目標(biāo)圖像A進(jìn)行多次開運(yùn)算提取圖像背景,;
(3)原圖像減去背景,,得出背景為0的圖像B;
(4)對(duì)B進(jìn)行Otsu法處理,,得出最優(yōu)閾值t*,;
(5)根據(jù)t*對(duì)圖像B二值化分割形成圖像C;
(6)對(duì)圖像C進(jìn)行平滑濾波形成圖像D,;
(7)對(duì)圖像D進(jìn)行拉普拉斯銳化形成最終的二值圖像E,。
上述算法考慮了圖像光照不均勻、噪聲干擾等情況,采用了大結(jié)構(gòu)提取背景對(duì)算法的性能影響不大,。
3?實(shí)驗(yàn)結(jié)果及分析?
為了檢驗(yàn)本文算法的有效性,,采用一段舊報(bào)紙圖像作為測(cè)試圖像進(jìn)行實(shí)驗(yàn)并與采用最大類間方差法和最大熵法[6]進(jìn)行比較,實(shí)驗(yàn)結(jié)果如圖1所示,,實(shí)驗(yàn)數(shù)據(jù)如表1所示,。圖1(b)中因目標(biāo)與背景灰度差不多而出現(xiàn)多塊的黑色區(qū)塊;圖1(c)效果比圖1(b)好,,沒有了黑色區(qū)塊,,但有一部分背景被視為目標(biāo),有大量的離散噪聲,,二值化效果沒有圖1(d)好,;圖1(d)中沒有黑色區(qū)塊且離散噪聲也要少很多。從表1可以看出,,在執(zhí)行速度方面,,本文算法比最大類間方差算法慢,但比最大熵法要快得多,,因?yàn)楸疚乃惴m然中間有一個(gè)提取圖像背景的過程,,但在這個(gè)過程中選擇的開運(yùn)算的結(jié)構(gòu)元素相當(dāng)大,執(zhí)行時(shí)間相對(duì)整個(gè)過程是很短的,,而最大熵由于涉及到對(duì)數(shù)運(yùn)算,,速度當(dāng)然就慢得多。
本文重點(diǎn)分析了最大類間方差法[9]和KSW最大熵法[7]在處理低質(zhì)量文本圖像二值化時(shí)存在的問題,,在此基礎(chǔ)上,,基于數(shù)學(xué)形態(tài)學(xué)原理,提出了一種基于形態(tài)學(xué)的文本圖像二值化算法,。實(shí)驗(yàn)結(jié)果證明了該算法的可行性,。該算法克服了最大類間方差法出現(xiàn)的黑塊并使得離散噪聲較最大熵法有較大改善。但是,,在實(shí)驗(yàn)過程中發(fā)現(xiàn),,對(duì)噪聲較大、復(fù)雜,、甚至變形的文本圖像,,其二值化效果不是很理想,這也將成為下一步努力的方向,。
參考文獻(xiàn)
[1]??陳丹, 張蜂, 賀貴明. 一種改進(jìn)的文本圖像二值化算法[J]. 計(jì)算機(jī)工程, 2003, 29(13): 85-86.
[2]??朱軍民, 黃磊, 劉昌平. 圖像二值化方法比較[A]. 第八屆全國(guó)漢字識(shí)別學(xué)術(shù)會(huì)議論文, 紹興,,2002.
[3]??楊淑瑩. VC++圖像處理程序設(shè)計(jì)[M]. 北京: 清華大學(xué)出版社, 2005.
[4]??陳純. 計(jì)算機(jī)圖像處理技術(shù)與算法[M]. 北京:清華大學(xué)出版社, 2003.
[5]??崔屹.圖像處理與分析—數(shù)學(xué)形態(tài)學(xué)方法及應(yīng)用[M]. 北京: 科學(xué)出版社, 2000.
[6]? CASTLEMAN K R . 數(shù)字圖像處理[M]. 北京: 電子工業(yè)出版社, 2006.
[7]? 魏軍偉, 方敏. 基于最大熵和形態(tài)學(xué)的邊緣檢測(cè)[J]. 計(jì)算機(jī)工程與應(yīng)用,2007,43(21):70-71,,92.
[8]? 潘梅森, 張奮, 霍超陽(yáng). 一種車牌號(hào)碼圖像二值化的新方法[J]. 計(jì)算機(jī)工程,, 2008,,34(4):209-211,214.
[9]? 齊麗娜, 張博. 最大類間方差法在圖像處理中的應(yīng)用[J]. 無(wú)線電工程, 2006(7): 29-30,48.
[10]?RAIS N B, HANIF M S, TAJ I A. Adaptive thresholding technique for document image analysis[C]. Multitopic Conference, 2004. Proceedings of INMIC 2004. 8th International, 2004: 61-66.