摘 要: 提出了一種基于數(shù)學(xué)形態(tài)學(xué)的細(xì)化方法,,該方法使用結(jié)構(gòu)模板的方式對(duì)字符圖像進(jìn)行細(xì)化,并針對(duì)原有細(xì)化方法產(chǎn)生的細(xì)化不徹底現(xiàn)象,,對(duì)原結(jié)構(gòu)模板進(jìn)行了改進(jìn),。在常用細(xì)化結(jié)構(gòu)模板的基礎(chǔ)上,新增了幾個(gè)結(jié)構(gòu)模板,,較好地解決了細(xì)化不徹底的現(xiàn)象,。實(shí)驗(yàn)證明,細(xì)化后的圖像保持了原圖像的連通性并達(dá)到了很好的細(xì)化效果,。
關(guān)鍵詞: 手寫(xiě)體漢字特征,;字符細(xì)化;數(shù)學(xué)形態(tài)學(xué)
隨著光標(biāo)字符識(shí)別(OCR)技術(shù)的不斷發(fā)展和改進(jìn),手寫(xiě)體漢字的識(shí)別已成為當(dāng)前研究的重點(diǎn),。由于漢字結(jié)構(gòu)的復(fù)雜性和書(shū)寫(xiě)的隨意性,,手寫(xiě)體漢字的分割和識(shí)別一直是研究中的熱點(diǎn)和難點(diǎn),而手寫(xiě)體漢字的細(xì)化則是分割和識(shí)別的前提和基礎(chǔ),。
由于個(gè)人在書(shū)寫(xiě)時(shí)所用的力度和工具不同,,導(dǎo)致手寫(xiě)體漢字的筆劃不均勻,對(duì)漢字結(jié)構(gòu)特征的提取和識(shí)別造成了一定的難度,。為了消除這個(gè)問(wèn)題,,需要在分割和識(shí)別之前,對(duì)字符圖像進(jìn)行細(xì)化處理,。所謂漢字細(xì)化,,主要是指通過(guò)一定的處理算法將漢字圖像中那些不影響漢字特征和漢字拓?fù)浣Y(jié)構(gòu)的像素剔除,直至圖像漢字的中心骨架形成為止,,即細(xì)化為單像素寬度的圖像[1],。
在字符細(xì)化過(guò)程中,要保持字符的結(jié)構(gòu)信息不發(fā)生改變,,這就要求細(xì)化后的字符圖像既要保持字符圖像筆劃的連續(xù)性,,又要確保字符骨架盡量接近原圖像筆劃的中心線,無(wú)嚴(yán)重的畸變產(chǎn)生,?;跀?shù)學(xué)形態(tài)學(xué)的圖像細(xì)化,能同時(shí)探測(cè)到圖像的外部和內(nèi)部信息,,是一種應(yīng)用較為廣泛的圖像細(xì)化方法,。
1 字符細(xì)化的研究現(xiàn)狀
字符細(xì)化有助于突出字符的結(jié)構(gòu)特征,減少冗余的信息量,,有利于字符的筆劃提取和字符識(shí)別,。常用的字符細(xì)化方法主要有:
(1)迭代算法[2-4]。該算法是在早期字符細(xì)化時(shí)最常使用的一種算法,,主要是通過(guò)對(duì)筆劃邊緣像素的迭代剝除來(lái)完成的,。參考文獻(xiàn)[4]中使用的是模板迭代去除算法,主要是通過(guò)設(shè)計(jì)一些去除模板和保留模板,,將符合去除模板又不符合保留模板的像素點(diǎn)去掉,,這樣反復(fù)執(zhí)行迭代過(guò)程,直到不發(fā)生變化為止,。該算法的缺點(diǎn)是在細(xì)化過(guò)程中只考慮了字符的局部信息,,容易造成筆劃在拐角處的分叉和短筆劃的縮進(jìn)甚至消失。
(2)基于筆劃類(lèi)型的細(xì)化算法[1],。該算法與中軸變換算法[2]具有相類(lèi)似的特點(diǎn),,可以說(shuō)是結(jié)合了筆劃類(lèi)型和中軸變換的一種方法,。該算法在進(jìn)行字符細(xì)化時(shí),先判斷出筆劃的類(lèi)型,,再根據(jù)中軸變換算法求取該筆劃的中心線作為細(xì)化后的骨架,,從而避免了細(xì)化過(guò)程中造成的字型畸變。該方法需要事先提取漢字的筆劃寬度,,由于手寫(xiě)體漢字的特殊性,,實(shí)際應(yīng)用過(guò)程中較為復(fù)雜。
(3)基于數(shù)學(xué)形態(tài)學(xué)的細(xì)化算法[5-6],。近年來(lái),,基于數(shù)學(xué)形態(tài)學(xué)的細(xì)化算法在字符細(xì)化過(guò)程中得到了廣泛的應(yīng)用。該方法主要是采用結(jié)構(gòu)元素模板的方式對(duì)字符結(jié)構(gòu)進(jìn)行細(xì)化,,其中,,模板的選取對(duì)形態(tài)學(xué)方法的影響較大。參考文獻(xiàn)[6]主要使用數(shù)學(xué)形態(tài)學(xué)中的腐蝕方法對(duì)字符進(jìn)行腐蝕操作,,直至細(xì)化為單像素為止,。參考文獻(xiàn)[5]主要使用形態(tài)學(xué)方法中的擊中與擊不中變換,結(jié)合印刷體漢字橫平豎直的結(jié)構(gòu)特點(diǎn),,對(duì)原有的結(jié)構(gòu)模板進(jìn)行了一定的改進(jìn),。該方法的優(yōu)點(diǎn)是能同時(shí)探測(cè)到字符圖像的內(nèi)部和外部,缺點(diǎn)是在細(xì)化過(guò)程中容易產(chǎn)生“毛刺”,,并出現(xiàn)細(xì)化不徹底的現(xiàn)象,。
由于字符結(jié)構(gòu)等特性,,在進(jìn)行字符細(xì)化過(guò)程中容易產(chǎn)生各種問(wèn)題,,其中最常出現(xiàn)的有:(1)細(xì)化過(guò)程中容易產(chǎn)生“毛刺”,影響字符結(jié)構(gòu)特征的提??;(2)耗時(shí)較長(zhǎng),算法復(fù)雜度高,;(3)細(xì)化后漢字筆劃的扭曲和歪斜,;(4)容易出現(xiàn)細(xì)化不徹底的現(xiàn)象。
本文在分析手寫(xiě)體漢字的結(jié)構(gòu)特點(diǎn)和其結(jié)構(gòu)特性的基礎(chǔ)上,,采用基于數(shù)學(xué)形態(tài)學(xué)的方法,,對(duì)手寫(xiě)體漢字進(jìn)行細(xì)化。并針對(duì)細(xì)化過(guò)程中容易出現(xiàn)的細(xì)化不徹底現(xiàn)象,,對(duì)原有的細(xì)化模板進(jìn)行了一定的改進(jìn),,使細(xì)化結(jié)果有了更進(jìn)一步的改善。
2 基于數(shù)學(xué)形態(tài)學(xué)的手寫(xiě)體漢字細(xì)化
近年來(lái),,基于數(shù)學(xué)形態(tài)學(xué)的細(xì)化算法在圖像細(xì)化中得到廣泛應(yīng)用,。本文采用數(shù)學(xué)形態(tài)學(xué)中的擊中或擊不中變換對(duì)數(shù)字圖像進(jìn)行細(xì)化,,該細(xì)化方法能夠同時(shí)探測(cè)到圖像的內(nèi)部和外部。
2.1 圖像預(yù)處理
為了能更好地處理圖像的細(xì)節(jié)部分,,減少干擾因素,,在進(jìn)行細(xì)化之前,需要對(duì)圖像進(jìn)行預(yù)處理,。首先將一幅手寫(xiě)筆跡圖像通過(guò)掃描儀輸入計(jì)算機(jī)中,,并將其轉(zhuǎn)化為灰度圖像;然后根據(jù)需要對(duì)圖像進(jìn)行去噪,、濾波處理,,并對(duì)該圖像進(jìn)行二值化處理;最后再對(duì)圖像進(jìn)行反色變換,,即將圖像中字符像素部分變?yōu)?,,背景點(diǎn)部分變?yōu)?,這樣做的好處是將圖像中被處理部分變?yōu)?,,細(xì)化過(guò)程即簡(jiǎn)化為消除圖像中多余的“1”像素點(diǎn),。圖像的預(yù)處理結(jié)果如圖1所示。
2.2 結(jié)構(gòu)元素模板
在基于數(shù)學(xué)形態(tài)學(xué)的細(xì)化算法中,,模板的選取對(duì)細(xì)化結(jié)果影響很大,,常用于圖像細(xì)化的結(jié)構(gòu)元素模板序列如圖2所示。
其中,,結(jié)構(gòu)元素模板中“1”表示字符筆劃像素點(diǎn),,“0”表示背景像素點(diǎn),“*”表示既可以是字符筆劃像素點(diǎn),,也可以是背景像素點(diǎn),。
通過(guò)實(shí)驗(yàn)可以發(fā)現(xiàn),僅僅使用上述結(jié)構(gòu)元素模板序列容易造成細(xì)化不徹底的現(xiàn)象,。本文根據(jù)手寫(xiě)體漢字字符圖像的結(jié)構(gòu)特征,,利用改進(jìn)的結(jié)構(gòu)元素模板對(duì)細(xì)化后的字符圖像再進(jìn)行進(jìn)一步的細(xì)化,降低了細(xì)化不徹底現(xiàn)象的發(fā)生,。改進(jìn)的幾個(gè)結(jié)構(gòu)元素模板如圖3所示,。
3 實(shí)驗(yàn)
本文使用Matlab進(jìn)行實(shí)驗(yàn),首先輸入一幅手寫(xiě)體漢字圖像,,并對(duì)原圖像進(jìn)行預(yù)處理,,然后對(duì)圖像進(jìn)行數(shù)學(xué)形態(tài)學(xué)中的閉運(yùn)算處理,即對(duì)圖像先膨脹后腐蝕,,目的是填充原始圖像筆劃中存在的孔洞,,使圖像筆劃變得平滑,有利于下一步的細(xì)化操作,。手寫(xiě)體漢字的細(xì)化主要是通過(guò)擊中或擊不中變換算法,,使用結(jié)構(gòu)元素模板對(duì)圖像進(jìn)行細(xì)化處理,。在本實(shí)驗(yàn)中,首先采用常用的結(jié)構(gòu)模板對(duì)原圖像進(jìn)行細(xì)化操作,,再使用本文中改進(jìn)的模板進(jìn)行進(jìn)一步的細(xì)化處理,,實(shí)驗(yàn)結(jié)果如圖4所示。
從以上手寫(xiě)體漢字的細(xì)化結(jié)果可以看出,,基于數(shù)學(xué)形態(tài)學(xué)的細(xì)化方法很好地保持了字符圖像筆劃的連續(xù)性,,很好地改善了原模板中細(xì)化不徹底的現(xiàn)象,細(xì)化后的骨架比較接近圖像筆劃的中心線,,并保持了字符圖像的拓?fù)湫浴?br />
同時(shí),,本文算法仍有需要改進(jìn)的地方,細(xì)化后的漢字筆劃上有“毛刺”現(xiàn)象產(chǎn)生,,由于手寫(xiě)體漢字筆劃的結(jié)構(gòu)特征等特性,,在進(jìn)行去“毛刺”處理時(shí),易造成某些較短筆劃的丟失,。
參考文獻(xiàn)
[1] 閆建國(guó),,高華.基于筆劃類(lèi)型的字符細(xì)化算法研究[J].計(jì)算機(jī)工程與應(yīng)用,2001,,11(02):83-84.
[2] LAM L,,LEE S W.Thinning methodologies-a comprehensive survey[J].IEEE,1992,,14(9):869-885.
[3] 張學(xué)東,,張仁秋.一種快速的手寫(xiě)體漢字細(xì)化算法[J].計(jì)算機(jī)應(yīng)用與軟件,2009,,26(11):17-19.
[4] 柳回春,,馬樹(shù)元.手寫(xiě)體數(shù)字識(shí)別技術(shù)研究[J].計(jì)算機(jī)工程,2003,,29(4):24-26.
[5] 王建平,,錢(qián)自拓.基于數(shù)學(xué)形態(tài)學(xué)的圖像漢字筆畫(huà)細(xì)化和提取[J].合肥工業(yè)大學(xué)學(xué)報(bào),,2005,,28(11):1431-1435.
[6] 金連文,徐睿.一種基于數(shù)學(xué)形態(tài)學(xué)的手寫(xiě)漢字方向特征提取方法[J].計(jì)算機(jī)工程,,2003,,29(20):38-39.