摘 要: 提出了一種基于數學形態(tài)學的細化方法,,該方法使用結構模板的方式對字符圖像進行細化,,并針對原有細化方法產生的細化不徹底現象,對原結構模板進行了改進,。在常用細化結構模板的基礎上,,新增了幾個結構模板,較好地解決了細化不徹底的現象,。實驗證明,,細化后的圖像保持了原圖像的連通性并達到了很好的細化效果。
關鍵詞: 手寫體漢字特征,;字符細化,;數學形態(tài)學
隨著光標字符識別(OCR)技術的不斷發(fā)展和改進,手寫體漢字的識別已成為當前研究的重點,。由于漢字結構的復雜性和書寫的隨意性,,手寫體漢字的分割和識別一直是研究中的熱點和難點,而手寫體漢字的細化則是分割和識別的前提和基礎,。
由于個人在書寫時所用的力度和工具不同,,導致手寫體漢字的筆劃不均勻,,對漢字結構特征的提取和識別造成了一定的難度,。為了消除這個問題,需要在分割和識別之前,,對字符圖像進行細化處理,。所謂漢字細化,主要是指通過一定的處理算法將漢字圖像中那些不影響漢字特征和漢字拓撲結構的像素剔除,,直至圖像漢字的中心骨架形成為止,,即細化為單像素寬度的圖像[1]。
在字符細化過程中,,要保持字符的結構信息不發(fā)生改變,,這就要求細化后的字符圖像既要保持字符圖像筆劃的連續(xù)性,又要確保字符骨架盡量接近原圖像筆劃的中心線,,無嚴重的畸變產生,。基于數學形態(tài)學的圖像細化,,能同時探測到圖像的外部和內部信息,,是一種應用較為廣泛的圖像細化方法。
1 字符細化的研究現狀
字符細化有助于突出字符的結構特征,減少冗余的信息量,,有利于字符的筆劃提取和字符識別,。常用的字符細化方法主要有:
(1)迭代算法[2-4]。該算法是在早期字符細化時最常使用的一種算法,,主要是通過對筆劃邊緣像素的迭代剝除來完成的,。參考文獻[4]中使用的是模板迭代去除算法,主要是通過設計一些去除模板和保留模板,,將符合去除模板又不符合保留模板的像素點去掉,,這樣反復執(zhí)行迭代過程,直到不發(fā)生變化為止,。該算法的缺點是在細化過程中只考慮了字符的局部信息,,容易造成筆劃在拐角處的分叉和短筆劃的縮進甚至消失。
(2)基于筆劃類型的細化算法[1],。該算法與中軸變換算法[2]具有相類似的特點,,可以說是結合了筆劃類型和中軸變換的一種方法。該算法在進行字符細化時,,先判斷出筆劃的類型,,再根據中軸變換算法求取該筆劃的中心線作為細化后的骨架,從而避免了細化過程中造成的字型畸變,。該方法需要事先提取漢字的筆劃寬度,,由于手寫體漢字的特殊性,實際應用過程中較為復雜,。
(3)基于數學形態(tài)學的細化算法[5-6],。近年來,基于數學形態(tài)學的細化算法在字符細化過程中得到了廣泛的應用,。該方法主要是采用結構元素模板的方式對字符結構進行細化,,其中,模板的選取對形態(tài)學方法的影響較大,。參考文獻[6]主要使用數學形態(tài)學中的腐蝕方法對字符進行腐蝕操作,,直至細化為單像素為止。參考文獻[5]主要使用形態(tài)學方法中的擊中與擊不中變換,,結合印刷體漢字橫平豎直的結構特點,,對原有的結構模板進行了一定的改進。該方法的優(yōu)點是能同時探測到字符圖像的內部和外部,,缺點是在細化過程中容易產生“毛刺”,,并出現細化不徹底的現象。
由于字符結構等特性,,在進行字符細化過程中容易產生各種問題,,其中最常出現的有:(1)細化過程中容易產生“毛刺”,,影響字符結構特征的提取,;(2)耗時較長,,算法復雜度高;(3)細化后漢字筆劃的扭曲和歪斜,;(4)容易出現細化不徹底的現象,。
本文在分析手寫體漢字的結構特點和其結構特性的基礎上,采用基于數學形態(tài)學的方法,,對手寫體漢字進行細化,。并針對細化過程中容易出現的細化不徹底現象,對原有的細化模板進行了一定的改進,,使細化結果有了更進一步的改善,。
2 基于數學形態(tài)學的手寫體漢字細化
近年來,基于數學形態(tài)學的細化算法在圖像細化中得到廣泛應用,。本文采用數學形態(tài)學中的擊中或擊不中變換對數字圖像進行細化,,該細化方法能夠同時探測到圖像的內部和外部。
2.1 圖像預處理
為了能更好地處理圖像的細節(jié)部分,,減少干擾因素,,在進行細化之前,需要對圖像進行預處理,。首先將一幅手寫筆跡圖像通過掃描儀輸入計算機中,,并將其轉化為灰度圖像;然后根據需要對圖像進行去噪,、濾波處理,,并對該圖像進行二值化處理;最后再對圖像進行反色變換,,即將圖像中字符像素部分變?yōu)?,,背景點部分變?yōu)?,,這樣做的好處是將圖像中被處理部分變?yōu)?,,細化過程即簡化為消除圖像中多余的“1”像素點。圖像的預處理結果如圖1所示,。
2.2 結構元素模板
在基于數學形態(tài)學的細化算法中,,模板的選取對細化結果影響很大,常用于圖像細化的結構元素模板序列如圖2所示,。
其中,,結構元素模板中“1”表示字符筆劃像素點,“0”表示背景像素點,,“*”表示既可以是字符筆劃像素點,,也可以是背景像素點,。
通過實驗可以發(fā)現,僅僅使用上述結構元素模板序列容易造成細化不徹底的現象,。本文根據手寫體漢字字符圖像的結構特征,,利用改進的結構元素模板對細化后的字符圖像再進行進一步的細化,降低了細化不徹底現象的發(fā)生,。改進的幾個結構元素模板如圖3所示,。
3 實驗
本文使用Matlab進行實驗,首先輸入一幅手寫體漢字圖像,,并對原圖像進行預處理,,然后對圖像進行數學形態(tài)學中的閉運算處理,即對圖像先膨脹后腐蝕,,目的是填充原始圖像筆劃中存在的孔洞,,使圖像筆劃變得平滑,有利于下一步的細化操作,。手寫體漢字的細化主要是通過擊中或擊不中變換算法,,使用結構元素模板對圖像進行細化處理。在本實驗中,,首先采用常用的結構模板對原圖像進行細化操作,,再使用本文中改進的模板進行進一步的細化處理,實驗結果如圖4所示,。
從以上手寫體漢字的細化結果可以看出,,基于數學形態(tài)學的細化方法很好地保持了字符圖像筆劃的連續(xù)性,很好地改善了原模板中細化不徹底的現象,,細化后的骨架比較接近圖像筆劃的中心線,,并保持了字符圖像的拓撲性。
同時,,本文算法仍有需要改進的地方,,細化后的漢字筆劃上有“毛刺”現象產生,由于手寫體漢字筆劃的結構特征等特性,,在進行去“毛刺”處理時,,易造成某些較短筆劃的丟失。
參考文獻
[1] 閆建國,,高華.基于筆劃類型的字符細化算法研究[J].計算機工程與應用,,2001,11(02):83-84.
[2] LAM L,,LEE S W.Thinning methodologies-a comprehensive survey[J].IEEE,,1992,14(9):869-885.
[3] 張學東,,張仁秋.一種快速的手寫體漢字細化算法[J].計算機應用與軟件,,2009,,26(11):17-19.
[4] 柳回春,馬樹元.手寫體數字識別技術研究[J].計算機工程,,2003,,29(4):24-26.
[5] 王建平,錢自拓.基于數學形態(tài)學的圖像漢字筆畫細化和提取[J].合肥工業(yè)大學學報,,2005,,28(11):1431-1435.
[6] 金連文,徐睿.一種基于數學形態(tài)學的手寫漢字方向特征提取方法[J].計算機工程,,2003,,29(20):38-39.