《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > EDA與制造 > 設(shè)計(jì)應(yīng)用 > 基于數(shù)學(xué)形態(tài)學(xué)的手寫體漢字細(xì)化方法研究
基于數(shù)學(xué)形態(tài)學(xué)的手寫體漢字細(xì)化方法研究
來源:微型機(jī)與應(yīng)用2011年第20期
楊 俠,,王希常,,劉 江
(山東師范大學(xué) 信息科學(xué)與工程學(xué)院,山東 濟(jì)南250014)
摘要: 提出了一種基于數(shù)學(xué)形態(tài)學(xué)的細(xì)化方法,該方法使用結(jié)構(gòu)模板的方式對字符圖像進(jìn)行細(xì)化,,并針對原有細(xì)化方法產(chǎn)生的細(xì)化不徹底現(xiàn)象,對原結(jié)構(gòu)模板進(jìn)行了改進(jìn),。在常用細(xì)化結(jié)構(gòu)模板的基礎(chǔ)上,,新增了幾個(gè)結(jié)構(gòu)模板,較好地解決了細(xì)化不徹底的現(xiàn)象,。實(shí)驗(yàn)證明,,細(xì)化后的圖像保持了原圖像的連通性并達(dá)到了很好的細(xì)化效果。
Abstract:
Key words :

摘  要: 提出了一種基于數(shù)學(xué)形態(tài)學(xué)的細(xì)化方法,,該方法使用結(jié)構(gòu)模板的方式對字符圖像進(jìn)行細(xì)化,,并針對原有細(xì)化方法產(chǎn)生的細(xì)化不徹底現(xiàn)象,對原結(jié)構(gòu)模板進(jìn)行了改進(jìn),。在常用細(xì)化結(jié)構(gòu)模板的基礎(chǔ)上,,新增了幾個(gè)結(jié)構(gòu)模板,較好地解決了細(xì)化不徹底的現(xiàn)象,。實(shí)驗(yàn)證明,,細(xì)化后的圖像保持了原圖像的連通性并達(dá)到了很好的細(xì)化效果。
關(guān)鍵詞: 手寫體漢字特征,;字符細(xì)化,;數(shù)學(xué)形態(tài)學(xué)

    隨著光標(biāo)字符識別(OCR)技術(shù)的不斷發(fā)展和改進(jìn),手寫體漢字的識別已成為當(dāng)前研究的重點(diǎn),。由于漢字結(jié)構(gòu)的復(fù)雜性和書寫的隨意性,,手寫體漢字的分割和識別一直是研究中的熱點(diǎn)和難點(diǎn),而手寫體漢字的細(xì)化則是分割和識別的前提和基礎(chǔ),。
    由于個(gè)人在書寫時(shí)所用的力度和工具不同,,導(dǎo)致手寫體漢字的筆劃不均勻,對漢字結(jié)構(gòu)特征的提取和識別造成了一定的難度,。為了消除這個(gè)問題,,需要在分割和識別之前,對字符圖像進(jìn)行細(xì)化處理,。所謂漢字細(xì)化,,主要是指通過一定的處理算法將漢字圖像中那些不影響漢字特征和漢字拓?fù)浣Y(jié)構(gòu)的像素剔除,,直至圖像漢字的中心骨架形成為止,即細(xì)化為單像素寬度的圖像[1],。
    在字符細(xì)化過程中,,要保持字符的結(jié)構(gòu)信息不發(fā)生改變,這就要求細(xì)化后的字符圖像既要保持字符圖像筆劃的連續(xù)性,,又要確保字符骨架盡量接近原圖像筆劃的中心線,,無嚴(yán)重的畸變產(chǎn)生?;跀?shù)學(xué)形態(tài)學(xué)的圖像細(xì)化,,能同時(shí)探測到圖像的外部和內(nèi)部信息,是一種應(yīng)用較為廣泛的圖像細(xì)化方法,。
1 字符細(xì)化的研究現(xiàn)狀
    字符細(xì)化有助于突出字符的結(jié)構(gòu)特征,,減少冗余的信息量,有利于字符的筆劃提取和字符識別,。常用的字符細(xì)化方法主要有:
    (1)迭代算法[2-4],。該算法是在早期字符細(xì)化時(shí)最常使用的一種算法,主要是通過對筆劃邊緣像素的迭代剝除來完成的,。參考文獻(xiàn)[4]中使用的是模板迭代去除算法,,主要是通過設(shè)計(jì)一些去除模板和保留模板,將符合去除模板又不符合保留模板的像素點(diǎn)去掉,,這樣反復(fù)執(zhí)行迭代過程,,直到不發(fā)生變化為止。該算法的缺點(diǎn)是在細(xì)化過程中只考慮了字符的局部信息,,容易造成筆劃在拐角處的分叉和短筆劃的縮進(jìn)甚至消失,。
    (2)基于筆劃類型的細(xì)化算法[1]。該算法與中軸變換算法[2]具有相類似的特點(diǎn),,可以說是結(jié)合了筆劃類型和中軸變換的一種方法,。該算法在進(jìn)行字符細(xì)化時(shí),先判斷出筆劃的類型,,再根據(jù)中軸變換算法求取該筆劃的中心線作為細(xì)化后的骨架,,從而避免了細(xì)化過程中造成的字型畸變。該方法需要事先提取漢字的筆劃寬度,,由于手寫體漢字的特殊性,,實(shí)際應(yīng)用過程中較為復(fù)雜。
    (3)基于數(shù)學(xué)形態(tài)學(xué)的細(xì)化算法[5-6],。近年來,基于數(shù)學(xué)形態(tài)學(xué)的細(xì)化算法在字符細(xì)化過程中得到了廣泛的應(yīng)用,。該方法主要是采用結(jié)構(gòu)元素模板的方式對字符結(jié)構(gòu)進(jìn)行細(xì)化,,其中,,模板的選取對形態(tài)學(xué)方法的影響較大。參考文獻(xiàn)[6]主要使用數(shù)學(xué)形態(tài)學(xué)中的腐蝕方法對字符進(jìn)行腐蝕操作,,直至細(xì)化為單像素為止,。參考文獻(xiàn)[5]主要使用形態(tài)學(xué)方法中的擊中與擊不中變換,結(jié)合印刷體漢字橫平豎直的結(jié)構(gòu)特點(diǎn),,對原有的結(jié)構(gòu)模板進(jìn)行了一定的改進(jìn),。該方法的優(yōu)點(diǎn)是能同時(shí)探測到字符圖像的內(nèi)部和外部,缺點(diǎn)是在細(xì)化過程中容易產(chǎn)生“毛刺”,,并出現(xiàn)細(xì)化不徹底的現(xiàn)象,。
    由于字符結(jié)構(gòu)等特性,在進(jìn)行字符細(xì)化過程中容易產(chǎn)生各種問題,,其中最常出現(xiàn)的有:(1)細(xì)化過程中容易產(chǎn)生“毛刺”,,影響字符結(jié)構(gòu)特征的提取,;(2)耗時(shí)較長,,算法復(fù)雜度高;(3)細(xì)化后漢字筆劃的扭曲和歪斜,;(4)容易出現(xiàn)細(xì)化不徹底的現(xiàn)象,。
    本文在分析手寫體漢字的結(jié)構(gòu)特點(diǎn)和其結(jié)構(gòu)特性的基礎(chǔ)上,采用基于數(shù)學(xué)形態(tài)學(xué)的方法,,對手寫體漢字進(jìn)行細(xì)化,。并針對細(xì)化過程中容易出現(xiàn)的細(xì)化不徹底現(xiàn)象,對原有的細(xì)化模板進(jìn)行了一定的改進(jìn),,使細(xì)化結(jié)果有了更進(jìn)一步的改善,。
2 基于數(shù)學(xué)形態(tài)學(xué)的手寫體漢字細(xì)化
    近年來,基于數(shù)學(xué)形態(tài)學(xué)的細(xì)化算法在圖像細(xì)化中得到廣泛應(yīng)用,。本文采用數(shù)學(xué)形態(tài)學(xué)中的擊中或擊不中變換對數(shù)字圖像進(jìn)行細(xì)化,,該細(xì)化方法能夠同時(shí)探測到圖像的內(nèi)部和外部。

2.1 圖像預(yù)處理
    為了能更好地處理圖像的細(xì)節(jié)部分,,減少干擾因素,,在進(jìn)行細(xì)化之前,需要對圖像進(jìn)行預(yù)處理,。首先將一幅手寫筆跡圖像通過掃描儀輸入計(jì)算機(jī)中,,并將其轉(zhuǎn)化為灰度圖像;然后根據(jù)需要對圖像進(jìn)行去噪,、濾波處理,,并對該圖像進(jìn)行二值化處理;最后再對圖像進(jìn)行反色變換,即將圖像中字符像素部分變?yōu)?,,背景點(diǎn)部分變?yōu)?,,這樣做的好處是將圖像中被處理部分變?yōu)?,細(xì)化過程即簡化為消除圖像中多余的“1”像素點(diǎn),。圖像的預(yù)處理結(jié)果如圖1所示,。

2.2 結(jié)構(gòu)元素模板
    在基于數(shù)學(xué)形態(tài)學(xué)的細(xì)化算法中,模板的選取對細(xì)化結(jié)果影響很大,,常用于圖像細(xì)化的結(jié)構(gòu)元素模板序列如圖2所示,。


    其中,結(jié)構(gòu)元素模板中“1”表示字符筆劃像素點(diǎn),,“0”表示背景像素點(diǎn),,“*”表示既可以是字符筆劃像素點(diǎn),也可以是背景像素點(diǎn),。
    通過實(shí)驗(yàn)可以發(fā)現(xiàn),,僅僅使用上述結(jié)構(gòu)元素模板序列容易造成細(xì)化不徹底的現(xiàn)象。本文根據(jù)手寫體漢字字符圖像的結(jié)構(gòu)特征,,利用改進(jìn)的結(jié)構(gòu)元素模板對細(xì)化后的字符圖像再進(jìn)行進(jìn)一步的細(xì)化,,降低了細(xì)化不徹底現(xiàn)象的發(fā)生。改進(jìn)的幾個(gè)結(jié)構(gòu)元素模板如圖3所示,。

 

 

3 實(shí)驗(yàn)
    本文使用Matlab進(jìn)行實(shí)驗(yàn),,首先輸入一幅手寫體漢字圖像,并對原圖像進(jìn)行預(yù)處理,,然后對圖像進(jìn)行數(shù)學(xué)形態(tài)學(xué)中的閉運(yùn)算處理,,即對圖像先膨脹后腐蝕,目的是填充原始圖像筆劃中存在的孔洞,,使圖像筆劃變得平滑,,有利于下一步的細(xì)化操作。手寫體漢字的細(xì)化主要是通過擊中或擊不中變換算法,,使用結(jié)構(gòu)元素模板對圖像進(jìn)行細(xì)化處理,。在本實(shí)驗(yàn)中,首先采用常用的結(jié)構(gòu)模板對原圖像進(jìn)行細(xì)化操作,,再使用本文中改進(jìn)的模板進(jìn)行進(jìn)一步的細(xì)化處理,,實(shí)驗(yàn)結(jié)果如圖4所示。

    從以上手寫體漢字的細(xì)化結(jié)果可以看出,,基于數(shù)學(xué)形態(tài)學(xué)的細(xì)化方法很好地保持了字符圖像筆劃的連續(xù)性,,很好地改善了原模板中細(xì)化不徹底的現(xiàn)象,細(xì)化后的骨架比較接近圖像筆劃的中心線,,并保持了字符圖像的拓?fù)湫浴?br />     同時(shí),,本文算法仍有需要改進(jìn)的地方,細(xì)化后的漢字筆劃上有“毛刺”現(xiàn)象產(chǎn)生,由于手寫體漢字筆劃的結(jié)構(gòu)特征等特性,,在進(jìn)行去“毛刺”處理時(shí),,易造成某些較短筆劃的丟失。
參考文獻(xiàn)
[1] 閆建國,,高華.基于筆劃類型的字符細(xì)化算法研究[J].計(jì)算機(jī)工程與應(yīng)用,2001,,11(02):83-84.
[2] LAM L,,LEE S W.Thinning methodologies-a comprehensive survey[J].IEEE,1992,,14(9):869-885.
[3] 張學(xué)東,,張仁秋.一種快速的手寫體漢字細(xì)化算法[J].計(jì)算機(jī)應(yīng)用與軟件,2009,,26(11):17-19.
[4] 柳回春,,馬樹元.手寫體數(shù)字識別技術(shù)研究[J].計(jì)算機(jī)工程,2003,,29(4):24-26.
[5] 王建平,,錢自拓.基于數(shù)學(xué)形態(tài)學(xué)的圖像漢字筆畫細(xì)化和提取[J].合肥工業(yè)大學(xué)學(xué)報(bào),2005,,28(11):1431-1435.
[6] 金連文,,徐睿.一種基于數(shù)學(xué)形態(tài)學(xué)的手寫漢字方向特征提取方法[J].計(jì)算機(jī)工程,2003,,29(20):38-39.

此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載。