摘 要: 在分析文本行特點的基礎(chǔ)上,,提出了一種利用水平梯度差進(jìn)行文檔圖像的文本行檢測算法,。該算法首先對輸入的文檔圖像進(jìn)行水平梯度差計算,然后在局部窗口中求解最大梯度差并進(jìn)行文本行區(qū)域的合并,,通過非文本區(qū)域過濾來消除字符階躍的跳變,,最后將文檔圖像以行塊的形式進(jìn)行顯示。實驗結(jié)果表明,,與投影算法進(jìn)行相比,,該算法對于行間距較小的文檔圖像的檢測效果較好,時間復(fù)雜度較低并且檢測的正確率較高,,具有一定的魯棒性和較好的適應(yīng)性,。
關(guān)鍵詞: 梯度差; 文本行檢測,; 局部窗口,; 投影算法
目前大多數(shù)文檔圖像的信息以數(shù)字化形式存在,并以文檔形式存儲在數(shù)據(jù)庫中,。文檔圖像處理是辦公自動化的一個重要組成部分,在辦公自動化,、數(shù)字圖書館,、圖像視頻檢索等領(lǐng)域得到越來越廣泛的應(yīng)用[1]。其內(nèi)容主要包括掃描輸入,、預(yù)處理,、布局分析、字符識別等步驟,,其中,文本行檢測是進(jìn)行布局分析,、檢索以及字符識別的重要組成部分。目前主要采用三種方法來進(jìn)行文本定位:基于區(qū)域的方法,、基于邊緣的方法和基于紋理的方法[1],?;趨^(qū)域的方法利用連通區(qū)域進(jìn)行投影分析來獲取文本區(qū)域,, 投影特性法[2]主要是對文檔圖像在指定方向上進(jìn)行投影測試,根據(jù)投影的分布特征,,在得到的結(jié)果中選取最佳的投影結(jié)果,,以完成文本行的檢測。但由于傳統(tǒng)投影方法需要對整個圖像進(jìn)行指定方向上的投影,,其計算量和復(fù)雜度都較高[3],。基于邊緣的方法利用了圖像中的文本與背景之間有較高對比度這一特性來進(jìn)行定位,。Chen Datong 等人[4]利用Canny算法提取圖像邊緣,,并用形態(tài)學(xué)膨脹的方法將邊緣連接成塊,再利用基線定位完成文本行檢測,,但時間復(fù)雜度較高,,當(dāng)背景邊緣較為復(fù)雜時,這類算法處理起來較為困難,?;诩y理的方法利用文本具有的較強(qiáng)的紋理特征來區(qū)分背景,Mao Wenge等人[5]利用小波變換檢測圖像紋理,,再通過圖像的紋理分析定位出文本,。該方法通常具有較高的魯棒性,但計算量大,,復(fù)雜度較高,,且文本定位不是很精確。
本文在總結(jié)上述算法特點的基礎(chǔ)上,,提出了一種基于梯度差的文本行檢測算法,,該算法利用了文檔圖像文本行特征,在水平方向上進(jìn)行梯度差計算,,然后進(jìn)行文本行區(qū)域的合并和非文本區(qū)域的過濾,,減少了文字粗細(xì)和圖像分辨率的干擾,,提高了檢測的速度和精度。
1 文本行特點分析
文檔圖像文本行的特殊性主要表現(xiàn)在以下幾個方面:
(1)大部分的文字邊緣均突出,,可以利用邊緣信息進(jìn)行文本檢測,尤其是中文在水平和垂直方向上邊緣均比較突出,。邊緣與梯度之間存在很大的關(guān)聯(lián),梯度的方向在數(shù)學(xué)中表示為某函數(shù)變化率最大的方向,,在文檔圖像中梯度往往反映了圖像邊緣清晰度[6],,對于梯度較大的區(qū)域可表示為可能的文本區(qū)域。
(2)對于印刷體文檔圖像中的文本,,同一行中文字的字符間距相同,,間距與字符之間滿足一定的比例關(guān)系,如字符間距大于字符寬度的1/5而小于字符寬度的兩倍,。在進(jìn)行文本區(qū)擴(kuò)展不同的字符區(qū)域使之成為一個有效的文本塊時,,非文本區(qū)域往往不具備該特征。對于手寫體文檔圖像,字符間距不同,,比印刷體文檔圖像復(fù)雜,,但可以利用文本區(qū)域擴(kuò)展特征進(jìn)行文本行檢測。
(3)文本行具有直線特征,,有很強(qiáng)的方向性,,可根據(jù)該特征進(jìn)行文本行標(biāo)記與定位,此外該特征還可用于傾斜校正和版面分析等,。
文本梯度的信息不同于非文本區(qū)域的梯度,主要是由于一般文字和背景之間有很高的對比度,。由于正負(fù)梯度值之差在文字區(qū)域較大,因此,本文利用梯度差方法進(jìn)行文本行檢測。
2 文本行檢測算法
文本行檢測算法沒有進(jìn)行文檔圖像的預(yù)處理過程,,一定程度上減少了檢測時間,,如果輸入的圖像為真彩圖像,首先進(jìn)行灰度轉(zhuǎn)化[7],,這比單獨對彩色圖像的每個通道進(jìn)行處理效率要高,。
2.1 最大梯度差計算
字符圖像往往具有較強(qiáng)的邊緣信息,在字符邊緣地帶,,相鄰像素的灰度值變化劇烈,,對應(yīng)梯度幅度值較大。此外,,文字行區(qū)域具有直線特點,。因此,本文根據(jù)字符圖像的特殊性,采用水平梯度差進(jìn)行文本行區(qū)域的合并。其算法如下:
2.2 文本行塊標(biāo)記
通常情況下,文檔圖像中的字符會存在字符高低不平的情況,,為獲取較為規(guī)則的文本行塊,,需進(jìn)行消除字符階躍的跳變。本文利用非文本過濾的基本思想,判斷一個可能的文本區(qū)像素點兩邊是否滿足非文本過濾的要求,。主要方法是設(shè)定局部窗口,,然后沿水平方向滑動,判斷窗口內(nèi)的像素是否全部為黑色像素(像素值為0),,若滿足,則停止計算,認(rèn)為該區(qū)域為文本行區(qū)域, 否則將窗口的像素值置為1,。通過文本行定位可有效地消除字符間高低不平的情況,根據(jù)實際應(yīng)用的需要,,可再次進(jìn)行非文本區(qū)域過濾操作,,圖1所示為輸入的英文手寫體文檔圖像,圖2所示為文本行經(jīng)過非文本區(qū)域過濾后得到的文本行檢測效果,。
3 實驗結(jié)果及分析
選擇若干幅尺寸相同但字體不一的純文字文檔圖像進(jìn)行實驗,,實驗環(huán)境為Windows XP操作系統(tǒng),Pentium(R)1.7 G CPU,,512 MB內(nèi)存,,用Matlab7.0 仿真實現(xiàn)了文檔圖像的文本行檢測。
經(jīng)實驗得到的閾值為77.5,,為方便起見,,本文選取80作為梯度圖像的文本行檢測閾值。在不同的局部窗口下對圖1進(jìn)行文本行檢測,,結(jié)果如圖3所示。當(dāng)局部窗口w取13時,行內(nèi)會存在斷點;當(dāng)w取19時,看到行與行之間會有融合,,二者效果都不理想;在w取得15時,效果較好,。
將本文算法和投影檢測算法[8]分別作用于印刷體文檔圖像中的某一圖像(如圖4所示),圖5所示為利用水平梯度差得到的文本行檢測效果,,圖6所示為利用投影算法得到的文本行檢測效果,。
采用本文算法、投影檢測算法分別對10,、20,、30幅圖像分別進(jìn)行實驗,結(jié)果如表1所示,。
通過實驗結(jié)果可以看出,在進(jìn)行文本行檢測時,,對于行間距較小的文檔圖像,利用投影算法進(jìn)行文本行檢測時,,行間距較小的文本行之間可能會發(fā)生融合,,這樣檢測的正確率就會下降。本文算法通過最大梯度差和文本行標(biāo)記算法可有效完成文本行的檢測,,且檢測的平均時間短,,因此具有較好的魯棒性。
使用本算法對傾斜的文檔圖像(如圖7所示)進(jìn)行文本行檢測,圖8所示為文本行檢測的結(jié)果。從圖8可以看出,,對傾斜的文檔圖像進(jìn)行文本行檢測時,,會造成文本行融合現(xiàn)象,從而降低了檢測正確率,這是本文算法的不足之處,,需要進(jìn)一步改進(jìn),,以提高對傾斜文檔圖像的文本行檢測正確率。
本文分析了文檔圖像的文本行特點,,提出了一種基于梯度差的文檔圖像文本行檢測算法,,該算法計算簡單、復(fù)雜度低,。實驗結(jié)果表明,,該算法可以對印刷體以及手寫體文檔圖像進(jìn)行快速的文本行檢測。本文算法也存在著不足,,即在處理傾斜的文檔圖像時效果不佳,,有待進(jìn)一步改進(jìn)。文本行檢測算法可以為進(jìn)一步進(jìn)行文檔圖像的版面分析,,深入進(jìn)行文檔圖像檢索,、圖文分割等奠定良好的基礎(chǔ)。
參考文獻(xiàn)
[1] 晉瑾,, 平西建,, 張濤. 圖像中的文本定位技術(shù)研究綜述[J].計算機(jī)應(yīng)用研究, 2007,24(6):8-11.
[2] 范玉鳳.基于投影自適應(yīng)算法的中文版面分析方法研究[J]. 光盤技術(shù),2009(1):19-20.
[3] 吳濤,,賀漢根.一種快速的文本傾斜檢測方法[J].計算機(jī)工程與應(yīng)用,2002:113-115.
[4] Chen Datong,SHEARER K,BOURLARD H. Text enhancement with asymmetric filter for video OCR[C].International Conference on Image Analysis and Processing,,2001:192-197.
[5] Mao Wenge, Chung Fulai, LANM K,et al. Hybrid chinese/English text detection in images and vedio frames[C]. International Conference on Pattern Recognition,2002:1015-1018.
[6] 張弘.數(shù)字圖像處理[M].北京:機(jī)械工業(yè)出版社,2007:115-118.
[7] JAE H K,TAE T P,,YANG H C,,et al. Photo-text segmentation in complex color document[C]. The 5th Japan-Korean Joint Symposium on Imaging Materials and Technologies,Kyoto,, Japan,,2004:44-47.
[8] Gao Feng,Zheng Nanning,Song Yonghong.Document images retrieval based on multiple features combination[C]. IEEE ICDAR, 2007.