《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 模擬設(shè)計(jì) > 設(shè)計(jì)應(yīng)用 > 手繪太陽黑子圖手寫字符分割方法研究
手繪太陽黑子圖手寫字符分割方法研究
2015年微型機(jī)與應(yīng)用第20期
朱道遠(yuǎn)1,,鄭 勝1,,2,曾祥云2,,徐高貴2
1.三峽大學(xué) 計(jì)算機(jī)與信息學(xué)院,,湖北 宜昌 443002; 2.三峽大學(xué) 理學(xué)院,,湖北 宜昌 443002
摘要: 利用固定區(qū)域坐標(biāo)提取固定區(qū)域的單行數(shù)據(jù)字符塊,;基于高斯模糊提取隨機(jī)手寫黑子信息字符區(qū);結(jié)合Hough變換與投影技術(shù)完成隨機(jī)手寫區(qū)域中包含多個(gè)黑子記錄字符塊的分割,,并將包含單個(gè)黑子記錄字符塊分割為3個(gè)僅包含單行數(shù)據(jù)的字符塊,;利用顏色填充分割算法分割出單行數(shù)據(jù)字符塊中的單個(gè)字符和粘連字符,結(jié)合平均字符寬度信息進(jìn)一步分割粘連字符,。實(shí)驗(yàn)結(jié)果表明,,每幅手繪太陽黑子圖的固定區(qū)域和隨機(jī)區(qū)域的字符分割平均正確率分別達(dá)到95.5%和79.6%。
Abstract:
Key words :

  摘  要: 利用固定區(qū)域坐標(biāo)提取固定區(qū)域的單行數(shù)據(jù)字符塊,;基于高斯模糊提取隨機(jī)手寫黑子信息字符區(qū),;結(jié)合Hough變換與投影技術(shù)完成隨機(jī)手寫區(qū)域中包含多個(gè)黑子記錄字符塊的分割,,并將包含單個(gè)黑子記錄字符塊分割為3個(gè)僅包含單行數(shù)據(jù)的字符塊,;利用顏色填充分割算法分割出單行數(shù)據(jù)字符塊中的單個(gè)字符和粘連字符,結(jié)合平均字符寬度信息進(jìn)一步分割粘連字符,。實(shí)驗(yàn)結(jié)果表明,,每幅手繪太陽黑子圖的固定區(qū)域和隨機(jī)區(qū)域的字符分割平均正確率分別達(dá)到95.5%和79.6%。

  關(guān)鍵詞: Hough變換,;投影算法,;顏色填充分割算法;粘連字符,;字符寬度

0 引言

  在光球觀測照相之前,,太陽黑子觀測長期以來一直采用投影法手工描跡黑子的大小、形狀和位置[1]。對手繪太陽黑子圖進(jìn)行數(shù)字化具有極為重要的意義,,可降低珍貴數(shù)據(jù)丟失的風(fēng)險(xiǎn),,快捷簡單地查詢有關(guān)黑子的信息,匯聚各個(gè)天文臺(tái)的觀測數(shù)據(jù)進(jìn)行有效的整理,,為科學(xué)家和用戶提供數(shù)據(jù)服務(wù),。

  國際上較早開展了手繪太陽黑子圖的數(shù)字化研究工作,西班牙和比利時(shí)分別開發(fā)出了HSUNSPOTS和DigiSun的手繪太陽黑子圖數(shù)字化軟件,。中國自20世紀(jì)30年代末開始太陽黑子觀測,,云南天文臺(tái)已積累圖1所示的手繪太陽黑子圖[2]達(dá)20 000多張。由圖1可見,,手寫黑子信息可分為固定區(qū)域和隨機(jī)區(qū)域兩部分,,分別如圖1中類似矩形框標(biāo)記部分和類似橢圓框標(biāo)記部分。提取手寫記錄信息并保存在計(jì)算機(jī)中是手繪太陽黑子圖數(shù)字化的重要內(nèi)容,,因此手寫字符的提取和分割是其中一個(gè)重要的環(huán)節(jié),。

  目前關(guān)于手寫字符分割的方法有很多[3-5]?;谕队昂洼喞卣鞯姆椒▽唧w的應(yīng)用對象缺乏針對性,,如投影分析法對字符發(fā)生嚴(yán)重傾斜或交錯(cuò)的情況無法處理;外輪廓分析法在字符間粘連筆劃為直線的情況下,,因找不到輪廓線上的凹點(diǎn)而不太適用,。基于結(jié)構(gòu)特征的方法由于缺乏識(shí)別的指導(dǎo),,往往導(dǎo)致分割質(zhì)量不高,。基于模板識(shí)別的方法是以字符識(shí)別器提供的置信度作為分割的度量,,選取真實(shí)反映識(shí)別結(jié)果的置信度是提高分割正確率的關(guān)鍵,。考慮上述字符分割方法的缺點(diǎn)和復(fù)雜性,,以及隨機(jī)手寫黑子信息區(qū)字符中帶有圓圈的特殊性,,本文研究圖1所示的固定區(qū)域和隨機(jī)區(qū)域手寫字符的提取與分割方法。

Image 001.png

1 固定區(qū)域手寫黑子信息字符提取與分割

  1.1 基于坐標(biāo)的固定區(qū)域手寫字符區(qū)提取

  將原始圖進(jìn)行大小歸一化,,每幅圖中各固定區(qū)域的相對位置相同,,計(jì)算出圖中各固定區(qū)域橫縱坐標(biāo)最小和最大兩像素點(diǎn),提取兩坐標(biāo)點(diǎn)確定矩形框中原始圖像的像素值,,即字符塊,,如圖2(a)所示。

  1.2 基于CFS算法與平均字符寬度的固定區(qū)域字符分割

  利用顏色填充分割[6](Color Filling Segmentation,,CFS)算法進(jìn)行分割,,若字符寬度小于最小字符寬度43,,則為干擾字符(小數(shù)點(diǎn)、度符號(hào),、撇符號(hào)和等號(hào)),,刪除;若字符寬度大于最大字符寬度61,,則為粘連字符,,結(jié)合平均字符寬度利用投影分割粘連字符,若其中存在干擾字符,,刪除,;其他則為單個(gè)字符。部分結(jié)果如圖2(b)所示,。

Image 002.png

2 隨機(jī)區(qū)域手寫黑子信息字符提取與分割

  2.1 基于高斯模糊的隨機(jī)區(qū)域手寫字符區(qū)提取

  對提取出固定區(qū)域字符塊后的圖利用全局閾值轉(zhuǎn)換為黑白圖,,利用高斯模糊算法[7],使用大小為901×901,、標(biāo)準(zhǔn)偏差為300的高斯模糊算子進(jìn)行卷積運(yùn)算,,尋找所有的八鄰接連通域,刪除面積小于一定閾值的連通域,,通過標(biāo)注連接分量標(biāo)記所有的連通域,,利用標(biāo)號(hào)尋找各連通域中橫縱坐標(biāo)最小和最大兩像素點(diǎn),提取稍大于兩坐標(biāo)點(diǎn)確定矩形框范圍中原始圖像像素點(diǎn)的值,,即字符塊,,部分結(jié)果如圖3所示。

Image 003.png

  2.2 基于Hough變換與投影的隨機(jī)區(qū)域字符塊分割

  2.2.1 包含多個(gè)黑子記錄字符塊的分割

  部分類似圖3(b)所示字符塊含有多個(gè)黑子記錄,,需將其分割為類似圖3(a)所示僅包含單個(gè)黑子記錄的字符塊,,利用Hough變換[8]來檢測圖中的圓圈,利用圓心坐標(biāo)來判斷黑子的分布結(jié)構(gòu),。若兩圓心縱坐標(biāo)差的絕對值遠(yuǎn)大于兩圓心橫坐標(biāo)差的絕對值,,則為上下結(jié)構(gòu),以第二個(gè)圓圈圓心縱坐標(biāo)減去半徑值為投影分割點(diǎn)進(jìn)行垂直投影分割,;反之,,則為左右結(jié)構(gòu),以第二個(gè)圓圈圓心橫坐標(biāo)減去半徑值為投影分割點(diǎn)進(jìn)行水平投影分割,。

  2.2.2 包含單個(gè)黑子記錄字符塊的分割

  由于圓圈的高度大于緊隨其后的行數(shù)據(jù)高度,,對具有單個(gè)黑子記錄的字符塊進(jìn)行垂直投影分割前需將圓圈去除;通過Hough變換檢測圓圈,,利用圓心和半徑提取圓圈及圓圈中數(shù)據(jù),為第一行數(shù)據(jù),;通過垂直投影選取合適的局部極小值點(diǎn)作為分割點(diǎn),,對剩余字符塊進(jìn)行分割得到單行數(shù)據(jù)字符塊,分別為第二行數(shù)據(jù)和第三行數(shù)據(jù)字符塊,部分結(jié)果如圖4所示,。

Image 004.png

  2.3 基于CFS算法與平均字符寬度的隨機(jī)區(qū)域字符分割

  利用CFS算法進(jìn)行分割,,若第二行字符塊中字符滿足寬度<13或者>31且高度均≤100且字符面積處于574~2 170之間或者第三行字符塊中字符滿足高度≥42且字符面積處于574~2 170之間,則認(rèn)為單個(gè)字符或者粘連字符,,保留并判斷字符的寬度,,若寬度>62,則為是粘連字符,,結(jié)合平均字符寬度利用投影對粘連字符分割,,若其中存在干擾字符,刪除,;反之,,則為是單個(gè)字符,部分結(jié)果如圖5所示,。

Image 005.png

3 手寫字符分割實(shí)驗(yàn)結(jié)果及分析

  選取中國科學(xué)院云南天文臺(tái)2000年2月至4月共43張分辨率達(dá)到5 000×6 000的手繪太陽黑子圖,,人工統(tǒng)計(jì)共有13 717個(gè)字符,固定區(qū)域共有2 279個(gè)字符,,隨機(jī)手寫區(qū)域共有11 438個(gè)字符,。利用投影和本文方法分別對固定區(qū)域和隨機(jī)區(qū)域的手寫字符進(jìn)行分割,以人工對比和確認(rèn)的方式對字符分割的結(jié)果進(jìn)行統(tǒng)計(jì),。

  采用投影算法進(jìn)行字符分割,,固定區(qū)域字符分割正確的字符共2 156個(gè),分割錯(cuò)誤的字符共123個(gè),,分割正確率達(dá)94.6%,;隨機(jī)區(qū)域字符分割正確的字符共    8 716個(gè),分割錯(cuò)誤的字符共2 722個(gè),,正確分割率達(dá)76.2%,。采用本文方法進(jìn)行字符分割,固定區(qū)域字符分割正確的字符共2 176個(gè),,分割錯(cuò)誤的字符共103個(gè),,分割正確率達(dá)95.5%;隨機(jī)手寫區(qū)域字符分割正確的字符共9 109個(gè),,分割錯(cuò)誤的字符共2 329個(gè),,正確分割率達(dá)79.6%。

4 結(jié)論

  本文方法使固定區(qū)域字符和隨機(jī)區(qū)域字符分割平均正確率分別提高了0.9%和3.4%,,表明采用方法得當(dāng),,能較好地將包含單行數(shù)據(jù)的字符塊分割為多個(gè)完整的單個(gè)字符。

參考文獻(xiàn)

  [1] 劉學(xué)富.太陽黑子觀測[J].天文愛好者,,1999(6):24-26.

  [2] 云南天文臺(tái)太陽觀測數(shù)據(jù)服務(wù)系統(tǒng)[EB/OL].(2015-05-25).http://www1.ynao.ac.cn/~solar/datadownload.php.

  [3] 丁杰,,楊靜宇.一種基于模糊規(guī)則的手寫體粘連數(shù)字串分割[J].中國圖象圖形學(xué)報(bào),,2009,14(11):2292-2298.

  [4] 胡濤,,呂紅,,孫小虎,等.基于水平垂直灰度開運(yùn)算的車牌字符分割算法[J].電子技術(shù)應(yīng)用,,2012,,38(10):109-111.

  [5] 高慶吉,王曉華,,趙為平.對粘連和缺損數(shù)字串分割的研究[J].模式識(shí)別與人工智能,,2000,13(1):99-1021.

  [6] YAN J,,  AHMAD A S E. A low-cost attack on a Microsoft CAPTCHA[C]. Proceedings of the 15th ACM Conference on Computer and Communications Security,, 2008: 543-554.

  [7] 丁怡心,,廖勇毅.高斯模糊算法優(yōu)化及實(shí)現(xiàn)[J].現(xiàn)代計(jì)算機(jī),,2010(8):76-78.

  [8] 姜文,盧朝陽,,李靜.基于Hough變換的手寫體維文字符傾斜校正算法[J].微型機(jī)與應(yīng)用,,2013,,32(8):29-31.


此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載,。