基于SVM手繪太陽(yáng)黑子圖像背景提取方法-AET-電子技術(shù)應(yīng)用

基于SVM手繪太陽(yáng)黑子圖像背景提取方法

2016年微型機(jī)與應(yīng)用第23期

朱明鋒，鄭勝，曾祥云，徐高貴

三峽大學(xué) 理學(xué)院，湖北宜昌 443002

摘要： 手繪太陽(yáng)黑子圖像手寫(xiě)記錄信息對(duì)于研究太陽(yáng)黑子長(zhǎng)期活動(dòng)規(guī)律具有重要價(jià)值，而背景提取又是利用計(jì)算機(jī)手繪太陽(yáng)黑子信息數(shù)字化工作中的關(guān)鍵過(guò)程。文章提出一種基于支持向量機(jī)（Support Vector Machine ，SVM）的手繪太陽(yáng)黑子圖像信息背景提取方法，通過(guò)針對(duì)性地對(duì)每個(gè)像素樣本特征向量的監(jiān)督學(xué)習(xí)訓(xùn)練，從而實(shí)現(xiàn)背景像素與前景像素的分離，實(shí)驗(yàn)證明該方法具有很好的魯棒性，將此方法與傳統(tǒng)的K-means模糊劃分、模糊C均值（FCM）聚類(lèi)方法進(jìn)行對(duì)比分析，證實(shí)該方法的應(yīng)用價(jià)值更高。

關(guān)鍵詞： 手繪太陽(yáng)黑子圖背景提取支持向量機(jī) 監(jiān)督學(xué)習(xí)

Abstract：

Key words :

　　朱明鋒，鄭勝，曾祥云，徐高貴

　　(三峽大學(xué) 理學(xué)院，湖北宜昌 443002)

摘要：手繪太陽(yáng)黑子圖像手寫(xiě)記錄信息對(duì)于研究太陽(yáng)黑子長(zhǎng)期活動(dòng)規(guī)律具有重要價(jià)值，而背景提取又是利用計(jì)算機(jī)手繪太陽(yáng)黑子信息數(shù)字化工作中的關(guān)鍵過(guò)程。文章提出一種基于支持向量機(jī)（Support Vector Machine ，SVM）的手繪太陽(yáng)黑子圖像信息背景提取方法，通過(guò)針對(duì)性地對(duì)每個(gè)像素樣本特征向量的監(jiān)督學(xué)習(xí)訓(xùn)練，從而實(shí)現(xiàn)背景像素與前景像素的分離，實(shí)驗(yàn)證明該方法具有很好的魯棒性，將此方法與傳統(tǒng)的K-means模糊劃分、模糊C均值（FCM）聚類(lèi)方法進(jìn)行對(duì)比分析，證實(shí)該方法的應(yīng)用價(jià)值更高。

　　關(guān)鍵詞：手繪太陽(yáng)黑子圖；背景提取；支持向量機(jī)；監(jiān)督學(xué)習(xí)；K-means聚類(lèi)

　　中圖分類(lèi)號(hào)：TP319文獻(xiàn)標(biāo)識(shí)碼：ADOI： 10.19358/j.issn.1674 7720.2016.23.015

　　引用格式：朱明鋒，鄭勝，曾祥云，等. 基于SVM手繪太陽(yáng)黑子圖像背景提取方法［J］.微型機(jī)與應(yīng)用，2016,35（23）：52-55,58.

0引言

　　隨著科學(xué)技術(shù)的快速發(fā)展，在短短幾十年間，數(shù)字圖像處理技術(shù)快速發(fā)展，并逐漸趨于成熟。該技術(shù)在人工智能應(yīng)用、遙感影像處理、空間探測(cè)、工業(yè)檢測(cè)以及生物醫(yī)學(xué)等眾多領(lǐng)域都得到了廣泛應(yīng)用，并為這些領(lǐng)域內(nèi)的學(xué)科發(fā)展提供了新的方向和突破點(diǎn)［1］。在研究太陽(yáng)活動(dòng)的過(guò)程中，對(duì)太陽(yáng)黑子活動(dòng)的觀察最為明顯和容易。在計(jì)算機(jī)不發(fā)達(dá)的過(guò)去，天文工作者所觀測(cè)到的太陽(yáng)黑子的大小、形狀和位置等特征，主要是通過(guò)投影法手工描跡［2］，近些年才逐漸由光球觀測(cè)照相替代這一傳統(tǒng)方法。每天黑子面積數(shù)值表示的是每天出現(xiàn)在全日面上的黑子面積（單位是全日面面積的百萬(wàn)分之一），在一定意義上，它是太陽(yáng)磁場(chǎng)活動(dòng)的每日磁流量的數(shù)字化表示，也是太陽(yáng)發(fā)電機(jī)產(chǎn)生黑子功率的直接表現(xiàn)［3］。將手繪太陽(yáng)黑子圖的工作數(shù)字化，能夠最大程度地保護(hù)這些寶貴數(shù)據(jù)不被丟失，并且可以方便地快速整合所有觀測(cè)到的黑子信息，使不同天文臺(tái)的觀測(cè)數(shù)據(jù)信息得到有效的整合與規(guī)整化處理，可為太陽(yáng)黑子活動(dòng)研究者提供便捷的數(shù)據(jù)查詢(xún)和使用服務(wù)，這一革新對(duì)天文研究的意義是不言而喻的［4-5］。

　　西班牙和比利時(shí)是世界上較早開(kāi)始手繪太陽(yáng)黑子圖像數(shù)字化處理工作的，DigiSun和HSUNSPOTS等手繪黑子圖像的數(shù)字化工具就是由他們研制出來(lái)的［6］。我國(guó)自上世紀(jì)30年代末開(kāi)始對(duì)太陽(yáng)黑子活動(dòng)進(jìn)行相關(guān)觀測(cè)，并將觀測(cè)結(jié)果記錄于紙上，到目前為止云南國(guó)家天文臺(tái)已經(jīng)獲取了2萬(wàn)多張如圖1所示的太陽(yáng)黑子手繪圖。對(duì)于手繪太陽(yáng)黑子圖信息數(shù)字化工作即是將圖像中手寫(xiě)記錄信息提取并保存于數(shù)據(jù)庫(kù)中，這一工作的重要環(huán)節(jié)是對(duì)圖像背景的提取和分離。

圖像 001.png

圖像信息數(shù)字化的關(guān)鍵在于數(shù)字圖像的處理算法［7-10］，包括圖像RGB空間聚類(lèi)、圖像分割等，背景的有效分割是手繪太陽(yáng)黑子圖像中信息數(shù)字化的難點(diǎn)。

　　SVM是經(jīng)典的機(jī)器學(xué)習(xí)方法之一，在回歸處理、模式分類(lèi)等方面都有明顯優(yōu)勢(shì)［11］。針對(duì)手繪太陽(yáng)黑子圖像信息數(shù)字化中的背景分離工作，本文提出一種基于支持向量機(jī)的背景提取方法，通過(guò)利用LIBSVM圖像處理算法將圖像中的R、G、B顏色分量進(jìn)行訓(xùn)練學(xué)習(xí)，得到最優(yōu)分類(lèi)模型，經(jīng)試驗(yàn)驗(yàn)證，該方法不僅效果顯著，而且魯棒性也很好，自動(dòng)適應(yīng)由于年代久遠(yuǎn)、紙張發(fā)生變化給圖像帶來(lái)的模糊效應(yīng)。

1理論基礎(chǔ)

　　支持向量機(jī) (Support Vector Machine，SVM)機(jī)器學(xué)習(xí)方法以統(tǒng)計(jì)學(xué)的VC理論和構(gòu)造風(fēng)險(xiǎn)最小化為基本原理。該方法可以基于一定的樣本信息，使模型在其實(shí)現(xiàn)可行性和模式分類(lèi)能力之間尋找最佳平衡點(diǎn)，是SLT的一種成功實(shí)現(xiàn)［12］，又稱(chēng)為回歸機(jī)。假設(shè)訓(xùn)練樣本為(xi,yi)，(i=1,…,n)，其中n為樣本大小。采用線性函數(shù)對(duì)樣本進(jìn)行擬合是最簡(jiǎn)易的SVM回歸分析方法。對(duì)于如何解決線性不可分的分類(lèi)問(wèn)題，最有效的方法是在高維樣本特征空間中建立線性模型，其中的關(guān)鍵是將樣本點(diǎn)映射到高維空間的非線性變換，SVM回歸機(jī)可以表示如下：

　　 QQ圖片20170105142307.png

　　式（1）中，ω2是模型復(fù)雜度相關(guān)因素；C>0代表對(duì)誤差范圍之外樣本的抑制力度，即懲罰系數(shù)；ε則代表非敏感損失函數(shù)，模型中支持向量的個(gè)數(shù)會(huì)受到其取值大小的影響；ξi、ξ*i表示樣本與非敏感區(qū)域的相對(duì)距離，即松弛變量。

　　對(duì)于式（1），通常獲得原始問(wèn)題最佳解的方法是通過(guò)求解上述模型對(duì)偶問(wèn)題的最佳解：

　　 QQ圖片20170105142310.png

　　其中，K(xi+xj)是核函數(shù)，滿(mǎn)足Mercer條件并且K(xi+xj)=φ(xi)φ(xj)。徑向基核（Radial Basis Function，RBF）是普適的核函數(shù)：

　　 QQ圖片20170105142312.png

　　其中γ=1/σ2，σ>0 是核函數(shù)寬度系數(shù)。懲罰力度大小C、不敏感程度ε、卷積核及其處理參數(shù)的選取，對(duì)SVM的分類(lèi)正確率有較大的影響［13］。

　　K-means是一種無(wú)監(jiān)督的數(shù)據(jù)劃分聚類(lèi)算法，在預(yù)先不知道樣本所屬類(lèi)別的情況下，根據(jù)樣本之間的距離或相似程度自動(dòng)地進(jìn)行樣本的分類(lèi)，是一種基于劃分的聚類(lèi)方法［14］。

　　經(jīng)典的K-means算法中，使用每個(gè)樣本與每個(gè)樣本區(qū)中心點(diǎn)之間誤差的平方和最小為準(zhǔn)則來(lái)建立映射關(guān)系。假設(shè)待分類(lèi)的樣本集合為D={xj}nj=1，xj∈Rd，K-means劃分算法的目的就是將樣本數(shù)據(jù)集合劃分為k(k<n)類(lèi)：S={S1,S2,…Sk}，令劃分后的k個(gè)樣本子集合滿(mǎn)足類(lèi)內(nèi)誤差的平方和最小。

　　FCM采用隸屬度矩陣來(lái)確定每個(gè)樣本屬于某個(gè)分類(lèi)的程度［15］。假設(shè)樣本數(shù)為n個(gè)向量xi(i=1,2,…,n)組成的模糊組，將其分為c個(gè)區(qū)域中心，使得非相似性指標(biāo)函數(shù)的值達(dá)到最小。

2數(shù)據(jù)樣本采集及特征向量構(gòu)造

　　2.1數(shù)據(jù)樣本采集

　　早先的太陽(yáng)黑子觀測(cè)是記錄在特定的紙張上的。特定的繪制紙張是印刷出來(lái)的，上面有固定的表格和文字信息等，如圖2所示。為了更好地進(jìn)行圖像的下一步分割操作，首先需要將圖像中的印刷部分提取出來(lái)，也就是圖2所示部分。

圖像 002.png

　　將圖2中的圖像進(jìn)行二值化處理，即可得到每個(gè)像素樣本的類(lèi)別信息。手繪太陽(yáng)黑子圖像中，對(duì)于每個(gè)像素點(diǎn)，都是一個(gè)特定樣本，其R、G、B值即是其特征值，那么，對(duì)于每個(gè)像素樣本而言，其特征向量即為X=［RGB］。

　　2.2特征向量構(gòu)造

　　手繪太陽(yáng)黑子圖像的背景提取中，每個(gè)像素點(diǎn)都是一個(gè)待分類(lèi)的樣本，由此，構(gòu)造樣本的特征向量為：

　　 QQ圖片20170105142316.png

　　其中，n為圖像中像素的個(gè)數(shù)。假設(shè)圖像為M×N×3的矩陣，那么n=M×N。在SVM模型訓(xùn)練過(guò)程中，需要輸入樣本的監(jiān)督向量。由此，建立監(jiān)督向量為：

　　 QQ圖片20170105142318.png

　　其中，當(dāng)Xi為前景像素點(diǎn)時(shí)，yi=+1；當(dāng)Xi為背景像素點(diǎn)時(shí)，yi=－1。

　　SVM可以使用少量樣本來(lái)對(duì)大量實(shí)體對(duì)象進(jìn)行分類(lèi)［16-17］。因此，本文隨機(jī)選取原圖像素中的2萬(wàn)個(gè)點(diǎn)進(jìn)行訓(xùn)練，然后使用得到的模型對(duì)圖像進(jìn)行前景與背景的提取。

　　2.3SVM問(wèn)題求解機(jī)制

　　SVM比較擅長(zhǎng)于二分類(lèi)問(wèn)題的求解，本問(wèn)題正屬于二分類(lèi)問(wèn)題。假設(shè)待分類(lèi)的N個(gè)樣本組成的集合為：xi,yiNi，并且yi=+1,－1，這里，可以將構(gòu)造的樣本特征向量X i看作是xi，而Y i即是yi。其中xi是一個(gè)n維向量，這里n=3，yi是向量所屬的分類(lèi)類(lèi)別信息。

　　SVM使用一個(gè)超平面將樣本進(jìn)行分類(lèi)：

　　 QQ圖片20170105142321.png

　　其中，w是輸入向量，x是自適應(yīng)權(quán)重向量，b是偏置量。求解過(guò)程中，最大化邊界2/w2獲得最優(yōu)分界面參數(shù)w和b，設(shè)定約束條件為：

　　 QQ圖片20170105142324.png

　　引入拉格朗日系數(shù)，獲得對(duì)偶問(wèn)題有效解：

　　 QQ圖片20170105142327.png

　　滿(mǎn)足條件：

　　αi≥0,∑mi=1αiyi=0

　　將內(nèi)積形式數(shù)據(jù)點(diǎn)映射到希爾伯特內(nèi)積空間：

　　 QQ圖片20170105142330.png

　　其中，K(·)是核函數(shù)。

　　由此可將式(9)化為：

　　 QQ圖片20170105142333.png

　　由此可得到SVM分類(lèi)器為：

　　 QQ圖片20170105142336.png

　　其中，

　　 QQ圖片20170105142339.png

　　是SVM分類(lèi)面上的決策表達(dá)式。

3手繪黑子圖像背景提取實(shí)驗(yàn)結(jié)果及分析

　　3.1SVM背景提取

　　構(gòu)造的樣本通過(guò)訓(xùn)練后得到SVM分類(lèi)模型，然后對(duì)原始圖像進(jìn)行分類(lèi)處理。

　　圖3是背景提取結(jié)果的局部顯示，圖3(a)是原始圖像中的局部圖，圖3(b)是提取出來(lái)的背景圖像，圖3(c)是提取出來(lái)的背景黑白顯示。

圖像 003.png

　　3.2SVM劃分與模糊聚類(lèi)劃分對(duì)比分析

　　文中使用中國(guó)科學(xué)院云南天文臺(tái)1982年到1992年，以及1995、1997、2000年每年一月份中隨機(jī)抽取一張共14張手繪太陽(yáng)黑子圖像進(jìn)行試驗(yàn)，使用Kmeans、FCM、SVM等方法分別對(duì)圖像中印刷體背景進(jìn)行提取，部分結(jié)果如圖4所示。

圖像 004.png

　　圖4中a0、a1、a2、a3、a4分別是1989年1月19日手繪太陽(yáng)黑子圖像原圖中的部分圖像、手動(dòng)提取背景信息圖像中相同位置部分圖像、Kmeans聚類(lèi)提取背景信息圖像中相同位置部分圖像、SVM提取背景圖像中相同位置部分圖像、FCM提取背景圖像中相同位置部分圖像；b0、b1、b2、b3、b4，c0、c1、c2、c3、c4則分別是1991年1月9日和1995年1月11日兩天不同處理后圖像中的局部顯示。

　　分別對(duì)幾種處理方法在處理速度和處理PSNR上進(jìn)行統(tǒng)計(jì)，結(jié)果如表1所示，計(jì)算PSNR的公式為：

　　 QQ圖片20170105142344.png

　　其中，d代表圖像像素的位深，8 bit的圖像中d=8，MSE是原始圖像與處理后圖像之間的均方誤差，其計(jì)算公式如下：

　　 QQ圖片20170105142347.png

　　其中，m,n是圖像的大小維度，I(i,j)為原圖像中的像素點(diǎn)的值，P(i,j)為處理后圖像中對(duì)應(yīng)點(diǎn)的像素點(diǎn)的值。因此，PSNR值越大，代表處理后圖像失真越小。

圖像 005.png

由表1可知，SVM提取印刷體背景與人工手動(dòng)處理得到的背景信息PSNR均值達(dá)到56.33，具有高的實(shí)用價(jià)值，并且處理速度也在可接受范圍內(nèi)。

4結(jié)論

　　K-means與FCM等傳統(tǒng)的聚類(lèi)方法在前景與背景的分離中具有較好的使用價(jià)值，但聚類(lèi)中心不穩(wěn)定性以及聚類(lèi)算法復(fù)雜性，限制了其應(yīng)用范圍和場(chǎng)景。支持向量機(jī)作為有監(jiān)督的分類(lèi)網(wǎng)絡(luò)，可在一次性學(xué)習(xí)后，得到相關(guān)系列分類(lèi)問(wèn)題的分類(lèi)知識(shí)表達(dá)，并且模型易于推廣使用，在手繪太陽(yáng)黑子圖像背景的分離中具有較好的效果，可應(yīng)用于手繪太陽(yáng)黑子圖像分割的前期處理，以便更好地自動(dòng)提取和識(shí)別圖像中的手寫(xiě)記錄信息，對(duì)于手繪太陽(yáng)黑子圖像信息的提取和數(shù)字化具有重要意義。另外，在自然背景下的圖像中，對(duì)于單色目標(biāo)的分割也具有較好的適應(yīng)性。

　　參考文獻(xiàn)

　　［1］劉中和，王瑞雪，王鋒德，等. 數(shù)字圖像處理現(xiàn)狀與展望［J］. 計(jì)算機(jī)時(shí)代，2005(9)：6-8.

　　［2］劉學(xué)富. 太陽(yáng)黑子觀測(cè)［J］. 天文愛(ài)好者，1999(6)：24-26.

　　［3］吳立德. 計(jì)算機(jī)視覺(jué)［M］. 上海：復(fù)旦大學(xué)出版社，1993.

　　［4］李可軍，蘇同衛(wèi)，梁紅飛. 現(xiàn)代黑子觀測(cè)的太陽(yáng)黑子活動(dòng)周的周期性［J］. 科學(xué)通報(bào)，2004，49(24)：2511-2516.

　　［5］ Zheng Sheng,Zeng Xiangyun,Lin Ganghua,et al. Sunspot drawings handwritten character recognition method based on deep learning［J］. New Astronomy, 2016,(45): 54-59.

　　［6］朱道遠(yuǎn)，鄭勝，曾祥云，等. 手繪太陽(yáng)黑子圖像手寫(xiě)字符分割方法研究［J］. 微型機(jī)與應(yīng)用，2015，34(20)：33-35.

　　［7］周得水，葛洪偉. 基于貪心算法的快速模糊連接圖像分割［J］. 計(jì)算機(jī)應(yīng)用與軟件，2015，32(8)：201-203.

　　［8］邰瀅瀅，吳彥海，張利. 基于快速mean-shift聚類(lèi)與標(biāo)記分水嶺的圖像分割方法［J］. 計(jì)算機(jī)應(yīng)用與軟件，2015，32(8)：184-186.

　　［9］黎遠(yuǎn)松. 高斯混合模型融合SSC的腦部MR圖像分割［J］. 計(jì)算機(jī)應(yīng)用與軟件，2015，32(7)：70-73.

　　［10］鄧娟. 基于灰度向量表示的紋理元集的非監(jiān)控紋理圖像分割［J］. 計(jì)算機(jī)應(yīng)用，2005，25(1)：117-118.

　　［11］鐘壇旺，林昭語(yǔ). LIBSVM回歸算法在話務(wù)預(yù)測(cè)中的應(yīng)用［J］. 電信工程技術(shù)與標(biāo)準(zhǔn)化，2014(9)：80-83.

　　［12］李冬萍. 基于混沌粒子群優(yōu)化的SVM分類(lèi)器研究［J］. 計(jì)算機(jī)仿真，2010，27(4)：185-187.

　　［13］袁勛，吳秀清，洪日昌，等. 基于主動(dòng)學(xué)習(xí)SVM分類(lèi)器的視頻分類(lèi)［J］. 中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào)，2009，39(5)：473-478.

　　［14］高麗平，周雪燕，詹宇斌. 流行上的非線性判別K均值聚類(lèi)［J］. 計(jì)算機(jī)應(yīng)用，2011，31(12)：3247-3251.

　　［15］徐少平，劉小平，李春泉，等. 基于區(qū)域特征分析的快速FCM圖像分割改進(jìn)算法［J］. 模式識(shí)別與人工智能，2012，25(6)：987-995.

　　［16］孫少乙，黃志波．一種 SVM 多分類(lèi)算法［J］．微型機(jī)與應(yīng)用，2016，35(8):12-14，17．

　　［17］高晴，閆德勤，楚永賀，等．基于模糊聚類(lèi)的 LLE 和 SVM 的人臉識(shí)別［J］．微型機(jī)與應(yīng)用，2016，34(6):56-58．

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容