文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.2017.07.033
中文引用格式: 白艷宇,申超群,,楊新鋒. 結(jié)合SIFT特征和神經(jīng)網(wǎng)絡(luò)池的物體分類方法[J].電子技術(shù)應(yīng)用,,2017,43(7):130-134,,139.
英文引用格式: Bai Yanyu,,Shen Chaoqun,Yang Xinfeng. An object classification method combing with SIFT features and neural network pool[J].Application of Electronic Technique,,2017,,43(7):130-134,139.
0 引言
基于圖像的物體分類是計算機視覺領(lǐng)域的基礎(chǔ)研究課題,,在人工智能、自動化生成等領(lǐng)域應(yīng)用廣泛[1],。物體分類的關(guān)鍵是提取圖像特征和設(shè)計分類器,。這兩個方面目前的成果都比較多,如特征提取方面,,目前應(yīng)用比較成熟的有Haar特征[2]、方向梯度直方圖(Histograms of Oriented Gradients,,HOG)特征[3],、局部二元模式(Local Binary Pattern,LBP)特征[4],、尺度不變特征變換(Scale-Invariant Feature Transform,,SIFT)特征[5]等。在分類器設(shè)計方面,,目前常用的有Adaboost分類器,、支持向量機(Support Vector Machine,SVM)分類器,、決策樹,、隨機森林、神經(jīng)網(wǎng)絡(luò)等[6-7],。針對不同的圖像內(nèi)容,,特征的表述能力也不盡相同。文獻(xiàn)[8]提出一種基于Kolmogorov-Sinai熵的分類方法,,通過構(gòu)建模糊集進行物體分類,。文獻(xiàn)[9]采用圖像局部區(qū)域的梯度特征來描述特征,并采用稀疏分布構(gòu)建圖像描述子,,能有效提高物體的分類效果,。文獻(xiàn)[10]結(jié)合近似Fisher核特征和詞袋模型,實現(xiàn)物體的有效分類,。
為了進一步提高物體分類的性能,,本文提出了一種結(jié)合SIFT特征和神經(jīng)網(wǎng)絡(luò)池的物體分類方法,主要創(chuàng)新是提出了神經(jīng)網(wǎng)絡(luò)池的特征分類方法,。該方法采用徑向基神經(jīng)網(wǎng)絡(luò)構(gòu)建基元分類器,,通過重復(fù)迭代方式構(gòu)建基元分類器集合,結(jié)合增強技術(shù)組建神經(jīng)網(wǎng)絡(luò)池,,采用樸素貝葉斯分類器預(yù)測特征分類結(jié)果,,有效提高了物體分類性能。
1 本文方法
本文提出一種結(jié)合SIFT特征和神經(jīng)網(wǎng)絡(luò)池的物體分類方法,。對于不同物體的圖像集合,,首先提取圖像的SIFT特征,然后構(gòu)建神經(jīng)網(wǎng)絡(luò)池分類器,實現(xiàn)物體的分類,。其中,,SIFT特征是目前非常成熟的特征提取方法,本文將在實驗部分對不同特征提取方法進行對比實驗,,驗證SIFT方法在物體分類領(lǐng)域的優(yōu)勢,。基本框架如圖1所示,。
由圖1可見,,神經(jīng)網(wǎng)絡(luò)池的構(gòu)建過程主要分為三個階段:(1)基元分類器的構(gòu)建,本文采用徑向基(Radial Basis Function,,RBF)神經(jīng)網(wǎng)絡(luò)來構(gòu)造基元分類器,;(2)神經(jīng)網(wǎng)絡(luò)池的組建,本文采用重復(fù)迭代和增強技術(shù)組建神經(jīng)網(wǎng)絡(luò)池,;(3)最終分類器的構(gòu)建,,本文采用樸素貝葉斯分類器作為最終的分類器,對神經(jīng)網(wǎng)絡(luò)池中各個基元分類器集合的預(yù)測結(jié)果進行融合,,得到最終的預(yù)測結(jié)果,。
1.1 基元分類器
目前,基元分類器有很多種,,如Adaboost,、SVM、決策樹,、神經(jīng)網(wǎng)絡(luò)等,。本文采用徑向基神經(jīng)網(wǎng)絡(luò)構(gòu)建基元分類器。RBF神經(jīng)網(wǎng)絡(luò)是一種3層的前向網(wǎng)絡(luò),,由輸入層,、隱含層和輸出層組成。對于特征分類而言,,輸入層為特征向量,,輸出層為分類結(jié)果。中間的隱含層的變換函數(shù)采用徑向基函數(shù),。該函數(shù)是一種非負(fù)非線性函數(shù),,對中心點徑向?qū)ΨQ且衰減。輸入層與隱含層之間采用權(quán)重向量,,相當(dāng)于一種非線性映射,。同樣地,隱含層與輸出層之間也是一種非線性映射,,采用不同的權(quán)重相連接,。在徑向基神經(jīng)網(wǎng)絡(luò)中,,激活函數(shù)采用徑向基函數(shù),以輸入向量與權(quán)值向量之間的距離作為自變量,,調(diào)整神經(jīng)元的靈敏度,。隨著權(quán)值與輸入向量之間距離的減少,網(wǎng)絡(luò)輸出是遞增的,。
1.2 神經(jīng)網(wǎng)絡(luò)池
本文將多個基元分類器構(gòu)建成一個基元分類器集合,,由各個類別的基元分類器集合組建神經(jīng)網(wǎng)絡(luò)池。具體方法是:在基元分類器構(gòu)建階段,,將K個二元神經(jīng)網(wǎng)絡(luò){BNNi|i=1,,2,…,,K}應(yīng)用于數(shù)據(jù)集合D,得到K個基元分類器,,記為{Ci|i=1,,2,…,,K},。將這一過程重復(fù)執(zhí)行T次,可以對每一個類別ci生成T個基元分類器集合,,記為{ECi|i=1,,2,…,,T},。
在構(gòu)建神經(jīng)網(wǎng)絡(luò)池中的每一個基元分類器集合時,本文采用了一對多的分類策略,。在二元策略中,,分類器對未知樣本x的預(yù)測是二元的,也即該樣本x的預(yù)測結(jié)果只有兩個,,即屬于某一類別或者不屬于某一類別,。對于未知樣本x,基元分類器C中的K個預(yù)測結(jié)果可以組合生成一個基元分類器集合,。每一個基元分類器集合對未知樣本x的預(yù)測結(jié)果可以用類別出現(xiàn)的概率表示為:
其中,,S(x)表示基元分類器集合的預(yù)測結(jié)果,其值為0或1,,由設(shè)定的概率閾值θ1決定,。因此,二元策略允許每一個獨立的基元分類器集合接受或者拒絕某一個類別的出現(xiàn),。該策略將一個復(fù)雜的多元分類問題轉(zhuǎn)化為多個簡單的二元分類的子問題,。P(x)表示類別ci出現(xiàn)的概率,,由基元分類器{Ci|i=1,2,,…,,K}預(yù)測得到,表示為:
其中,,hi表示第i個基元分類器判斷x屬于類別ci的分類結(jié)果,,取值為0或1,0表示x不屬于類別ci,,1表示x屬于類別ci,。
為了分類一個未知樣本x,N個基元分類器集合對樣本x給出N個預(yù)測結(jié)果,,本文采用樸素貝葉斯模型作為最終的預(yù)測器,,對這N個預(yù)測結(jié)果進行綜合。這部分內(nèi)容在下一節(jié)介紹,,下面先介紹神經(jīng)網(wǎng)絡(luò)池的訓(xùn)練過程,。
作為一個分類器,基元分類器集合依靠徑向基神經(jīng)網(wǎng)絡(luò)的輸出來計算概率,,用于估計某一類別是否存在,。某一類別是否存在的概率同樣在每一個基元分類器集合分類器的訓(xùn)練階段計算,后續(xù)用于計算樸素貝葉斯分類器的先驗概率,。先驗概率分布用于估計未知樣本的特征向量所對應(yīng)的類別的出現(xiàn)概率,。因此,樣本的特征向量輸入到神經(jīng)網(wǎng)絡(luò)池的多個基元分類器集合之后,,最終得到一個概率值,,作為樣本分類的依據(jù)。本文采用增強技術(shù)來訓(xùn)練神經(jīng)網(wǎng)絡(luò)池,,最后采用樸素貝葉斯分類器構(gòu)建最終的預(yù)測器,。
本文通過為二元神經(jīng)網(wǎng)絡(luò)隨機選擇訓(xùn)練樣本進行重復(fù)訓(xùn)練來解決過擬合問題。在訓(xùn)練基元分類器集合時,,借鑒詞袋的思想,,隨機從整體訓(xùn)練數(shù)據(jù)中選取一定數(shù)量的子樣本集,每一個樣本子集用于訓(xùn)練一個基元分類器,。
基元分類器集合通過對大量的二元神經(jīng)網(wǎng)絡(luò)進行學(xué)習(xí)得到,。因此,每一個基元分類器集合很難確定一個最優(yōu)的二元神經(jīng)網(wǎng)絡(luò)數(shù)量,。本文訓(xùn)練了許多冗余的二元神經(jīng)網(wǎng)絡(luò),,以此來實現(xiàn)最優(yōu)的分類性能。得到許多基元分類器集合之后,,即構(gòu)建了神經(jīng)網(wǎng)絡(luò)池,。
本文將增強技術(shù)引入到神經(jīng)網(wǎng)絡(luò)池的訓(xùn)練過程,,由增強技術(shù)組合多個基元分類器集合。這些基元分類器集合通過多次迭代構(gòu)建,,每一個新的基元分類器集合都受上一級基元分類器集合的預(yù)測誤差的影響,。增強技術(shù)鼓勵新的基元分類器集合對前一級分類錯誤的樣本盡可能正確分類,方法是依據(jù)它們的分類性能來調(diào)整權(quán)重,。初始時,,為所有訓(xùn)練樣本(樣本數(shù)為N)分配相同的權(quán)重,表示為:
然后,,隨機選取一個訓(xùn)練樣本子集來訓(xùn)練一個二元神經(jīng)網(wǎng)絡(luò),,用于構(gòu)建基元分類器集合。并依據(jù)基元分類器集合的性能來修改每一個樣本的權(quán)重,,正確分類樣本的權(quán)重降低,,誤分類樣本的權(quán)重增加。
本文將訓(xùn)練數(shù)據(jù)劃分為兩組:低權(quán)重組和高權(quán)重組,。然后,,依據(jù)該基元分類器集合的性能來增加或者減少訓(xùn)練樣本的權(quán)重。結(jié)果是,,部分樣本擁有很高的權(quán)重,,而部分樣本可能擁有很低的權(quán)重,。權(quán)重值反映了訓(xùn)練樣本被誤分類的頻率,。本文方法通過維護權(quán)重的變化率,構(gòu)造了一種有效的基元分類器集合生成策略,。其中,,權(quán)重變化率主要依賴于當(dāng)前基元分類器集合的分類錯誤率。實現(xiàn)流程為:
首先,,從整個訓(xùn)練數(shù)據(jù)集中隨機選擇訓(xùn)練樣本子集Se,,用于訓(xùn)練二元神經(jīng)網(wǎng)絡(luò),構(gòu)造基元分類器集合,。每一個基元分類器集合的輸出用于量化輸入特征向量與輸出類別之間的關(guān)系,,可以采用類別出現(xiàn)的概率來表示,如式(1)所示,。其中,,每一個基元分類器集合的權(quán)重的計算方法為:
其中,εt表示基元分類器集合的分類錯誤率,。對于特征分類而言,,在訓(xùn)練樣本上的分類正確率的期望值應(yīng)當(dāng)大于零。如果該值不大于零,,則丟棄對應(yīng)的基元分類器集合,。每一個基元分類器集合的錯誤率可以表示為:
在更新了訓(xùn)練樣本的權(quán)重之后,,將權(quán)重歸一化到N。對于每一類圖像,,權(quán)重更新過程執(zhí)行T次,,構(gòu)建T個增強的基元分類器集合,組建神經(jīng)網(wǎng)絡(luò)池,。
綜上所述,,神經(jīng)網(wǎng)絡(luò)池的訓(xùn)練過程偽代碼如下:
輸入:訓(xùn)練樣本集{x1,y1,,w1},、{x2,y2,,w2},、…、{xN,,yN,,wN},類別數(shù)E,,基元分類器集合數(shù)量T,,基元分類器數(shù)量K,閾值θ1,、θ2,,以及隨機選取的樣本子集中的樣本數(shù)量M。
輸出:神經(jīng)網(wǎng)絡(luò)池{SBNNi},。
過程:
1.3 樸素貝葉斯分類器
目前常采用投票的方式來融合多個分類器的預(yù)測結(jié)果,,而本文提出一種新的融合思路,采用概率分布來融合神經(jīng)網(wǎng)絡(luò)池中各個基元分類器集合的預(yù)測結(jié)果,,減少個別基元分類器奇異的問題,。具體地,本文采用樸素貝葉斯模型來組合多個基元分類器,,提供了一個最終預(yù)測器與基元分類器之間的橋梁,。樸素貝葉斯分類器作為最終的預(yù)測器,依據(jù)預(yù)測誤差最小準(zhǔn)則,,在神經(jīng)網(wǎng)絡(luò)池中進行學(xué)習(xí)和預(yù)測,。
考慮到基元分類器集合是二元分類器,其輸出的決策值是二值形式,。因此,,本文采用傳統(tǒng)的樸素貝葉斯分類器來分類這些二值數(shù)據(jù),具體是采用多維伯努利(Bernoulli)分布的形式,。對于一個D維的輸入特征向量d,,其對應(yīng)的類別c可以表示為:
2 仿真實驗與分析
2.1 實驗說明
本文采用神經(jīng)網(wǎng)絡(luò)池進行物體分類實驗,,選擇國際上公開的VOC-2007數(shù)據(jù)集對算法性能進行評測。該數(shù)據(jù)集共包含20個物體類別,。其中,,訓(xùn)練集中圖像樣本5 011幅,測試集中圖像樣本4 952幅,。
2.2 神經(jīng)網(wǎng)絡(luò)池訓(xùn)練過程的參數(shù)說明
在訓(xùn)練基元分類器時,,涉及一些對訓(xùn)練結(jié)果影響較大的參數(shù)。一是基元分類器集合的錯誤率上限θ2,。在訓(xùn)練過程中,,可以通過估算每一個基元分類器的分類類別,計算分類錯誤率指標(biāo),,如果基元分類器的分類錯誤率大于設(shè)定的錯誤率上限θ2,,則丟棄該基元分類器,重新構(gòu)建一個新的基元分類器,。錯誤率上限越大,,丟棄的基元分類器越少,訓(xùn)練速度越快,,但最終的錯誤率就可能提高,,本文取θ2為0.01。
另外,,學(xué)習(xí)速率對訓(xùn)練速度和分類錯誤率的影響也比較大,。學(xué)習(xí)速率太小會導(dǎo)致過擬合,且導(dǎo)致訓(xùn)練效率降低,。然而,,學(xué)習(xí)速率過大盡管會加快訓(xùn)練速度,,但也有可能導(dǎo)致分類錯誤率提高,。本文設(shè)定的學(xué)習(xí)速率參數(shù)為0.4。
最大迭代次數(shù)閾值用于作為基元分類器訓(xùn)練的一個終止條件,,當(dāng)?shù)螖?shù)大于該閾值時,,停止基元分類器的訓(xùn)練過程。在本文中,,最大迭代次數(shù)設(shè)置為1 000,。
隨機選取一定數(shù)量的隱含神經(jīng)元可能導(dǎo)致過擬合或者欠擬合問題。這里,,采用不同數(shù)量的隱含層神經(jīng)元來訓(xùn)練各種基元分類器,。實驗中,當(dāng)隱含層數(shù)量達(dá)到9時識別結(jié)果最好,。因此,,本文的徑向基神經(jīng)網(wǎng)絡(luò)的隱含層數(shù)量設(shè)為9,。
在訓(xùn)練神經(jīng)網(wǎng)絡(luò)池時涉及的參數(shù)取值為:E=20、T=100,、N=5 011,、M=2 000、K=20,、θ1=0.5,。
2.3 特征提取方法對比與選擇
常用的圖像特征有Haar、HOG,、LBP和SIFT,,下面分別采用這4種圖像特征,結(jié)合本文的神經(jīng)網(wǎng)絡(luò)池進行物體分類實驗,。以分類正確率為評價指標(biāo)來選取最優(yōu)的圖像特征,。分類正確率定義為分類正確的圖像數(shù)量與圖像總數(shù)的比值。
圖2顯示了不同特征對應(yīng)的分類正確率,。很明顯,,SIFT特征的分類正確率明顯高于其他3種特征。故本文選擇SIFT特征和神經(jīng)網(wǎng)絡(luò)池分類器結(jié)合的方法進行物體分類,。
2.4 不同物體分類方法的實驗結(jié)果與分析
本文選擇文獻(xiàn)[8],、[9]和[10]所述的物體分類方法進行對比實驗,實驗所用訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集都是相同的,,計算機處理平臺也是相同的,,具體為:CPU四核 3.6 GHz、內(nèi)存16 GB,。實驗結(jié)果如圖3所示,。
由圖3可見,采用本文所述的SIFT特征和神經(jīng)網(wǎng)絡(luò)池分類器相結(jié)合的方法取得了最高的分類正確率指標(biāo),,比排名第2的文獻(xiàn)[10]方法高2.3%,。
表1給出了4種方法的物體分類時間指標(biāo),該時間是指從輸入一幅圖像到輸出分類結(jié)果所需要的平均時間,,不包括訓(xùn)練過程所耗費的時間,。由表1可見,本文方法的分類時間最短,,說明本文方法的運算效率最高,。綜合評價,本文方法的分類性能優(yōu)于所對比的3種方法,。
3 結(jié)束語
本文提出了一種結(jié)合SIFT特征和神經(jīng)網(wǎng)絡(luò)池的物體分類方法,。該方法選擇經(jīng)典的SIFT特征描述特征,通過構(gòu)建神經(jīng)網(wǎng)絡(luò)池分類器實現(xiàn)特征分類。其關(guān)鍵是構(gòu)建神經(jīng)網(wǎng)絡(luò)分類器,,設(shè)計思想是采用隨機采樣方式選擇樣本子集,,采用徑向基神經(jīng)網(wǎng)絡(luò)為每一個樣本子集構(gòu)建基元分類器,通過重復(fù)迭代方式得到許多基元分類器集合,,再結(jié)合增強技術(shù)組建神經(jīng)網(wǎng)絡(luò)池,,最后采用樸素貝葉斯分類器進行融合預(yù)測。實驗表明,,本文方法分類正確率高且分類耗時少,。
參考文獻(xiàn)
[1] 黃凱奇,任偉強,,譚鐵牛.圖像物體分類與檢測算法綜述[J].計算機學(xué)報,,2014,37(6):1225-1240.
[2] CHANG Z,,BAN X,,WANG Y.Fatigue driving detection based on Haar feature and extreme learning machine[J].Journal of China Universities of Posts & Telecommunications,2016,,23(4):91-100.
[3] 陸星家.基于HOG和Haar特征的行人追蹤算法研究[J].計算機科學(xué),,2013,40(s1):199-203.
[4] SATPATHY A,,JIANG X,,ENG H L.LBP-based edgetexture features for object recognition[J].IEEE Transactions on Image Processing,2014,,23(5):1953-1964.
[5] WANG Y,,BAN X,CHEN J,,et al.License plate recognition based on SIFT feature[J].Optik-International Journal for Light and Electron Optics,,2015,126(21):2895-2901.
[6] 許劍,,張洪偉.Adaboost算法分類器設(shè)計及其應(yīng)用[J].四川理工學(xué)院學(xué)報:自然科學(xué)版,,2014,27(1):28-31.
[7] WANG Y,,YANG M,,WEI G,,et al.Improved PLS regression based on SVM classification for rapid analysis of coal properties by near-infrared reflectance spectroscopy[J].Sensors & Actuators B Chemical,,2014,193(3):723-729.
[8] PHAM T D.The Kolmogorov-Sinai entropy in the setting of fuzzy sets for image texture analysis and classification[J].Pattern Recognition,,2016,,38(53):229-237.
[9] SUDHAKARAN S,JAMES A P.Sparse distributed localized gradient fused features of objects[J].Pattern Recognition,2014,,46(4):1538-1546.
[10] CINBIS R G,,VERBEEK J,SCHMID C.Approximate Fisher Kernels of non-iid image models for image categorization[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,,2015,,38(6):1084-1098.
作者信息:
白艷宇1,申超群2,,楊新鋒3
(1.中原工學(xué)院信息商務(wù)學(xué)院 信息技術(shù)系,,河南 鄭州451191;
2.河南機電職業(yè)學(xué)院,,河南 鄭州451191,;3.南陽理工學(xué)院 計算機與信息工程學(xué)院,河南 南陽473004)