《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 嵌入式技術(shù) > 設(shè)計(jì)應(yīng)用 > 針對(duì)弱標(biāo)記的多標(biāo)記數(shù)據(jù)集成學(xué)習(xí)分類方法
針對(duì)弱標(biāo)記的多標(biāo)記數(shù)據(jù)集成學(xué)習(xí)分類方法
來源:微型機(jī)與應(yīng)用2012年第13期
李鳳英,,李 宏,,李 培
中南大學(xué) 信息科學(xué)與工程學(xué)院,湖南 長(zhǎng)沙 410083
摘要: 提出一種針對(duì)弱標(biāo)記的多標(biāo)記數(shù)據(jù)集成學(xué)習(xí)分類方法,,它通過采用基于相似性成對(duì)約束投影的方法來處理數(shù)據(jù),,更好地利用了弱標(biāo)記樣本的特征,,從而提高了分類性能。
Abstract:
Key words :

摘  要: 提出一種針對(duì)弱標(biāo)記的多標(biāo)記數(shù)據(jù)集成學(xué)習(xí)分類方法,,它通過采用基于相似性成對(duì)約束投影的方法來處理數(shù)據(jù),,更好地利用了弱標(biāo)記樣本的特征,從而提高了分類性能,。
關(guān)鍵詞: 分類,;多標(biāo)記數(shù)據(jù);集成學(xué)習(xí),;弱標(biāo)記數(shù)據(jù)

 數(shù)據(jù)挖掘技術(shù)隨著現(xiàn)代技術(shù)的飛速發(fā)展變得越來越重要了,。分類是數(shù)據(jù)挖掘中的一個(gè)重要研究領(lǐng)域,目前分類算法有很多,,經(jīng)典的有決策樹,、貝葉斯模型、支持向量機(jī)等,。在很多現(xiàn)實(shí)生活的分類問題中,,一個(gè)樣本往往同時(shí)屬于多個(gè)不同的類別,比如:一幅畫同時(shí)擁有“素描”,、“人物”,、“運(yùn)動(dòng)”等多個(gè)標(biāo)記。多標(biāo)記學(xué)習(xí)就是一種針對(duì)多標(biāo)記樣本進(jìn)行學(xué)習(xí)的重要技術(shù),。對(duì)多標(biāo)記數(shù)據(jù)進(jìn)行正確的分類已成為近年來機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘中的熱點(diǎn)研究方向,。
 以往多標(biāo)記學(xué)習(xí)的研究是在訓(xùn)練樣本標(biāo)記完整的情況下進(jìn)行的。但是,,在現(xiàn)實(shí)生活應(yīng)用中,,多數(shù)樣本的標(biāo)記不是完整的,而且為每個(gè)樣本提供完整的標(biāo)記非常困難,。在此,,一個(gè)弱標(biāo)記樣本包含其對(duì)應(yīng)所有標(biāo)記中的部分標(biāo)記。現(xiàn)有的多數(shù)多標(biāo)記學(xué)習(xí)方法,,由于不能對(duì)這種弱標(biāo)記樣本進(jìn)行有效地學(xué)習(xí),,可能會(huì)給訓(xùn)練集引入大量的噪聲。為了有效地利用這些弱標(biāo)記樣本進(jìn)行學(xué)習(xí),,本文提出一種針對(duì)弱標(biāo)記的多標(biāo)記數(shù)據(jù)集成學(xué)習(xí)分類方法,。
1 研究現(xiàn)狀
 目前,對(duì)多標(biāo)記數(shù)據(jù)分類做了很多研究。最典型的多標(biāo)記算法是ML-KNN算法,。該算法是對(duì)已有K近鄰算法的改進(jìn),。傳統(tǒng)的K近鄰算法是基于向量的空間距離來選取近鄰,但有的分類處理中要用到向量的夾角,,所以廣凱和潘金貴提出一種基于向量夾角的K近鄰多標(biāo)記分類算法,。Sapozhnikova等人提出了使用ART(Adaptive Resonance Theory)神經(jīng)網(wǎng)絡(luò)的方法解決多標(biāo)記分類問題。段震等人提出了基于覆蓋的多標(biāo)記學(xué)習(xí)方法等,。但是,,目前針對(duì)弱標(biāo)記數(shù)據(jù)的多標(biāo)記分類方法比較少??紫槟系热颂岢隽艘环N針對(duì)弱標(biāo)記的直推式多標(biāo)記分類方法,。直推式學(xué)習(xí)是利用未標(biāo)記數(shù)據(jù)學(xué)習(xí)的主流技術(shù)之一。
 集成學(xué)習(xí)是近年來機(jī)器學(xué)習(xí)領(lǐng)域中研究熱點(diǎn)之一,。經(jīng)典的兩個(gè)集成算法是Bagging和Boosting,。張燕平等人提出了一種新的決策樹選擇性集成學(xué)習(xí)方法,楊長(zhǎng)盛等人提出了基于成對(duì)差異性度量的選擇性集成方法等,。目前的集成學(xué)習(xí)研究集中于傳統(tǒng)的單標(biāo)記學(xué)習(xí),,此前Zhang等人已在單標(biāo)記分類中引入成對(duì)約束建立基分類器,李平在多標(biāo)記分類中引入了軟成對(duì)約束建立基分類器,。受此啟發(fā),,本文在針對(duì)弱標(biāo)記數(shù)據(jù)分類中引入了基于相似性成對(duì)約束投影的多標(biāo)記集成學(xué)習(xí)方法。
2 多標(biāo)記集成學(xué)習(xí)算法
2.1 算法的引入

 集成學(xué)習(xí)方法可以提高總體的分類準(zhǔn)確率,,但針對(duì)弱標(biāo)記的多標(biāo)記集成學(xué)習(xí)算法幾乎沒有,。本文首次將集成學(xué)習(xí)引入到針對(duì)弱標(biāo)記的多標(biāo)記學(xué)習(xí)中。此前,,李平首次將集成學(xué)習(xí)引入到多標(biāo)記分類中,。軟成對(duì)約束指的是:若兩個(gè)樣本的標(biāo)記相同數(shù)大于等于預(yù)先設(shè)定的閾值,則將樣本放到M集合中,,否則放到C中[1],。但是,當(dāng)樣本的標(biāo)記不是完整的時(shí)候,,這個(gè)方法容易導(dǎo)致本該放到M集合中的樣本對(duì)卻放到了C中。因此,,本文針對(duì)這個(gè)問題提出了基于相似性成對(duì)約束投影的多標(biāo)記集成學(xué)習(xí)方法RPCME,。
2.2 基于相似性成對(duì)約束投影
 本文研究的重點(diǎn)是針對(duì)弱標(biāo)記樣本[2]如何在多標(biāo)記集成學(xué)習(xí)中合理有效地利用弱標(biāo)記數(shù)據(jù)提供的成對(duì)約束信息并建立強(qiáng)健的集成分類器。本文的基于相似性成對(duì)約束定義為:若給定的兩個(gè)數(shù)據(jù)樣本的相似度大于等于預(yù)先設(shè)定的閾值,,則將樣本放到M集合中,,否則放到C中。相似度通過式(1)計(jì)算:

 分別計(jì)算集合C和M的散度矩陣,這兩個(gè)矩陣是用成對(duì)約束信息生成的,。該算法通過散度矩陣計(jì)算投影矩陣,,然后通過投影矩陣將原數(shù)據(jù)映射到新的數(shù)據(jù)空間[3]。
2.3 權(quán)重更新策略
 由于本文的基分類器是穩(wěn)定的MLKNN算法,,所以采用的方法是:各訓(xùn)練樣本的初始權(quán)重均設(shè)置為1,,而當(dāng)?shù)?xùn)練個(gè)體分類器時(shí)[4],上一輪中被誤分的樣本將增加權(quán)重,,如(1+r),,r為權(quán)重因子。這種方法較為簡(jiǎn)單,,且能保障個(gè)體分類器的差異性,。差異性是集成學(xué)習(xí)中的重要概念,基分類器差異性的大小直接影響分類器的性能,。因此,,為了提高分類器的差異性[5],在每次的訓(xùn)練過程中,,權(quán)重因子都要更新為不同的值,。
2.4 多標(biāo)記數(shù)據(jù)基分類器的集成
 對(duì)于多個(gè)不同的基分類器組成的多標(biāo)記集成分類器,通常用以下兩種方法對(duì)基分類器進(jìn)行集成:多數(shù)投票和加權(quán)投票,。本文采用的方法是選擇性多數(shù)投票方法,。即在集成基分類器時(shí),為了提高分類精度,,要丟棄一些準(zhǔn)確率比較低的分類器,。本文設(shè)置準(zhǔn)確率的閾值為0.7,即基分類器的準(zhǔn)確率大于0.7時(shí)參加集成,,否則不參加集成,,然后采用多數(shù)投票的方法。
2.5 RPCME算法描述
 RPCME算法首先采用基于相似性成對(duì)約束投影建立基分類器,,然后對(duì)訓(xùn)練樣本進(jìn)行分類,,對(duì)錯(cuò)誤分類的數(shù)據(jù)樣本增加權(quán)重,最后對(duì)多標(biāo)記集成分類器進(jìn)行組合,。

 


 從表1可以看出,,EPCMSE算法在3個(gè)性能指標(biāo)下都優(yōu)于SPACME算法,在正確率和F1下優(yōu)于MLKNN算法,,只在漢明距離這個(gè)指標(biāo)下的性能略低于MLKNN,。總體來看EPCMSE算法的性能優(yōu)于其他兩個(gè)算法,。
從圖1得知EPCMSE算法較SPACME受基分類器大小的影響小,,圖1(a),、(b)、(c)分別是在漢明距離,、正確率和F1度性能指標(biāo)下三種算法的性能曲線,。從中可知EPCMSE總體性能比其他兩種算法的性能好。SPACME在大小不同的基分類器下,,性能變化較大,。當(dāng)L=9時(shí),EPCMSE性能達(dá)到了最好,,但運(yùn)行時(shí)間較長(zhǎng),。當(dāng)L=5時(shí),EPCMSE性能也比較好,,且時(shí)間較短,。

 從圖2可知EPCMSE算法較SPACME受閾值的影響小。圖2(a),、(b),、(c)分別表示在漢明距離、正確率和F1度性能指標(biāo)下三種算法的性能曲線,。從中可知EPCMSE算法的總體性能比SPACME和ML-KNN算法的性能好,。當(dāng)閾值等于0.5的時(shí)候,EPCMSE算法達(dá)到了最好,。
 本文針對(duì)多標(biāo)記學(xué)習(xí)任務(wù)中僅能獲得弱標(biāo)記數(shù)據(jù)的情況,,提出了一種針對(duì)弱標(biāo)記的多標(biāo)記集成學(xué)習(xí)方法EPCMSE。從實(shí)驗(yàn)結(jié)果中可知,,通過相似性成對(duì)約束投影建立基分類器,,在場(chǎng)景圖像分類任務(wù)中,該方法在弱標(biāo)記情況下,,具有良好的健壯性,,獲得較好的分類性能。在少量的弱標(biāo)記數(shù)據(jù)的情況下,,如何進(jìn)一步提高分類性能,,將需要更多的研究。
參考文獻(xiàn)
[1] 李平.多標(biāo)記分類中的半監(jiān)督降維和集成學(xué)習(xí)[D].長(zhǎng)沙:中南大學(xué),,2010.
[2] 孔祥南,,黎銘,姜遠(yuǎn),,等.一種針對(duì)弱標(biāo)記的直推式多標(biāo)記分類方法[J].計(jì)算機(jī)研究與發(fā)展,,2010,47(8):1392-1399.
[3] ZHANG D Q,, CHEN S C,, ZHOU Z H, et al. Constraint projections for ensemble learning[C]. In: Proceedings of the 23rd AAAI Conference on Artificial Intelligence (AAAI’08),, Chicago,, 2008.
[4] VANESSA G V, JERONIMO A G,, AN1IBAL F V. Committees of Adaboost ensembles with modified emphasis functions[J]. Neurocomputing,, 2010, 73: 1289-1292.
[5] 張宏達(dá),,王曉丹,,等.分類器集成差異性研究[J].系統(tǒng)工程與電子技術(shù),2009,,31(12):3007-3012.

此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載。