針對弱標記的多標記數據集成學習分類方法-AET-電子技術應用

針對弱標記的多標記數據集成學習分類方法

來源：微型機與應用2012年第13期

李鳳英，李宏，李培

中南大學信息科學與工程學院，湖南長沙 410083

摘要： 提出一種針對弱標記的多標記數據集成學習分類方法，它通過采用基于相似性成對約束投影的方法來處理數據，更好地利用了弱標記樣本的特征，從而提高了分類性能。

關鍵詞： 軟件分類多標記數據集成學習弱標記數據

Abstract：

Key words :

摘要： 提出一種針對弱標記的多標記數據集成學習分類方法，它通過采用基于相似性成對約束投影的方法來處理數據，更好地利用了弱標記樣本的特征，從而提高了分類性能。
關鍵詞： 分類；多標記數據；集成學習；弱標記數據

　數據挖掘技術隨著現(xiàn)代技術的飛速發(fā)展變得越來越重要了。分類是數據挖掘中的一個重要研究領域，目前分類算法有很多，經典的有決策樹、貝葉斯模型、支持向量機等。在很多現(xiàn)實生活的分類問題中，一個樣本往往同時屬于多個不同的類別，比如：一幅畫同時擁有“素描”、“人物”、“運動”等多個標記。多標記學習就是一種針對多標記樣本進行學習的重要技術。對多標記數據進行正確的分類已成為近年來機器學習和數據挖掘中的熱點研究方向。
　以往多標記學習的研究是在訓練樣本標記完整的情況下進行的。但是，在現(xiàn)實生活應用中，多數樣本的標記不是完整的，而且為每個樣本提供完整的標記非常困難。在此，一個弱標記樣本包含其對應所有標記中的部分標記。現(xiàn)有的多數多標記學習方法，由于不能對這種弱標記樣本進行有效地學習，可能會給訓練集引入大量的噪聲。為了有效地利用這些弱標記樣本進行學習，本文提出一種針對弱標記的多標記數據集成學習分類方法。
1 研究現(xiàn)狀
　目前，對多標記數據分類做了很多研究。最典型的多標記算法是ML-KNN算法。該算法是對已有K近鄰算法的改進。傳統(tǒng)的K近鄰算法是基于向量的空間距離來選取近鄰，但有的分類處理中要用到向量的夾角，所以廣凱和潘金貴提出一種基于向量夾角的K近鄰多標記分類算法。Sapozhnikova等人提出了使用ART（Adaptive Resonance Theory）神經網絡的方法解決多標記分類問題。段震等人提出了基于覆蓋的多標記學習方法等。但是，目前針對弱標記數據的多標記分類方法比較少。孔祥南等人提出了一種針對弱標記的直推式多標記分類方法。直推式學習是利用未標記數據學習的主流技術之一。
　集成學習是近年來機器學習領域中研究熱點之一。經典的兩個集成算法是Bagging和Boosting。張燕平等人提出了一種新的決策樹選擇性集成學習方法，楊長盛等人提出了基于成對差異性度量的選擇性集成方法等。目前的集成學習研究集中于傳統(tǒng)的單標記學習，此前Zhang等人已在單標記分類中引入成對約束建立基分類器，李平在多標記分類中引入了軟成對約束建立基分類器。受此啟發(fā)，本文在針對弱標記數據分類中引入了基于相似性成對約束投影的多標記集成學習方法。
2 多標記集成學習算法
2.1 算法的引入
　集成學習方法可以提高總體的分類準確率，但針對弱標記的多標記集成學習算法幾乎沒有。本文首次將集成學習引入到針對弱標記的多標記學習中。此前，李平首次將集成學習引入到多標記分類中。軟成對約束指的是：若兩個樣本的標記相同數大于等于預先設定的閾值，則將樣本放到M集合中，否則放到C中[1]。但是，當樣本的標記不是完整的時候，這個方法容易導致本該放到M集合中的樣本對卻放到了C中。因此，本文針對這個問題提出了基于相似性成對約束投影的多標記集成學習方法RPCME。
2.2 基于相似性成對約束投影
　本文研究的重點是針對弱標記樣本[2]如何在多標記集成學習中合理有效地利用弱標記數據提供的成對約束信息并建立強健的集成分類器。本文的基于相似性成對約束定義為：若給定的兩個數據樣本的相似度大于等于預先設定的閾值，則將樣本放到M集合中，否則放到C中。相似度通過式（1）計算：

　分別計算集合C和M的散度矩陣，這兩個矩陣是用成對約束信息生成的。該算法通過散度矩陣計算投影矩陣，然后通過投影矩陣將原數據映射到新的數據空間[3]。
2.3 權重更新策略
　由于本文的基分類器是穩(wěn)定的MLKNN算法，所以采用的方法是：各訓練樣本的初始權重均設置為1，而當迭代訓練個體分類器時[4]，上一輪中被誤分的樣本將增加權重，如（1+r），r為權重因子。這種方法較為簡單，且能保障個體分類器的差異性。差異性是集成學習中的重要概念，基分類器差異性的大小直接影響分類器的性能。因此，為了提高分類器的差異性[5]，在每次的訓練過程中，權重因子都要更新為不同的值。
2.4 多標記數據基分類器的集成
　對于多個不同的基分類器組成的多標記集成分類器，通常用以下兩種方法對基分類器進行集成：多數投票和加權投票。本文采用的方法是選擇性多數投票方法。即在集成基分類器時，為了提高分類精度，要丟棄一些準確率比較低的分類器。本文設置準確率的閾值為0.7，即基分類器的準確率大于0.7時參加集成，否則不參加集成，然后采用多數投票的方法。
2.5 RPCME算法描述
　RPCME算法首先采用基于相似性成對約束投影建立基分類器，然后對訓練樣本進行分類，對錯誤分類的數據樣本增加權重，最后對多標記集成分類器進行組合。

　從表1可以看出，EPCMSE算法在3個性能指標下都優(yōu)于SPACME算法，在正確率和F1下優(yōu)于MLKNN算法，只在漢明距離這個指標下的性能略低于MLKNN。總體來看EPCMSE算法的性能優(yōu)于其他兩個算法。
從圖1得知EPCMSE算法較SPACME受基分類器大小的影響小，圖1（a）、（b）、（c）分別是在漢明距離、正確率和F1度性能指標下三種算法的性能曲線。從中可知EPCMSE總體性能比其他兩種算法的性能好。SPACME在大小不同的基分類器下，性能變化較大。當L=9時，EPCMSE性能達到了最好，但運行時間較長。當L=5時，EPCMSE性能也比較好，且時間較短。

　從圖2可知EPCMSE算法較SPACME受閾值的影響小。圖2（a）、（b）、（c）分別表示在漢明距離、正確率和F1度性能指標下三種算法的性能曲線。從中可知EPCMSE算法的總體性能比SPACME和ML-KNN算法的性能好。當閾值等于0.5的時候，EPCMSE算法達到了最好。
　本文針對多標記學習任務中僅能獲得弱標記數據的情況，提出了一種針對弱標記的多標記集成學習方法EPCMSE。從實驗結果中可知，通過相似性成對約束投影建立基分類器，在場景圖像分類任務中，該方法在弱標記情況下，具有良好的健壯性，獲得較好的分類性能。在少量的弱標記數據的情況下，如何進一步提高分類性能，將需要更多的研究。
參考文獻
[1] 李平.多標記分類中的半監(jiān)督降維和集成學習[D].長沙：中南大學，2010.
[2] 孔祥南，黎銘，姜遠，等.一種針對弱標記的直推式多標記分類方法[J].計算機研究與發(fā)展，2010，47（8）：1392-1399.
[3] ZHANG D Q， CHEN S C， ZHOU Z H， et al. Constraint projections for ensemble learning[C]. In： Proceedings of the 23rd AAAI Conference on Artificial Intelligence （AAAI’08）， Chicago， 2008.
[4] VANESSA G V， JERONIMO A G， AN1IBAL F V. Committees of Adaboost ensembles with modified emphasis functions[J]. Neurocomputing， 2010， 73： 1289-1292.
[5] 張宏達，王曉丹，等.分類器集成差異性研究[J].系統(tǒng)工程與電子技術，2009，31（12）：3007-3012.

原創(chuàng)聲明：此內容為AET網站原創(chuàng)，未經授權禁止轉載。

相關內容