摘 要: 提出了一個(gè)基于均值近鄰的樣本選擇算法,,并且對(duì)CMU-PIE人臉數(shù)據(jù)庫(kù)數(shù)據(jù)進(jìn)行了樣本選擇,,提取關(guān)鍵數(shù)據(jù),結(jié)合神經(jīng)網(wǎng)絡(luò)算法進(jìn)行了分類(lèi)實(shí)驗(yàn),。實(shí)驗(yàn)結(jié)果證明,,與傳統(tǒng)方法相比,該方法在保持了一定的準(zhǔn)確率的前提下,,能夠有效地減少樣本集中的冗余信息,,同時(shí)在時(shí)間復(fù)雜度方面也有了一定的提升。
關(guān)鍵詞: 樣本選擇,;神經(jīng)網(wǎng)絡(luò);均值近鄰,;人臉識(shí)別
人工神經(jīng)網(wǎng)絡(luò)ANN(Artificial Neural Network)[1],,簡(jiǎn)稱(chēng)神經(jīng)網(wǎng)絡(luò)NN(Neural Network),是一種模仿生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能的數(shù)學(xué)模型或計(jì)算模型,。神經(jīng)網(wǎng)絡(luò)是由大量神經(jīng)元相互連接,通過(guò)模仿人腦或生物結(jié)構(gòu)及其功能進(jìn)行信息并行處理和非線(xiàn)性轉(zhuǎn)換的復(fù)雜網(wǎng)絡(luò)系統(tǒng),。隨著機(jī)器學(xué)習(xí)的快速發(fā)展,如今神經(jīng)網(wǎng)絡(luò)的應(yīng)用已經(jīng)滲透到眾多領(lǐng)域中,,例如在智能控制,、信號(hào)處理、模式識(shí)別和系統(tǒng)辨識(shí)等領(lǐng)域都得到了廣泛的應(yīng)用與發(fā)展,。神經(jīng)網(wǎng)絡(luò)技術(shù)能夠較好地實(shí)現(xiàn)人類(lèi)對(duì)知識(shí)的存儲(chǔ)以及對(duì)信息處理的能力,,對(duì)所需解決的問(wèn)題進(jìn)行從記憶到聯(lián)想再到推理的過(guò)程,因此可以較好地解決人臉識(shí)別中的分類(lèi)問(wèn)題,。然而對(duì)于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)而言,,其在實(shí)際的應(yīng)用過(guò)程中往往存在過(guò)擬合以及局部最優(yōu)等缺點(diǎn),因此也限制了神經(jīng)網(wǎng)絡(luò)更廣泛的應(yīng)用,。
樣本[2]在神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)中占有非常重要的地位,,網(wǎng)絡(luò)的性能與訓(xùn)練樣本的選擇是密切相關(guān)的。樣本集是否具有代表性,,是否具有合理性,,直接決定了網(wǎng)絡(luò)的學(xué)習(xí)效果。通常人們直觀(guān)地認(rèn)為訓(xùn)練數(shù)據(jù)越多,,一般越能準(zhǔn)確反映數(shù)據(jù)內(nèi)在之間的規(guī)律,,然而在實(shí)際問(wèn)題中,,樣本數(shù)據(jù)的采集與整理總會(huì)受到各種客觀(guān)因素的制約,使得樣本不一定能達(dá)到預(yù)計(jì)的效果,。人們往往普遍把注意力放在大規(guī)模樣本庫(kù)的建立上,,想要盡可能多地增加樣本的數(shù)量,但是卻忽視了當(dāng)樣本數(shù)據(jù)過(guò)大的情況下,,訓(xùn)練集中的樣本會(huì)出現(xiàn)冗余的問(wèn)題,。而這些冗余的數(shù)據(jù)有可能會(huì)讓神經(jīng)網(wǎng)絡(luò)產(chǎn)生局部最優(yōu)的問(wèn)題,從而影響到識(shí)別率,。
因此如果在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)之前,,對(duì)學(xué)習(xí)數(shù)據(jù)進(jìn)行合理科學(xué)的樣本選擇,剔除無(wú)關(guān)樣本,,從而能夠提高學(xué)習(xí)算法的效率與最終的識(shí)別率,。
1 樣本選擇算法
1.1 傳統(tǒng)樣本選擇的算法
關(guān)于樣本選擇的方法,當(dāng)下有很多種選擇,。傳統(tǒng)的樣本選擇的方法主要分為以下幾種[3],。
⑴采用簡(jiǎn)單的隨機(jī)選擇的方法來(lái)選擇樣本數(shù)據(jù),,對(duì)于這種方法而言,,隨機(jī)的分類(lèi)存在強(qiáng)烈的不確定性,因此不可能保證最終生成的樣本具有代表性,。這種方法一般只用于樣本數(shù)量過(guò)于龐大不利于其他方法操作的情況,。
⑵采用人工選擇的方法來(lái)選擇樣本數(shù)據(jù),,該方法存在個(gè)人的主觀(guān)性以及不穩(wěn)定性,,特別是對(duì)于大型數(shù)據(jù)而言,該方法基本起不到任何作用,。這種情況一般用于樣本數(shù)較少且比較直觀(guān)的數(shù)據(jù),,用于直接剔除無(wú)關(guān)數(shù)據(jù)。
?、橇硗?,就是通過(guò)一個(gè)優(yōu)化算法從眾多備選子集中搜索訓(xùn)練集的最佳或近似最佳代表子集。優(yōu)化算法每搜索到一個(gè)訓(xùn)練集的代表性子集就把它傳遞給分類(lèi)器,,分類(lèi)器再返回用該子集作為訓(xùn)練集,,并將該分類(lèi)的結(jié)果回饋給優(yōu)化算法[4]。重復(fù)這一過(guò)程,,直到樣本選擇模型找到一個(gè)近似最優(yōu)樣本子集,。最后便使用該子集作為訓(xùn)練樣本。通常優(yōu)化算法可以選擇遺傳算法,、模擬退火算法等,,而這種方法的優(yōu)勢(shì)是數(shù)據(jù)準(zhǔn)確,,但同時(shí)耗時(shí)較大。如果可以在可接受范圍內(nèi)損失一定的精度但是能大幅減小消耗時(shí)間,,將是一種更好的方法,。
1.2 基于均值近鄰的樣本選擇算法
基于均值近鄰的樣本選擇算法NMSS(Neighbor Mean Sample Selection)就是在待選擇的訓(xùn)練樣本中,計(jì)算樣本的均值,,將距離該均值最近的樣本作為選中樣本,。再將距離該選中樣本閾值范圍內(nèi)的樣本都移動(dòng)到一個(gè)空集記為待定集,并在原訓(xùn)練集中刪除這些樣本,。通過(guò)不斷迭代重新選擇新的選中樣本,,直到訓(xùn)練集中的樣本數(shù)滿(mǎn)足預(yù)先設(shè)定的所需個(gè)數(shù)或再無(wú)閾值內(nèi)可移動(dòng)的樣本。如若最終訓(xùn)練集中的樣本數(shù)小于設(shè)定個(gè)數(shù),,則將待定集當(dāng)作樣本集繼續(xù)迭代選擇,,最終所有樣本集的集合就是選中的樣本。
1.2.1 巴氏距離
樣本之間的關(guān)系的量化可以通過(guò)類(lèi)似于信息熵的指標(biāo)來(lái)作為衡量的標(biāo)準(zhǔn),,例如Golub T R等人采用“信噪比”來(lái)衡量基因貢獻(xiàn)的度量[5],,對(duì)此,Golub T R等人對(duì)信噪比的定義如下:
其中d代表信噪比,,μ1和μ2分別代表兩個(gè)樣本在樣本集中表達(dá)水平的均值,,σ1和σ2為這兩個(gè)樣本在樣本集中表達(dá)水平的標(biāo)準(zhǔn)差。
但對(duì)于這種情況,,當(dāng)兩個(gè)樣本的均值相等時(shí)候,標(biāo)準(zhǔn)差方面的差異就不能被表現(xiàn)出來(lái),。因此,,選用巴氏距離作為衡量的標(biāo)準(zhǔn)[6]。在此,,巴氏距離的定義如下:
由式(2)可知,,巴氏距離既考慮到樣本中的均值,也考慮到樣本的方差分布,,可以更全面的考慮樣本之間的關(guān)系,。因此NMSS算法選擇用巴氏距離作為樣本之間的衡量標(biāo)準(zhǔn)。
1.2.2 基于均值近鄰的樣本選擇算法
綜上所述,,NMSS算法的流程如圖1所示,。
⑴初始化,。設(shè)定所需選擇的樣本個(gè)數(shù)為,,選擇閾值為
,初始的樣本均值向量為μ0,,初始的樣本集為
,,初始的待定集為空集
,。
⑵計(jì)算樣本集中樣本與μ0的巴式距離,,并在樣本集中搜索最小距離Bmin,,將其所對(duì)應(yīng)的第k個(gè)樣本記為選中樣本XS。計(jì)算選中樣本與其余p-1個(gè)樣本的巴式距離
,, 若
,,則將相對(duì)應(yīng)的樣本由樣本集S中移動(dòng)到待定集G。
?、侨绻麩o(wú)任何樣本使得,,或待定集G中的樣本數(shù)q<0,則退出,。否則重復(fù)第二步,。
1.2.3 傳統(tǒng)方法與NMSS算法
與傳統(tǒng)的通過(guò)最優(yōu)解的樣本選擇方法相比較,NMSS算法以樣本之間的巴氏距離作為衡量的標(biāo)準(zhǔn),,從近鄰樣本中選取少量樣本當(dāng)作一組代表樣本,。而傳統(tǒng)的通過(guò)最優(yōu)解的樣本選擇方法則需要通過(guò)算法計(jì)算最優(yōu)解并帶回到分類(lèi)器中進(jìn)行反復(fù)迭代測(cè)試之后才能找到滿(mǎn)足要求的樣本集。因此在可接受的精度的損失情況下,,NMSS算法能夠大幅提高算法效率并減少耗時(shí),。
2 實(shí)驗(yàn)結(jié)果分析
人臉識(shí)別已經(jīng)逐漸成為模式識(shí)別研究中的一個(gè)重大熱點(diǎn)[7],如今有很多用于人臉識(shí)別的相關(guān)算法,,如何能夠提高人臉識(shí)別的效率與準(zhǔn)確率成為人們更加熱衷的研究點(diǎn),。
本文在此通過(guò)人臉識(shí)別的實(shí)驗(yàn)來(lái)驗(yàn)證以上算法提出對(duì)識(shí)別效率與準(zhǔn)確率的提高作用。在本次實(shí)驗(yàn)中,,選擇由美國(guó)卡耐基梅隆大學(xué)創(chuàng)建的CMU-PIE人臉數(shù)據(jù)庫(kù),。該數(shù)據(jù)庫(kù)包含68位志愿者的41 368張面部圖像。在此本文選擇其中的10位志愿者的圖像,,每個(gè)人包含340張不同姿態(tài),、不同光照和角度的圖像。存為PGM格式,,尺寸為200×200,。
實(shí)驗(yàn)是在CPU為 Core 2 2.26 GHz,內(nèi)存為 4 GB DDR2的PC機(jī)上進(jìn)行的,。將樣本圖片尺寸壓縮為32×32,,并轉(zhuǎn)存為MAT格式。再通過(guò)PCA算法[8]進(jìn)行降維,,提取特征數(shù)據(jù),。最后神經(jīng)網(wǎng)絡(luò)部分是通過(guò)Matlab的神經(jīng)網(wǎng)絡(luò)工具箱來(lái)實(shí)現(xiàn)的。
實(shí)驗(yàn)中,將CMU-PIE人臉數(shù)據(jù)庫(kù)選用的3 400張圖像依據(jù)每人選取170張隨機(jī)分為兩組,,每組共計(jì)1 700張,,其中一組作為訓(xùn)練樣本,另一組作為測(cè)試樣本,。
首先按照本文之前所描述的NMSS算法,,通過(guò)計(jì)算得到一個(gè)選中樣本,然后將實(shí)驗(yàn)設(shè)置的樣本選擇個(gè)數(shù)從每類(lèi)別第2個(gè)開(kāi)始,,并逐次增加,。對(duì)于不同的選樣個(gè)數(shù),分別統(tǒng)計(jì)選樣率,,以及測(cè)試識(shí)別率和測(cè)試時(shí)間,。當(dāng)測(cè)試識(shí)別率趨于穩(wěn)定且達(dá)到較高數(shù)值時(shí),停止實(shí)驗(yàn),。最終匯總以上實(shí)驗(yàn)數(shù)據(jù),,實(shí)驗(yàn)結(jié)果如表 1所示。
其中選樣率=(被選中的訓(xùn)練樣本個(gè)數(shù)/訓(xùn)練樣本的總數(shù)) 100%,;識(shí)別率=(測(cè)試樣本中識(shí)別正確的樣本個(gè)數(shù)/測(cè)試樣本的總數(shù)) 100%,。實(shí)驗(yàn)的數(shù)據(jù)是通過(guò)10次實(shí)驗(yàn)數(shù)據(jù),進(jìn)行均值計(jì)算而得到的,。
通過(guò)表 1 中所顯示的實(shí)驗(yàn)結(jié)果可以得到,,隨著樣本選擇個(gè)數(shù)的增加,識(shí)別率是有一定的提高的,。當(dāng)選擇的學(xué)習(xí)樣本數(shù)達(dá)到12個(gè)樣本的時(shí)候,,測(cè)試識(shí)別率就可以達(dá)到100%,并形成一個(gè)穩(wěn)定狀態(tài),。與總計(jì)的170個(gè)樣本相比,,選樣率只占了7.1%,直選用了較少的樣本,,在此不難看出,樣本選擇的效率還是很高的,。相比較通過(guò)實(shí)驗(yàn)所得的最小樣本數(shù),,選樣個(gè)數(shù)和識(shí)別率都很接近,因此只要選擇適當(dāng)?shù)拈撝?,就可以直接得出適合的樣本個(gè)數(shù),。
除此之外,在未使用樣本選擇的情況下進(jìn)行實(shí)驗(yàn),,即學(xué)習(xí)樣本為1 700個(gè)的完整樣本集,,并通過(guò)以上實(shí)驗(yàn)所得的結(jié)果,再選用隨機(jī)方式選擇了120個(gè)訓(xùn)練樣本并且選用了相同的1 700個(gè)測(cè)試樣本,,得到的對(duì)比數(shù)據(jù)如表2所示,。
通過(guò)表 2 中所顯示的實(shí)驗(yàn)對(duì)比結(jié)果可以得到,,隨機(jī)方式選擇樣本所得到的結(jié)果在識(shí)別率方面差強(qiáng)人意。而完整樣本所得的結(jié)果在耗時(shí)上遠(yuǎn)大于本文方法所需時(shí)間,,而且也需要更多的存儲(chǔ)空間,。對(duì)于NMSS方法,樣本選擇的耗時(shí)較小僅為0.501 s,,并且識(shí)別率能達(dá)到100%,。
因此通過(guò)表1和表2的實(shí)驗(yàn)結(jié)果可以證明本文所提出的基于均值近鄰的樣本選擇算法用于學(xué)習(xí)算法之前的樣本選擇,是有較好的效果的,。
同時(shí),,如何設(shè)省略用戶(hù)設(shè)定的閾值以減少個(gè)人主觀(guān)因素對(duì)算法的影響,增加自適應(yīng)的相關(guān)系數(shù),,以及對(duì)樣本選擇的評(píng)價(jià)是下一步將要做的工作,。
本文考慮到在對(duì)于大量數(shù)據(jù)進(jìn)行分類(lèi)時(shí),首先進(jìn)行一種在犧牲一定精度的情況下的快速樣本選擇,,因而提出了基于均值近鄰的樣本選擇算法,。并且通過(guò)CMU-PIE人臉數(shù)據(jù)庫(kù)的實(shí)驗(yàn)進(jìn)行了驗(yàn)證,其可以有效地提高訓(xùn)練速度,,節(jié)省空間,,同時(shí)保證較高的識(shí)別率。該方法不僅適合于神經(jīng)網(wǎng)絡(luò),,也可以向其他分類(lèi)方法或機(jī)器學(xué)習(xí)方法擴(kuò)展與延伸,。
參考文獻(xiàn):
[1] 賈光峰. 基于多表達(dá)式編程的神經(jīng)網(wǎng)絡(luò)自動(dòng)優(yōu)化方法及其應(yīng)用研究[D].濟(jì)南:濟(jì)南大學(xué),2009
[2] Aroonsri Nuchitprasittichai,Selen Cremaschi. An algorithm to determine sample sizes for optimization with artificial neural networks[J]. AIChE J,2012: 593.
[3] 周曉飛,姜文瀚,楊靜宇. 基于子空間樣本選擇的最近凸包類(lèi)器[J]. 計(jì)算機(jī)工程,2008(12):167-168,171.
[4] 姜文瀚. 模式識(shí)別中的樣本選擇研究及其應(yīng)用[D].南京:南京理工大學(xué),2008.
[5] Golub T R, Slonim DK,Tamayo P.Molecular classification of cancer: class discovery and class prediction by gene expression monitoring[J]. Science, 1999, 286(5439): 531-537.
[6] Theodoridis S, Koutroumbas K. Patter recognition [M]. Second Edition, NewYork:Academic Press, 2003.
[7] Samal A, Iyengar P A. Automatic recognition and analysis of human faces and facial expressions: a Survey[J]. Pattern Recognition, 1992, 25(1): 65-77
[8] 伊力哈木?亞爾買(mǎi)買(mǎi)提. 基于改進(jìn)型PCA和LDA融合算法的人臉圖像識(shí)別[J]. 計(jì)算機(jī)仿真,2013(1):415-418,,426.