日韩午夜精品视频一区二区三,久久久久久久久精品国产精品亚洲欧美中字 ,亚洲中文字幕2022

基于均值近鄰的樣本選擇算法

2014年微型機(jī)與應(yīng)用第17期

楊立

運(yùn)城學(xué)院公共計(jì)算機(jī)教學(xué)部，山西運(yùn)城 044000

摘要： 提出了一個(gè)基于均值近鄰的樣本選擇算法,，并且對(duì)CMU-PIE人臉數(shù)據(jù)庫(kù)數(shù)據(jù)進(jìn)行了樣本選擇,，提取關(guān)鍵數(shù)據(jù),，結(jié)合神經(jīng)網(wǎng)絡(luò)算法進(jìn)行了分類(lèi)實(shí)驗(yàn),。實(shí)驗(yàn)結(jié)果證明，與傳統(tǒng)方法相比，該方法在保持了一定的準(zhǔn)確率的前提下，能夠有效地減少樣本集中的冗余信息,，同時(shí)在時(shí)間復(fù)雜度方面也有了一定的提升。

關(guān)鍵詞： 樣本選擇神經(jīng)網(wǎng)絡(luò) 均值近鄰人臉識(shí)別

Abstract：

Key words :

　　摘要：提出了一個(gè)基于均值近鄰的樣本選擇算法,，并且對(duì)CMU-PIE人臉數(shù)據(jù)庫(kù)數(shù)據(jù)進(jìn)行了樣本選擇,，提取關(guān)鍵數(shù)據(jù)，結(jié)合神經(jīng)網(wǎng)絡(luò)算法進(jìn)行了分類(lèi)實(shí)驗(yàn),。實(shí)驗(yàn)結(jié)果證明,，與傳統(tǒng)方法相比，該方法在保持了一定的準(zhǔn)確率的前提下,，能夠有效地減少樣本集中的冗余信息,，同時(shí)在時(shí)間復(fù)雜度方面也有了一定的提升。

　　關(guān)鍵詞：樣本選擇,；神經(jīng)網(wǎng)絡(luò)；均值近鄰,；人臉識(shí)別

　　人工神經(jīng)網(wǎng)絡(luò)ANN(Artificial Neural Network)[1],，簡(jiǎn)稱(chēng)神經(jīng)網(wǎng)絡(luò)NN（Neural Network），是一種模仿生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和功能的數(shù)學(xué)模型或計(jì)算模型,。神經(jīng)網(wǎng)絡(luò)是由大量神經(jīng)元相互連接,通過(guò)模仿人腦或生物結(jié)構(gòu)及其功能進(jìn)行信息并行處理和非線(xiàn)性轉(zhuǎn)換的復(fù)雜網(wǎng)絡(luò)系統(tǒng),。隨著機(jī)器學(xué)習(xí)的快速發(fā)展，如今神經(jīng)網(wǎng)絡(luò)的應(yīng)用已經(jīng)滲透到眾多領(lǐng)域中,，例如在智能控制,、信號(hào)處理、模式識(shí)別和系統(tǒng)辨識(shí)等領(lǐng)域都得到了廣泛的應(yīng)用與發(fā)展,。神經(jīng)網(wǎng)絡(luò)技術(shù)能夠較好地實(shí)現(xiàn)人類(lèi)對(duì)知識(shí)的存儲(chǔ)以及對(duì)信息處理的能力,，對(duì)所需解決的問(wèn)題進(jìn)行從記憶到聯(lián)想再到推理的過(guò)程，因此可以較好地解決人臉識(shí)別中的分類(lèi)問(wèn)題,。然而對(duì)于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)而言,，其在實(shí)際的應(yīng)用過(guò)程中往往存在過(guò)擬合以及局部最優(yōu)等缺點(diǎn)，因此也限制了神經(jīng)網(wǎng)絡(luò)更廣泛的應(yīng)用,。

　　樣本[2]在神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)中占有非常重要的地位,，網(wǎng)絡(luò)的性能與訓(xùn)練樣本的選擇是密切相關(guān)的。樣本集是否具有代表性,，是否具有合理性,，直接決定了網(wǎng)絡(luò)的學(xué)習(xí)效果。通常人們直觀(guān)地認(rèn)為訓(xùn)練數(shù)據(jù)越多,，一般越能準(zhǔn)確反映數(shù)據(jù)內(nèi)在之間的規(guī)律,，然而在實(shí)際問(wèn)題中,，樣本數(shù)據(jù)的采集與整理總會(huì)受到各種客觀(guān)因素的制約，使得樣本不一定能達(dá)到預(yù)計(jì)的效果,。人們往往普遍把注意力放在大規(guī)模樣本庫(kù)的建立上,，想要盡可能多地增加樣本的數(shù)量，但是卻忽視了當(dāng)樣本數(shù)據(jù)過(guò)大的情況下,，訓(xùn)練集中的樣本會(huì)出現(xiàn)冗余的問(wèn)題,。而這些冗余的數(shù)據(jù)有可能會(huì)讓神經(jīng)網(wǎng)絡(luò)產(chǎn)生局部最優(yōu)的問(wèn)題，從而影響到識(shí)別率,。

　　因此如果在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)之前,，對(duì)學(xué)習(xí)數(shù)據(jù)進(jìn)行合理科學(xué)的樣本選擇，剔除無(wú)關(guān)樣本,，從而能夠提高學(xué)習(xí)算法的效率與最終的識(shí)別率,。

1 樣本選擇算法

　　1.1 傳統(tǒng)樣本選擇的算法

　　關(guān)于樣本選擇的方法，當(dāng)下有很多種選擇,。傳統(tǒng)的樣本選擇的方法主要分為以下幾種[3],。

　　⑴采用簡(jiǎn)單的隨機(jī)選擇的方法來(lái)選擇樣本數(shù)據(jù),，對(duì)于這種方法而言,，隨機(jī)的分類(lèi)存在強(qiáng)烈的不確定性，因此不可能保證最終生成的樣本具有代表性,。這種方法一般只用于樣本數(shù)量過(guò)于龐大不利于其他方法操作的情況,。

　　⑵采用人工選擇的方法來(lái)選擇樣本數(shù)據(jù),，該方法存在個(gè)人的主觀(guān)性以及不穩(wěn)定性,，特別是對(duì)于大型數(shù)據(jù)而言，該方法基本起不到任何作用,。這種情況一般用于樣本數(shù)較少且比較直觀(guān)的數(shù)據(jù),，用于直接剔除無(wú)關(guān)數(shù)據(jù)。

　?、橇硗?，就是通過(guò)一個(gè)優(yōu)化算法從眾多備選子集中搜索訓(xùn)練集的最佳或近似最佳代表子集。優(yōu)化算法每搜索到一個(gè)訓(xùn)練集的代表性子集就把它傳遞給分類(lèi)器,，分類(lèi)器再返回用該子集作為訓(xùn)練集,，并將該分類(lèi)的結(jié)果回饋給優(yōu)化算法[4]。重復(fù)這一過(guò)程,，直到樣本選擇模型找到一個(gè)近似最優(yōu)樣本子集,。最后便使用該子集作為訓(xùn)練樣本。通常優(yōu)化算法可以選擇遺傳算法,、模擬退火算法等,，而這種方法的優(yōu)勢(shì)是數(shù)據(jù)準(zhǔn)確,，但同時(shí)耗時(shí)較大。如果可以在可接受范圍內(nèi)損失一定的精度但是能大幅減小消耗時(shí)間,，將是一種更好的方法,。

　　1.2 基于均值近鄰的樣本選擇算法

　　基于均值近鄰的樣本選擇算法NMSS（Neighbor Mean Sample Selection）就是在待選擇的訓(xùn)練樣本中，計(jì)算樣本的均值,，將距離該均值最近的樣本作為選中樣本,。再將距離該選中樣本閾值范圍內(nèi)的樣本都移動(dòng)到一個(gè)空集記為待定集，并在原訓(xùn)練集中刪除這些樣本,。通過(guò)不斷迭代重新選擇新的選中樣本,，直到訓(xùn)練集中的樣本數(shù)滿(mǎn)足預(yù)先設(shè)定的所需個(gè)數(shù)或再無(wú)閾值內(nèi)可移動(dòng)的樣本。如若最終訓(xùn)練集中的樣本數(shù)小于設(shè)定個(gè)數(shù),，則將待定集當(dāng)作樣本集繼續(xù)迭代選擇,，最終所有樣本集的集合就是選中的樣本。

　　1.2.1 巴氏距離

　　樣本之間的關(guān)系的量化可以通過(guò)類(lèi)似于信息熵的指標(biāo)來(lái)作為衡量的標(biāo)準(zhǔn),，例如Golub T R等人采用“信噪比”來(lái)衡量基因貢獻(xiàn)的度量[5],，對(duì)此，Golub T R等人對(duì)信噪比的定義如下：

　　其中d代表信噪比,，μ1和μ2分別代表兩個(gè)樣本在樣本集中表達(dá)水平的均值,，σ1和σ2為這兩個(gè)樣本在樣本集中表達(dá)水平的標(biāo)準(zhǔn)差。

　　但對(duì)于這種情況,，當(dāng)兩個(gè)樣本的均值相等時(shí)候，標(biāo)準(zhǔn)差方面的差異就不能被表現(xiàn)出來(lái),。因此,，選用巴氏距離作為衡量的標(biāo)準(zhǔn)[6]。在此,，巴氏距離的定義如下：

　　由式(2)可知,，巴氏距離既考慮到樣本中的均值，也考慮到樣本的方差分布,，可以更全面的考慮樣本之間的關(guān)系,。因此NMSS算法選擇用巴氏距離作為樣本之間的衡量標(biāo)準(zhǔn)。

　　1.2.2 基于均值近鄰的樣本選擇算法

　　綜上所述,，NMSS算法的流程如圖1所示,。

　　⑴初始化,。設(shè)定所需選擇的樣本個(gè)數(shù)為 1+++.png ,，選擇閾值為 1+.png ，初始的樣本均值向量為μ0,，初始的樣本集為 1++++.png ,，初始的待定集為空集 1++.png ,。

　　⑵計(jì)算樣本集中樣本與μ0的巴式距離 2+.png ,，并在樣本集中搜索最小距離Bmin,，將其所對(duì)應(yīng)的第k個(gè)樣本記為選中樣本XS。計(jì)算選中樣本與其余p-1個(gè)樣本的巴式距離 2++.png ,，若,，則將相對(duì)應(yīng)的樣本由樣本集S中移動(dòng)到待定集G。

　?、侨绻麩o(wú)任何樣本使得,，或待定集G中的樣本數(shù)q＜0，則退出,。否則重復(fù)第二步,。

　　1.2.3 傳統(tǒng)方法與NMSS算法

　　與傳統(tǒng)的通過(guò)最優(yōu)解的樣本選擇方法相比較，NMSS算法以樣本之間的巴氏距離作為衡量的標(biāo)準(zhǔn),，從近鄰樣本中選取少量樣本當(dāng)作一組代表樣本,。而傳統(tǒng)的通過(guò)最優(yōu)解的樣本選擇方法則需要通過(guò)算法計(jì)算最優(yōu)解并帶回到分類(lèi)器中進(jìn)行反復(fù)迭代測(cè)試之后才能找到滿(mǎn)足要求的樣本集。因此在可接受的精度的損失情況下,，NMSS算法能夠大幅提高算法效率并減少耗時(shí),。

2 實(shí)驗(yàn)結(jié)果分析

　　人臉識(shí)別已經(jīng)逐漸成為模式識(shí)別研究中的一個(gè)重大熱點(diǎn)[7]，如今有很多用于人臉識(shí)別的相關(guān)算法,，如何能夠提高人臉識(shí)別的效率與準(zhǔn)確率成為人們更加熱衷的研究點(diǎn),。

　　本文在此通過(guò)人臉識(shí)別的實(shí)驗(yàn)來(lái)驗(yàn)證以上算法提出對(duì)識(shí)別效率與準(zhǔn)確率的提高作用。在本次實(shí)驗(yàn)中,，選擇由美國(guó)卡耐基梅隆大學(xué)創(chuàng)建的CMU-PIE人臉數(shù)據(jù)庫(kù),。該數(shù)據(jù)庫(kù)包含68位志愿者的41 368張面部圖像。在此本文選擇其中的10位志愿者的圖像,，每個(gè)人包含340張不同姿態(tài),、不同光照和角度的圖像。存為PGM格式,，尺寸為200×200,。

　　實(shí)驗(yàn)是在CPU為 Core 2 2.26 GHz，內(nèi)存為 4 GB DDR2的PC機(jī)上進(jìn)行的,。將樣本圖片尺寸壓縮為32×32,，并轉(zhuǎn)存為MAT格式。再通過(guò)PCA算法[8]進(jìn)行降維,，提取特征數(shù)據(jù),。最后神經(jīng)網(wǎng)絡(luò)部分是通過(guò)Matlab的神經(jīng)網(wǎng)絡(luò)工具箱來(lái)實(shí)現(xiàn)的。

　　實(shí)驗(yàn)中，將CMU-PIE人臉數(shù)據(jù)庫(kù)選用的3 400張圖像依據(jù)每人選取170張隨機(jī)分為兩組,，每組共計(jì)1 700張,，其中一組作為訓(xùn)練樣本，另一組作為測(cè)試樣本,。

　　首先按照本文之前所描述的NMSS算法,，通過(guò)計(jì)算得到一個(gè)選中樣本，然后將實(shí)驗(yàn)設(shè)置的樣本選擇個(gè)數(shù)從每類(lèi)別第2個(gè)開(kāi)始,，并逐次增加,。對(duì)于不同的選樣個(gè)數(shù)，分別統(tǒng)計(jì)選樣率,，以及測(cè)試識(shí)別率和測(cè)試時(shí)間,。當(dāng)測(cè)試識(shí)別率趨于穩(wěn)定且達(dá)到較高數(shù)值時(shí)，停止實(shí)驗(yàn),。最終匯總以上實(shí)驗(yàn)數(shù)據(jù),，實(shí)驗(yàn)結(jié)果如表 1所示。

　　其中選樣率=（被選中的訓(xùn)練樣本個(gè)數(shù)/訓(xùn)練樣本的總數(shù)） 100%,；識(shí)別率=（測(cè)試樣本中識(shí)別正確的樣本個(gè)數(shù)/測(cè)試樣本的總數(shù)） 100%,。實(shí)驗(yàn)的數(shù)據(jù)是通過(guò)10次實(shí)驗(yàn)數(shù)據(jù)，進(jìn)行均值計(jì)算而得到的,。

　　通過(guò)表 1 中所顯示的實(shí)驗(yàn)結(jié)果可以得到,，隨著樣本選擇個(gè)數(shù)的增加，識(shí)別率是有一定的提高的,。當(dāng)選擇的學(xué)習(xí)樣本數(shù)達(dá)到12個(gè)樣本的時(shí)候,，測(cè)試識(shí)別率就可以達(dá)到100%，并形成一個(gè)穩(wěn)定狀態(tài),。與總計(jì)的170個(gè)樣本相比,，選樣率只占了7.1%，直選用了較少的樣本,，在此不難看出，樣本選擇的效率還是很高的,。相比較通過(guò)實(shí)驗(yàn)所得的最小樣本數(shù),，選樣個(gè)數(shù)和識(shí)別率都很接近，因此只要選擇適當(dāng)?shù)拈撝?，就可以直接得出適合的樣本個(gè)數(shù),。

　　除此之外，在未使用樣本選擇的情況下進(jìn)行實(shí)驗(yàn),，即學(xué)習(xí)樣本為1 700個(gè)的完整樣本集,，并通過(guò)以上實(shí)驗(yàn)所得的結(jié)果，再選用隨機(jī)方式選擇了120個(gè)訓(xùn)練樣本并且選用了相同的1 700個(gè)測(cè)試樣本,，得到的對(duì)比數(shù)據(jù)如表2所示,。

　　通過(guò)表 2 中所顯示的實(shí)驗(yàn)對(duì)比結(jié)果可以得到,，隨機(jī)方式選擇樣本所得到的結(jié)果在識(shí)別率方面差強(qiáng)人意。而完整樣本所得的結(jié)果在耗時(shí)上遠(yuǎn)大于本文方法所需時(shí)間,，而且也需要更多的存儲(chǔ)空間,。對(duì)于NMSS方法，樣本選擇的耗時(shí)較小僅為0.501 s,，并且識(shí)別率能達(dá)到100%,。

　　因此通過(guò)表1和表2的實(shí)驗(yàn)結(jié)果可以證明本文所提出的基于均值近鄰的樣本選擇算法用于學(xué)習(xí)算法之前的樣本選擇，是有較好的效果的,。

　　同時(shí),，如何設(shè)省略用戶(hù)設(shè)定的閾值以減少個(gè)人主觀(guān)因素對(duì)算法的影響，增加自適應(yīng)的相關(guān)系數(shù),，以及對(duì)樣本選擇的評(píng)價(jià)是下一步將要做的工作,。

　　本文考慮到在對(duì)于大量數(shù)據(jù)進(jìn)行分類(lèi)時(shí)，首先進(jìn)行一種在犧牲一定精度的情況下的快速樣本選擇,，因而提出了基于均值近鄰的樣本選擇算法,。并且通過(guò)CMU-PIE人臉數(shù)據(jù)庫(kù)的實(shí)驗(yàn)進(jìn)行了驗(yàn)證，其可以有效地提高訓(xùn)練速度,，節(jié)省空間,，同時(shí)保證較高的識(shí)別率。該方法不僅適合于神經(jīng)網(wǎng)絡(luò),，也可以向其他分類(lèi)方法或機(jī)器學(xué)習(xí)方法擴(kuò)展與延伸,。

參考文獻(xiàn):

　　[1] 賈光峰. 基于多表達(dá)式編程的神經(jīng)網(wǎng)絡(luò)自動(dòng)優(yōu)化方法及其應(yīng)用研究[D].濟(jì)南：濟(jì)南大學(xué),2009

　　[2] Aroonsri Nuchitprasittichai,Selen Cremaschi. An algorithm to determine sample sizes for optimization with artificial neural networks[J]. AIChE J,2012: 593.

　　[3] 周曉飛,姜文瀚,楊靜宇. 基于子空間樣本選擇的最近凸包類(lèi)器[J]. 計(jì)算機(jī)工程,2008（12）:167-168，171.

　　[4] 姜文瀚. 模式識(shí)別中的樣本選擇研究及其應(yīng)用[D].南京：南京理工大學(xué),2008.

　　[5] Golub T R, Slonim DK,Tamayo P.Molecular classification of cancer: class discovery and class prediction by gene expression monitoring[J]. Science, 1999, 286(5439): 531-537.

　　[6] Theodoridis S, Koutroumbas K. Patter recognition [M]. Second Edition, NewYork:Academic Press, 2003.

　　[7] Samal A, Iyengar P A. Automatic recognition and analysis of human faces and facial expressions: a Survey[J]. Pattern Recognition, 1992, 25(1): 65-77

　　[8] 伊力哈木?亞爾買(mǎi)買(mǎi)提. 基于改進(jìn)型PCA和LDA融合算法的人臉圖像識(shí)別[J]. 計(jì)算機(jī)仿真,2013（1）:415-418,，426.

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng),，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容