摘 要:簡要回顧了人臉識別技術(shù)的研究背景及發(fā)展歷程,,總結(jié)了近三四年人臉識別方法的研究進展,根據(jù)三維人臉重構(gòu)方法的數(shù)據(jù)來源不同,,將其分為基于靜態(tài)圖像和視頻序列的三維重構(gòu)技術(shù),。重點對目前多特征和多模態(tài)識別技術(shù)進行了分類闡述,分析了一些有代表性的算法并對其識別結(jié)果進行了比較,。最后,,總結(jié)了人臉識別技術(shù)現(xiàn)存的研究難點,并探討了其未來的發(fā)展方向,。
關(guān)鍵詞:人臉識別,;三維人臉重構(gòu);多特征,;多模態(tài)
在現(xiàn)有的眾多生物特征(指紋,、虹膜、視網(wǎng)膜,、掌形等)識別技術(shù)中,,人臉識別技術(shù)具有傳統(tǒng)的識別技術(shù)無法比擬的優(yōu)點,如直接,、友好,、對用戶干擾少、更易于被接受等,。人臉識別技術(shù)是一門融合了多學(xué)科(生物學(xué),、心理學(xué)、認知學(xué)等),、多技術(shù)(模式識別,、圖像處理、計算機視覺等)的新的生物識別技術(shù),,它具有廣泛的應(yīng)用和巨大的市場前景,,可用于身份確認(verification or authentication 一對一比較),、身份鑒別(identification or recognition 一對多匹配)、訪問控制(門監(jiān)系統(tǒng)),、安全監(jiān)控(銀行,、海關(guān)監(jiān)控)、人機交互(虛擬現(xiàn)實,、游戲)等,。在人臉識別研究的早期階段,識別技術(shù)主要依賴于人的先驗知識,,也就是二維人臉識別方法,。20世紀(jì)80年代,二維圖像處理技術(shù)日趨成熟,,在一定約束條件下人臉識別已經(jīng)能取得較好的效果,,但同時也暴露了二維人臉識別技術(shù)對環(huán)境和人臉姿態(tài)變化魯棒性差的缺點。從20世紀(jì)90年代開始,,隨著計算機性能的飛躍性發(fā)展和成像技術(shù)的進一步提高,,三維人臉識別技術(shù)成為目前最受關(guān)注的新方法[1]。在國內(nèi),,比較有代表性的成果是北京奧運會使用的自動人臉識別系統(tǒng),。
1 三維人臉重構(gòu)方法
三維人臉重構(gòu)是指通過含有人臉的圖像或視頻中有限的人臉信息來建立人臉三維模型。根據(jù)人臉信息來源的不同,,本文將三維人臉重構(gòu)方法分為從靜態(tài)圖像重構(gòu)和從視頻序列重構(gòu)兩大類,。
1.1 從靜態(tài)圖像重構(gòu)三維人臉
傳統(tǒng)的三維重建技術(shù)大多是通過特征點的提取和匹配計算特征點的三維坐標(biāo)來獲取臉部的三維結(jié)構(gòu)。特征點定位有手工標(biāo)定和自動檢測兩種,,特征點數(shù)目比較大時,,手工標(biāo)定很難嚴格定義特征點之間的對應(yīng)關(guān)系。ZHANG C等人[2]采用點對點集的距離來間接描述特征點之間的相似度,,但是,,這種局部相似度不能保證全局最優(yōu)匹配,且有可能造成畸變,。
為了減少點對應(yīng)性的困難,,參考文獻[3]中提出了以形狀匹配為相似性度量的通用頭部形變模型,在不需要嚴格的特征點對應(yīng)甚至某些特征點缺失的情況下,,完成姿態(tài)估計和三維重建,。為了解決搜索點之間的最佳相似性,文中還提出了一種多級搜索的方法,,大大減少了搜索時間,,但這只是基于多幅圖像的情況,。雖然多幅圖像可以消除人臉特征部件檢測的不確定性,,但特定臉的多幅圖像一般難以獲得,,所以當(dāng)前的很多研究都是基于單一圖像的。為了能獲得人臉的完整的臉部特征信息,,單一圖像一般要求是正面人臉圖像且是中性表情,。
BREUER P[4]和胡元奎[5]等人都是基于單一圖像進行建模。參考文獻[4]中提出了一種融合支持向量機(Support Vector Machine)和三維形變模型(3D Morphable Model)的方法,,分別用不同方法檢測人臉和人臉的局部特征(鼻尖,、眼角、嘴角),,然后確定人臉特征可能的位置并評估特征點的輪廓,,通過迭代處理提高算法對頭部方向的魯棒性,,最后初始化形變模型的模型試配流程來產(chǎn)生高分辨率的三維人臉模型。但是,形變模型算法需要花費很長的時間對大量的三維人臉數(shù)據(jù)進行訓(xùn)練,。參考文獻[5]基于通用三維人臉模型的三維人臉合成方法能很好地減少算法的復(fù)雜性和訓(xùn)練時間。他們利用了基于知識的特征點定位算法和ASM(Active Shape Model)方法進行人臉特征點的定位,,用SFS(Shape From Shading)算法恢復(fù)人臉表面深度,,并利用內(nèi)插算法對通用三維人臉模型進行變形處理以生成適用于特定人臉的三維模型。此算法的優(yōu)點是只需要一個通用的三維人臉模型即可,,不需要進行額外的訓(xùn)練,,而且對訓(xùn)練數(shù)據(jù)以及存儲空間的實際需求很容易滿足,具有明顯的優(yōu)勢,。
無論是單一圖像還是多幅圖像,,靜態(tài)圖像提供的信息都是相對有限的,例如無法提供連續(xù)多幀圖像和時間相干性 ,。于是,,在研究從靜態(tài)圖像重構(gòu)人臉模型的同時,少數(shù)研究嘗試了從視頻圖像序列重構(gòu)三維人臉模型的方法,。
1.2 從視頻序列重構(gòu)三維人臉
從視頻重構(gòu)人臉的過程和從單一圖像重構(gòu)人臉的過程基本上一樣(如圖1所示),,只是源圖像不同。視頻序列雖然也可以使用適合于單一圖像的方法,,如參考文獻[4]從圖像序列中選出最合適的一幀圖像(例如正面圖像)來重構(gòu)三維人臉模型,,但這顯然不是應(yīng)用視頻序列圖像的目的。
PARK U等[6]用通用三維人臉模型和兩個視頻幀來重構(gòu)特定用戶三維人臉模型,。他們從立體視頻中重建臉部標(biāo)記點的稀疏集合,,將其用于薄板樣條TPS(Thin Plate Spline)的試配過程,在TPS試配的基礎(chǔ)上對一般人臉模型進行非線性變換,,得到合適的三維人臉模型,,將視頻中人臉紋理信息對三維人臉模型進行映射,從而獲得真實的三維人臉模型,。該方法應(yīng)用比較廣泛,,但在重建的初始化階段,,初始值與通用模型非常相似,導(dǎo)致重建的模型與視頻中的人臉相比更近似于通用人臉模型,。此缺點可以利用SFM(Structure From Motion)算法[7]解決,。首先,SFM算法能夠保留通用人臉模型的特定特征,;其次,,通過與通用人臉模型比較,兩臉間的誤差在能量函數(shù)最小化過程中都被修正,。但是,,不使用通用模型,單純用SFM算法對視頻圖像進行三維估計會使深度估計變得困難,,可能會帶來其他信息不足或估計誤差等問題,。文中的算法流程如圖2所示[7]。
2 多特征融合人臉識別方法
重構(gòu)三維人臉模型只是人臉識別的重要手段之一,,但其算法相對復(fù)雜,。目前,使用多方法(二維)融合來提高識別性能還是人臉識別領(lǐng)域研究的熱點[8-15],。多方法融合主要分為融合多種臉部特征(膚色,、輪廓和紋理等信息)和融合多種模態(tài)(二維和三維信息)兩種。由于圖像與形狀信息相對獨立,,多特征融合的人臉識別方法曾經(jīng)很少使用,。
2005年前后,SU Hong Tao[8]和周曉彥等人[9]分別提出了融合主分量分析PCA(Principal Component Analysis)與線性判別式分析LDA(Linear Discriminant Analysis)混合特征和融合核主元分析KPCA(Kernel Principal Component Analysis)與核判別式分析KDA(Kernel Discriminant Analysis)的人臉識別算法,。在參考文獻[8]中,,利用庫中圖像和被檢測圖像的交互信息進行粗分類,在圖形數(shù)據(jù)的傅里葉頻率區(qū)域進行PCA和LDA特征的抽取,。由于PCA和LDA能分別反映圖像的不同特性,,故融合兩子特征將取得比單一特征更好的分類性能。參考文獻[9]首先求解KDA的最佳判別矢量,,然后基于KPCA準(zhǔn)則函數(shù)求得另一組投影矢量,,最后將兩組投影矢量融合成一組新的特征矢量用于特征的提取。
與參考文獻[8]和參考文獻[9]不同,,LIU Zhi Ming等[10]應(yīng)用了顏色和頻率特征,。離散傅里葉變換將膚色RIQ空間轉(zhuǎn)換到頻域并分別求出各個顏色分量的掩飾面(mask),用增強Fisher模型EFM(Enhanced Fisher Model)抽取互補頻率特征(包括檢測臉,、庫中人臉和R分量大?。谔卣魉缴嫌眉壜?lián)的方法將其融合在一起,將得到的相似性結(jié)果用于分類,。分別對各個分量進行互補頻率特征抽取和分類,,最后將分類結(jié)果通過加權(quán)因子再次融合在一起,用于人臉的識別,。該方法比單顏色分量時的識別率有很大的提高,這也說明,,單一特征所包含的信息都是有限的,。充分利用人臉的膚色和紋理結(jié)構(gòu)等各種特征,將會取得較好的識別效果,。
3 多模態(tài)融合人臉識別方法
多模態(tài)融合的人臉識別方法與多特征融合方法一樣,,目的是融合二維和三維甚至四維的臉部信息,以提高識別的精度和算法對環(huán)境的魯棒性[11,14-15],。
在多模態(tài)融合的研究上,,比較成功的是MIAN A等人[12]提出的全自動三維人臉識別算法。該算法能全自動檢測人臉鼻子區(qū)域,,自動修正三維人臉姿態(tài)和進行標(biāo)準(zhǔn)化處理,,可以在規(guī)模比較大的人臉識別中通過粗匹配快速拒絕大多數(shù)不適合的人臉并能自動分割易受表情影響和不易受表情影響區(qū)域。但是,,算法在最后識別階段容易受頭發(fā)的影響,,且無法自動檢測側(cè)面圖像。為了解決此問題,,他們在前期研究的基礎(chǔ)上提出了一種有效的多模態(tài)(二維/三維)融合和混合(局部/整體特征)匹配的方法[13],。該方法在參考文獻[12]的基礎(chǔ)上,用三維球面人臉描述SFR(Spherical Face Representation)和可變尺度特征變換SIFT(Scale-Invariant Feature Transform)描述子來構(gòu)建拒絕分類器,,通過粗(整體)匹配快速拒絕大部分候選人臉并對剩下的人臉進行區(qū)域分割,,得到對表情不敏感的局部特征區(qū)域(眼睛-前額/鼻子),再用修正的迭代最近點算法(Modified ICP)對這些局部特征進行單獨匹配,。
相對三維融合二維信息的方法,,三維與四維信息的融合技術(shù)應(yīng)用比較少。參考文獻[14]中PAPATHEODOROR T等人利用人臉紋理結(jié)構(gòu)和表面信息注冊,,提出一種自動的四維人臉識別方法,。他們利用立體攝像系統(tǒng),結(jié)合面部外觀的二維紋理映射描述符和三維面部幾何的致密三維網(wǎng)格頂點描述符,,重構(gòu)四維人臉數(shù)據(jù),。在識別階段先進行三維或者四維剛性注冊,然后通過ICP算法和歐氏距離計算兩臉部圖形對應(yīng)點的距離,,根據(jù)相似性判斷來進行識別,。表1所示是多特征融合與多模態(tài)融合的一些代表性算法在各自實驗中的結(jié)果。
由于現(xiàn)在人臉數(shù)據(jù)庫并不統(tǒng)一,,不同文獻的實驗數(shù)據(jù)庫一般不一樣,,且所使用的圖像類型(顏色圖像和灰度圖像)與大小不同,,因此很難根據(jù)它的識別率來判斷某個算法的優(yōu)劣性。此外,,即使使用同一個數(shù)據(jù)庫,,數(shù)據(jù)庫中也往往含有各種變化劇烈程度不一致的表情、姿態(tài)和光照情況,,在不同的環(huán)境和姿態(tài)表情下,,算法的結(jié)果會有很大的差別。
目前,,三維人臉識別方法已經(jīng)代替二維人臉識別方法成為研究熱點,。克服表情姿態(tài)和環(huán)境影響是目前三維識別研究的主要目的,,其手段就是從圖像中重構(gòu)人臉三維模型,。圖像采集設(shè)備的差異和成像原理的不同,造成了采集數(shù)據(jù)的差異,,如何更好地獲取更多的有效信息與對數(shù)據(jù)的正規(guī)化一樣成為難題,。同時,特征點定位和人臉特征的提取對三維人臉重構(gòu)非常重要,,有效地監(jiān)測定位和特征提取算法有待進一步地完善,。
雖然三維數(shù)據(jù)獲取技術(shù)有了飛速發(fā)展,但遠沒有達到像獲取二維圖像那么方便和普及,,且基于三維信息的識別技術(shù)同樣會受到人臉姿態(tài)和環(huán)境的影響,。此外,由于三維識別算法在某些特定環(huán)境下(視頻監(jiān)控,、受限制區(qū)域)無法像二維識別技術(shù)一樣取得令人滿意的結(jié)果,,它需要二維方法甚至更高維方法的輔助來提高它的識別精度和魯棒性,故融合多特征的識別技術(shù)和融合多模態(tài)的人臉識別技術(shù)在很長的一段時間內(nèi)將是最有效的人臉識別方法之一,。
參考文獻
[1] 段錦, 周春光, 劉小華. 三維人臉識別研究進展[J] . 小型微型計算機系統(tǒng), 2004 , 25 (5) : 886-890.
[2] ZHANG C,, COHEN S. 3-D face structure extraction and recognition from images using 3-D morphing and distance mapping[ J ] . IEEE Trans on PAMI, 2002 ,11 (11):1249-1258.
[3] XUE Feng,, DING Xiao Qing. 3D reconstruction of human face based on shape match morphing model[ J ] . ACTA ELECTRONICA SINICA , 2006, 34(10):1896-1899.
[4] BREUR P, KIM Kwang-In, KIENZLE W, et al . Automat ic 3D face reconstruction from single images or video[C]. Automatic Face & Gesture Recognition, 2008. FG '08. 8th IEEE International Conference on 17-19 Sept. 2008:1-8.
[5] 胡元奎.可變光照和可變姿態(tài)下的人臉圖像識別研究[D]. 合肥: 中國科學(xué)技術(shù)大學(xué), 2006.
[6] PARK U, JAIN A K. 3D face reconstruction from stereo video[C]. Proceedings of the 3rd Canadian Conference on Computer and Robot Vision (CRV’06),2006:41–41.
[7] CHOWDHURY A R, CHELLAPPA R, VO T, et al.3D face reconstruction from video using a generic model[C]. Multimedia and Expo, 2002. ICME '02. Proceedings. 2002 IEEE International Conference on Volume 1,26-29 Aug, 2002,1:449 - 452.
[8] SU Hong Tao, FENG D D, WANG Xiu Ying, et al . Face recognition using hybrid feature[C]. Machine Learning and Cybernetics, 2003 International Conference,, 2003(5):3045–3049.
[9] 周曉彥,鄭文明. 一種融合KPCA和KDA的人臉識別新方法[J]. 計算機應(yīng)用, 2008,28(5):1263-1266.
[10] LIU Zhi Ming , LIU Cheng Jun. A hybrid color and frequency features method for face recognition[J]. Image Processing, IEEE Transactions , 2008,17(10):1975–1980.
[11] LIN C J, CHU C H, LEE C Y, et al . 2D/3D Face Recognition Using Neural Networks Based on Hybrid Taguchi-Particle Swarm Optimization[C]. Intelligent Systems Design and Applications, 2008. ISDA '08. Eighth International Conference on Volume 2,26-28 Nov, 2008:307–312.
[12] MIAN A, BENNAMOUN M, OWENS R. Automatic 3D face detection, normalization and recognition[J]. 3D Data Processing, Visualization, and Transmission, Third International Symposium on 14-16 June, 2006:735–742.
[13] MIAN A S, BENNAMOUN M, OWENS R. An efficient multimodal 2D-3D hybrid approach to automatic face recognition[J]. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,2007,29(11):1927-1943.
[14] T PAPATHEODOROU,, RUECKERT D. Evaluation of automatic 4D face recognition using surface and texture registration[C]. Automatic Face and Gesture Recognition, 2004. Proceedings. Sixth IEEE International Conference on 17-19 May,, 2004:321–326.
[15] RAMA A, TARRES F, ONOFRIO D, et al . Mixed 2D-3D information for pose estimation and face recognition[C]. Acoustics, Speech and Signal Processing, 2006. ICASSP 2006 Proceedings. 2006 IEEE International Conference on Volume 2, 2006:14-19.