摘 要:簡(jiǎn)要回顧了人臉識(shí)別技術(shù)的研究背景及發(fā)展歷程,總結(jié)了近三四年人臉識(shí)別方法的研究進(jìn)展,,根據(jù)三維人臉重構(gòu)方法的數(shù)據(jù)來(lái)源不同,,將其分為基于靜態(tài)圖像和視頻序列的三維重構(gòu)技術(shù)。重點(diǎn)對(duì)目前多特征和多模態(tài)識(shí)別技術(shù)進(jìn)行了分類(lèi)闡述,,分析了一些有代表性的算法并對(duì)其識(shí)別結(jié)果進(jìn)行了比較,。最后,總結(jié)了人臉識(shí)別技術(shù)現(xiàn)存的研究難點(diǎn),,并探討了其未來(lái)的發(fā)展方向,。
關(guān)鍵詞:人臉識(shí)別;三維人臉重構(gòu),;多特征,;多模態(tài)
在現(xiàn)有的眾多生物特征(指紋、虹膜,、視網(wǎng)膜,、掌形等)識(shí)別技術(shù)中,人臉識(shí)別技術(shù)具有傳統(tǒng)的識(shí)別技術(shù)無(wú)法比擬的優(yōu)點(diǎn),,如直接,、友好、對(duì)用戶(hù)干擾少,、更易于被接受等,。人臉識(shí)別技術(shù)是一門(mén)融合了多學(xué)科(生物學(xué)、心理學(xué),、認(rèn)知學(xué)等),、多技術(shù)(模式識(shí)別、圖像處理,、計(jì)算機(jī)視覺(jué)等)的新的生物識(shí)別技術(shù),,它具有廣泛的應(yīng)用和巨大的市場(chǎng)前景,,可用于身份確認(rèn)(verification or authentication 一對(duì)一比較)、身份鑒別(identification or recognition 一對(duì)多匹配),、訪(fǎng)問(wèn)控制(門(mén)監(jiān)系統(tǒng)),、安全監(jiān)控(銀行、海關(guān)監(jiān)控),、人機(jī)交互(虛擬現(xiàn)實(shí),、游戲)等。在人臉識(shí)別研究的早期階段,,識(shí)別技術(shù)主要依賴(lài)于人的先驗(yàn)知識(shí),,也就是二維人臉識(shí)別方法。20世紀(jì)80年代,,二維圖像處理技術(shù)日趨成熟,,在一定約束條件下人臉識(shí)別已經(jīng)能取得較好的效果,但同時(shí)也暴露了二維人臉識(shí)別技術(shù)對(duì)環(huán)境和人臉姿態(tài)變化魯棒性差的缺點(diǎn),。從20世紀(jì)90年代開(kāi)始,,隨著計(jì)算機(jī)性能的飛躍性發(fā)展和成像技術(shù)的進(jìn)一步提高,三維人臉識(shí)別技術(shù)成為目前最受關(guān)注的新方法[1],。在國(guó)內(nèi),,比較有代表性的成果是北京奧運(yùn)會(huì)使用的自動(dòng)人臉識(shí)別系統(tǒng)。
1 三維人臉重構(gòu)方法
三維人臉重構(gòu)是指通過(guò)含有人臉的圖像或視頻中有限的人臉信息來(lái)建立人臉三維模型,。根據(jù)人臉信息來(lái)源的不同,,本文將三維人臉重構(gòu)方法分為從靜態(tài)圖像重構(gòu)和從視頻序列重構(gòu)兩大類(lèi)。
1.1 從靜態(tài)圖像重構(gòu)三維人臉
傳統(tǒng)的三維重建技術(shù)大多是通過(guò)特征點(diǎn)的提取和匹配計(jì)算特征點(diǎn)的三維坐標(biāo)來(lái)獲取臉部的三維結(jié)構(gòu),。特征點(diǎn)定位有手工標(biāo)定和自動(dòng)檢測(cè)兩種,特征點(diǎn)數(shù)目比較大時(shí),,手工標(biāo)定很難嚴(yán)格定義特征點(diǎn)之間的對(duì)應(yīng)關(guān)系,。ZHANG C等人[2]采用點(diǎn)對(duì)點(diǎn)集的距離來(lái)間接描述特征點(diǎn)之間的相似度,但是,,這種局部相似度不能保證全局最優(yōu)匹配,,且有可能造成畸變。
為了減少點(diǎn)對(duì)應(yīng)性的困難,,參考文獻(xiàn)[3]中提出了以形狀匹配為相似性度量的通用頭部形變模型,,在不需要嚴(yán)格的特征點(diǎn)對(duì)應(yīng)甚至某些特征點(diǎn)缺失的情況下,完成姿態(tài)估計(jì)和三維重建,。為了解決搜索點(diǎn)之間的最佳相似性,,文中還提出了一種多級(jí)搜索的方法,大大減少了搜索時(shí)間,,但這只是基于多幅圖像的情況,。雖然多幅圖像可以消除人臉特征部件檢測(cè)的不確定性,,但特定臉的多幅圖像一般難以獲得,所以當(dāng)前的很多研究都是基于單一圖像的,。為了能獲得人臉的完整的臉部特征信息,,單一圖像一般要求是正面人臉圖像且是中性表情。
BREUER P[4]和胡元奎[5]等人都是基于單一圖像進(jìn)行建模,。參考文獻(xiàn)[4]中提出了一種融合支持向量機(jī)(Support Vector Machine)和三維形變模型(3D Morphable Model)的方法,,分別用不同方法檢測(cè)人臉和人臉的局部特征(鼻尖、眼角,、嘴角),,然后確定人臉特征可能的位置并評(píng)估特征點(diǎn)的輪廓,通過(guò)迭代處理提高算法對(duì)頭部方向的魯棒性,,最后初始化形變模型的模型試配流程來(lái)產(chǎn)生高分辨率的三維人臉模型,。但是,形變模型算法需要花費(fèi)很長(zhǎng)的時(shí)間對(duì)大量的三維人臉數(shù)據(jù)進(jìn)行訓(xùn)練,。參考文獻(xiàn)[5]基于通用三維人臉模型的三維人臉合成方法能很好地減少算法的復(fù)雜性和訓(xùn)練時(shí)間,。他們利用了基于知識(shí)的特征點(diǎn)定位算法和ASM(Active Shape Model)方法進(jìn)行人臉特征點(diǎn)的定位,用SFS(Shape From Shading)算法恢復(fù)人臉表面深度,,并利用內(nèi)插算法對(duì)通用三維人臉模型進(jìn)行變形處理以生成適用于特定人臉的三維模型,。此算法的優(yōu)點(diǎn)是只需要一個(gè)通用的三維人臉模型即可,不需要進(jìn)行額外的訓(xùn)練,,而且對(duì)訓(xùn)練數(shù)據(jù)以及存儲(chǔ)空間的實(shí)際需求很容易滿(mǎn)足,,具有明顯的優(yōu)勢(shì)。
無(wú)論是單一圖像還是多幅圖像,,靜態(tài)圖像提供的信息都是相對(duì)有限的,,例如無(wú)法提供連續(xù)多幀圖像和時(shí)間相干性 。于是,,在研究從靜態(tài)圖像重構(gòu)人臉模型的同時(shí),,少數(shù)研究嘗試了從視頻圖像序列重構(gòu)三維人臉模型的方法。
1.2 從視頻序列重構(gòu)三維人臉
從視頻重構(gòu)人臉的過(guò)程和從單一圖像重構(gòu)人臉的過(guò)程基本上一樣(如圖1所示),,只是源圖像不同,。視頻序列雖然也可以使用適合于單一圖像的方法,如參考文獻(xiàn)[4]從圖像序列中選出最合適的一幀圖像(例如正面圖像)來(lái)重構(gòu)三維人臉模型,,但這顯然不是應(yīng)用視頻序列圖像的目的,。
PARK U等[6]用通用三維人臉模型和兩個(gè)視頻幀來(lái)重構(gòu)特定用戶(hù)三維人臉模型。他們從立體視頻中重建臉部標(biāo)記點(diǎn)的稀疏集合,,將其用于薄板樣條TPS(Thin Plate Spline)的試配過(guò)程,,在TPS試配的基礎(chǔ)上對(duì)一般人臉模型進(jìn)行非線(xiàn)性變換,得到合適的三維人臉模型,將視頻中人臉紋理信息對(duì)三維人臉模型進(jìn)行映射,,從而獲得真實(shí)的三維人臉模型,。該方法應(yīng)用比較廣泛,但在重建的初始化階段,,初始值與通用模型非常相似,,導(dǎo)致重建的模型與視頻中的人臉相比更近似于通用人臉模型。此缺點(diǎn)可以利用SFM(Structure From Motion)算法[7]解決,。首先,,SFM算法能夠保留通用人臉模型的特定特征;其次,,通過(guò)與通用人臉模型比較,,兩臉間的誤差在能量函數(shù)最小化過(guò)程中都被修正。但是,,不使用通用模型,,單純用SFM算法對(duì)視頻圖像進(jìn)行三維估計(jì)會(huì)使深度估計(jì)變得困難,可能會(huì)帶來(lái)其他信息不足或估計(jì)誤差等問(wèn)題,。文中的算法流程如圖2所示[7],。
2 多特征融合人臉識(shí)別方法
重構(gòu)三維人臉模型只是人臉識(shí)別的重要手段之一,但其算法相對(duì)復(fù)雜,。目前,,使用多方法(二維)融合來(lái)提高識(shí)別性能還是人臉識(shí)別領(lǐng)域研究的熱點(diǎn)[8-15]。多方法融合主要分為融合多種臉部特征(膚色,、輪廓和紋理等信息)和融合多種模態(tài)(二維和三維信息)兩種,。由于圖像與形狀信息相對(duì)獨(dú)立,多特征融合的人臉識(shí)別方法曾經(jīng)很少使用,。
2005年前后,,SU Hong Tao[8]和周曉彥等人[9]分別提出了融合主分量分析PCA(Principal Component Analysis)與線(xiàn)性判別式分析LDA(Linear Discriminant Analysis)混合特征和融合核主元分析KPCA(Kernel Principal Component Analysis)與核判別式分析KDA(Kernel Discriminant Analysis)的人臉識(shí)別算法。在參考文獻(xiàn)[8]中,,利用庫(kù)中圖像和被檢測(cè)圖像的交互信息進(jìn)行粗分類(lèi),,在圖形數(shù)據(jù)的傅里葉頻率區(qū)域進(jìn)行PCA和LDA特征的抽取。由于PCA和LDA能分別反映圖像的不同特性,,故融合兩子特征將取得比單一特征更好的分類(lèi)性能。參考文獻(xiàn)[9]首先求解KDA的最佳判別矢量,,然后基于KPCA準(zhǔn)則函數(shù)求得另一組投影矢量,,最后將兩組投影矢量融合成一組新的特征矢量用于特征的提取。
與參考文獻(xiàn)[8]和參考文獻(xiàn)[9]不同,,LIU Zhi Ming等[10]應(yīng)用了顏色和頻率特征,。離散傅里葉變換將膚色RIQ空間轉(zhuǎn)換到頻域并分別求出各個(gè)顏色分量的掩飾面(mask),用增強(qiáng)Fisher模型EFM(Enhanced Fisher Model)抽取互補(bǔ)頻率特征(包括檢測(cè)臉,、庫(kù)中人臉和R分量大?。?,在特征水平上用級(jí)聯(lián)的方法將其融合在一起,將得到的相似性結(jié)果用于分類(lèi),。分別對(duì)各個(gè)分量進(jìn)行互補(bǔ)頻率特征抽取和分類(lèi),,最后將分類(lèi)結(jié)果通過(guò)加權(quán)因子再次融合在一起,用于人臉的識(shí)別,。該方法比單顏色分量時(shí)的識(shí)別率有很大的提高,,這也說(shuō)明,單一特征所包含的信息都是有限的,。充分利用人臉的膚色和紋理結(jié)構(gòu)等各種特征,,將會(huì)取得較好的識(shí)別效果。
3 多模態(tài)融合人臉識(shí)別方法
多模態(tài)融合的人臉識(shí)別方法與多特征融合方法一樣,,目的是融合二維和三維甚至四維的臉部信息,,以提高識(shí)別的精度和算法對(duì)環(huán)境的魯棒性[11,14-15]。
在多模態(tài)融合的研究上,,比較成功的是MIAN A等人[12]提出的全自動(dòng)三維人臉識(shí)別算法,。該算法能全自動(dòng)檢測(cè)人臉鼻子區(qū)域,自動(dòng)修正三維人臉姿態(tài)和進(jìn)行標(biāo)準(zhǔn)化處理,,可以在規(guī)模比較大的人臉識(shí)別中通過(guò)粗匹配快速拒絕大多數(shù)不適合的人臉并能自動(dòng)分割易受表情影響和不易受表情影響區(qū)域,。但是,算法在最后識(shí)別階段容易受頭發(fā)的影響,,且無(wú)法自動(dòng)檢測(cè)側(cè)面圖像,。為了解決此問(wèn)題,他們?cè)谇捌谘芯康幕A(chǔ)上提出了一種有效的多模態(tài)(二維/三維)融合和混合(局部/整體特征)匹配的方法[13],。該方法在參考文獻(xiàn)[12]的基礎(chǔ)上,,用三維球面人臉描述SFR(Spherical Face Representation)和可變尺度特征變換SIFT(Scale-Invariant Feature Transform)描述子來(lái)構(gòu)建拒絕分類(lèi)器,通過(guò)粗(整體)匹配快速拒絕大部分候選人臉并對(duì)剩下的人臉進(jìn)行區(qū)域分割,,得到對(duì)表情不敏感的局部特征區(qū)域(眼睛-前額/鼻子),,再用修正的迭代最近點(diǎn)算法(Modified ICP)對(duì)這些局部特征進(jìn)行單獨(dú)匹配。
相對(duì)三維融合二維信息的方法,,三維與四維信息的融合技術(shù)應(yīng)用比較少,。參考文獻(xiàn)[14]中PAPATHEODOROR T等人利用人臉紋理結(jié)構(gòu)和表面信息注冊(cè),提出一種自動(dòng)的四維人臉識(shí)別方法,。他們利用立體攝像系統(tǒng),,結(jié)合面部外觀(guān)的二維紋理映射描述符和三維面部幾何的致密三維網(wǎng)格頂點(diǎn)描述符,重構(gòu)四維人臉數(shù)據(jù),。在識(shí)別階段先進(jìn)行三維或者四維剛性注冊(cè),,然后通過(guò)ICP算法和歐氏距離計(jì)算兩臉部圖形對(duì)應(yīng)點(diǎn)的距離,根據(jù)相似性判斷來(lái)進(jìn)行識(shí)別。表1所示是多特征融合與多模態(tài)融合的一些代表性算法在各自實(shí)驗(yàn)中的結(jié)果,。
由于現(xiàn)在人臉數(shù)據(jù)庫(kù)并不統(tǒng)一,,不同文獻(xiàn)的實(shí)驗(yàn)數(shù)據(jù)庫(kù)一般不一樣,且所使用的圖像類(lèi)型(顏色圖像和灰度圖像)與大小不同,,因此很難根據(jù)它的識(shí)別率來(lái)判斷某個(gè)算法的優(yōu)劣性,。此外,即使使用同一個(gè)數(shù)據(jù)庫(kù),,數(shù)據(jù)庫(kù)中也往往含有各種變化劇烈程度不一致的表情,、姿態(tài)和光照情況,在不同的環(huán)境和姿態(tài)表情下,,算法的結(jié)果會(huì)有很大的差別,。
目前,三維人臉識(shí)別方法已經(jīng)代替二維人臉識(shí)別方法成為研究熱點(diǎn),??朔砬樽藨B(tài)和環(huán)境影響是目前三維識(shí)別研究的主要目的,其手段就是從圖像中重構(gòu)人臉三維模型,。圖像采集設(shè)備的差異和成像原理的不同,,造成了采集數(shù)據(jù)的差異,如何更好地獲取更多的有效信息與對(duì)數(shù)據(jù)的正規(guī)化一樣成為難題,。同時(shí),,特征點(diǎn)定位和人臉特征的提取對(duì)三維人臉重構(gòu)非常重要,有效地監(jiān)測(cè)定位和特征提取算法有待進(jìn)一步地完善,。
雖然三維數(shù)據(jù)獲取技術(shù)有了飛速發(fā)展,,但遠(yuǎn)沒(méi)有達(dá)到像獲取二維圖像那么方便和普及,且基于三維信息的識(shí)別技術(shù)同樣會(huì)受到人臉姿態(tài)和環(huán)境的影響,。此外,,由于三維識(shí)別算法在某些特定環(huán)境下(視頻監(jiān)控、受限制區(qū)域)無(wú)法像二維識(shí)別技術(shù)一樣取得令人滿(mǎn)意的結(jié)果,,它需要二維方法甚至更高維方法的輔助來(lái)提高它的識(shí)別精度和魯棒性,,故融合多特征的識(shí)別技術(shù)和融合多模態(tài)的人臉識(shí)別技術(shù)在很長(zhǎng)的一段時(shí)間內(nèi)將是最有效的人臉識(shí)別方法之一。
參考文獻(xiàn)
[1] 段錦, 周春光, 劉小華. 三維人臉識(shí)別研究進(jìn)展[J] . 小型微型計(jì)算機(jī)系統(tǒng), 2004 , 25 (5) : 886-890.
[2] ZHANG C,, COHEN S. 3-D face structure extraction and recognition from images using 3-D morphing and distance mapping[ J ] . IEEE Trans on PAMI,, 2002 ,11 (11):1249-1258.
[3] XUE Feng, DING Xiao Qing. 3D reconstruction of human face based on shape match morphing model[ J ] . ACTA ELECTRONICA SINICA , 2006, 34(10):1896-1899.
[4] BREUR P, KIM Kwang-In, KIENZLE W, et al . Automat ic 3D face reconstruction from single images or video[C]. Automatic Face & Gesture Recognition, 2008. FG '08. 8th IEEE International Conference on 17-19 Sept. 2008:1-8.
[5] 胡元奎.可變光照和可變姿態(tài)下的人臉圖像識(shí)別研究[D]. 合肥: 中國(guó)科學(xué)技術(shù)大學(xué), 2006.
[6] PARK U, JAIN A K. 3D face reconstruction from stereo video[C]. Proceedings of the 3rd Canadian Conference on Computer and Robot Vision (CRV’06),2006:41–41.
[7] CHOWDHURY A R, CHELLAPPA R, VO T, et al.3D face reconstruction from video using a generic model[C]. Multimedia and Expo, 2002. ICME '02. Proceedings. 2002 IEEE International Conference on Volume 1,26-29 Aug, 2002,1:449 - 452.
[8] SU Hong Tao, FENG D D, WANG Xiu Ying, et al . Face recognition using hybrid feature[C]. Machine Learning and Cybernetics, 2003 International Conference,, 2003(5):3045–3049.
[9] 周曉彥,鄭文明. 一種融合KPCA和KDA的人臉識(shí)別新方法[J]. 計(jì)算機(jī)應(yīng)用, 2008,28(5):1263-1266.
[10] LIU Zhi Ming , LIU Cheng Jun. A hybrid color and frequency features method for face recognition[J]. Image Processing, IEEE Transactions ,, 2008,17(10):1975–1980.
[11] LIN C J, CHU C H, LEE C Y, et al . 2D/3D Face Recognition Using Neural Networks Based on Hybrid Taguchi-Particle Swarm Optimization[C]. Intelligent Systems Design and Applications, 2008. ISDA '08. Eighth International Conference on Volume 2,26-28 Nov, 2008:307–312.
[12] MIAN A, BENNAMOUN M, OWENS R. Automatic 3D face detection, normalization and recognition[J]. 3D Data Processing, Visualization, and Transmission, Third International Symposium on 14-16 June, 2006:735–742.
[13] MIAN A S, BENNAMOUN M, OWENS R. An efficient multimodal 2D-3D hybrid approach to automatic face recognition[J]. IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE,2007,29(11):1927-1943.
[14] T PAPATHEODOROU, RUECKERT D. Evaluation of automatic 4D face recognition using surface and texture registration[C]. Automatic Face and Gesture Recognition, 2004. Proceedings. Sixth IEEE International Conference on 17-19 May,, 2004:321–326.
[15] RAMA A, TARRES F, ONOFRIO D, et al . Mixed 2D-3D information for pose estimation and face recognition[C]. Acoustics, Speech and Signal Processing, 2006. ICASSP 2006 Proceedings. 2006 IEEE International Conference on Volume 2, 2006:14-19.