基于生成對抗網(wǎng)絡(luò)的人臉熱紅外圖像生成

王雅欣，史瀟瀟

（1.中國科學(xué)技術(shù)大學(xué) 軟件學(xué)院，安徽合肥 230015； 2.中國科學(xué)技術(shù)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，安徽合肥 230027）

摘要： 可見光圖像易受光照變化影響，而熱紅外圖像對成像的光照條件具有魯棒性，因此，熱紅外圖像可以彌補(bǔ)可見光圖像光照敏感性這一不足。然而，紅外熱像儀價格昂貴，采集熱紅外圖像的成本遠(yuǎn)高于可見光圖像。針對此問題，提出了一種基于生成對抗網(wǎng)絡(luò)的熱紅外人臉圖像生成方法，采用條件生成對抗網(wǎng)絡(luò)結(jié)合L1損失從可見光圖像中生成紅外熱像。在USTC-NIVE數(shù)據(jù)庫上的實(shí)驗(yàn)結(jié)果驗(yàn)證了所提出的紅外熱像生成方法的有效性。同時，將生成的紅外熱像作為擴(kuò)充樣本，有助于提高紅外表情識別的精度。

關(guān)鍵詞： 生成對抗網(wǎng)絡(luò) 圖像生成表情識別

中圖分類號：TP18
文獻(xiàn)標(biāo)識碼：A
DOI： 10.19358/j.issn.2096-5133.2018.08.010
中文引用格式：王雅欣，史瀟瀟.基于生成對抗網(wǎng)絡(luò)的人臉熱紅外圖像生成［J］.信息技術(shù)與網(wǎng)絡(luò)安全，2018,37（8）：40-44.

Facial thermal infrared image generated on GAN

Wang Yaxin，Shi Xiaoxiao

(1. School of Software, University of Science and Technology of China, Hefei 230015, China; 2.School of Computer Science and Technology, University of Science and Technology of China, Hefei 230027, China)

Abstract： Visible light images are sensitive to illumination change, while thermal infrared images are robust to light conditions. Therefore, thermal infrared images can make up for visible light images’ weakness. However，infrared thermal camera is very expensive, which makes thermal infrared images not as available as visible light images. Thus, in this paper, we propose a method for generating thermal infrared images from visible light images by combining conditional generative adversarial networks with L1 loss. The results on USTC-NVIE database prove the feasibility and effectivity of this method. At the same time, using the generated images as expansion of samples, the performance on recognition task is improved.

Key words : generative adversarial networks; image generation; expression recognition

0 引言

熱紅外圖像是紅外傳感器根據(jù)熱輻射采集的圖像，具有良好的目標(biāo)探測能力。與可見光圖像相比，熱紅外圖像因不受光照影響具有更好的魯棒性，近年來在表情識別研究中開始受到關(guān)注^［1-3］。然而，熱紅外數(shù)據(jù)的采集需要昂貴的設(shè)備，與可見光圖像相比獲取成本高昂。因而，本文提出基于生成對抗網(wǎng)絡(luò)從可見光人臉圖像生成熱紅外人臉圖像的方法。

傳統(tǒng)的生成模型對機(jī)器學(xué)習(xí)來說具有不同的限制。比如，對真實(shí)樣本進(jìn)行最大似然估計(jì)的生成模型，嚴(yán)重依賴于所選取樣本的分布情況；采用近似法學(xué)習(xí)的生成模型難以求得最優(yōu)解，只能逼近目標(biāo)函數(shù)的下界；馬爾科夫鏈方法雖然既可以用于生成模型的訓(xùn)練又可用于新樣本的生成,但是計(jì)算復(fù)雜度較高。隨著深度學(xué)習(xí)的發(fā)展，神經(jīng)網(wǎng)絡(luò)模型在各個領(lǐng)域取得突破性進(jìn)展^［4-6］。GOODFELLOW I等人根據(jù)博弈論提出了生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks，GAN)^［7］，創(chuàng)造性地結(jié)合了生成模型和判別模型進(jìn)行數(shù)據(jù)生成。但GAN的生成方式太過自由，在圖片像素較多的情況下容易失控。針對這一問題，MIRZA M^［8］在GAN的基礎(chǔ)上提出條件生成對抗網(wǎng)絡(luò)（Conditional Generative Adversarial Networks，cGAN）。而ISOLA P^［9］受cGAN和文獻(xiàn)［10］啟發(fā)，將GAN的目標(biāo)函數(shù)與傳統(tǒng)損失函數(shù)相結(jié)合提出Pix2Pix方法，該方法在多種任務(wù)中有著出色的表現(xiàn)。

本文提出基于生成對抗網(wǎng)絡(luò)生成熱紅外人臉圖像的方法，與Pix2Pix^［9］一樣在cGAN目標(biāo)函數(shù)的基礎(chǔ)上加上傳統(tǒng)損失函數(shù)作為懲罰項(xiàng)，即任務(wù)目標(biāo)，懲罰項(xiàng)為可見圖片與生成樣本間的相似程度。實(shí)驗(yàn)在USTC-NVIE^［11］庫上進(jìn)行，在以可見光圖像為條件進(jìn)行熱紅外圖像生成的基礎(chǔ)上，利用SVM模型進(jìn)行表情識別，驗(yàn)證生成的熱紅外圖片能否被模型識別以及作為擴(kuò)充樣本是否可以提升模型的訓(xùn)練效果。

1 方法介紹

1.1 網(wǎng)絡(luò)結(jié)構(gòu)

本文的網(wǎng)絡(luò)框架如圖1所示，由生成器（Generator，G）和判別器（Discriminator，D）組成。生成器使用隨機(jī)噪聲z在可見光圖片y的約束下生成樣本圖片G（z,y）傳遞給判別器。生成的樣本圖片與可見光圖片的L1距離被作為懲罰項(xiàng)反饋給生成模型，以此保證最終的生成圖片與可見光圖片的相似程度。判別器接收到的輸入既有生成的樣本圖片G（z,y）也有真實(shí)的熱紅外圖片，它的任務(wù)就是判斷接收到的圖片在該可見光圖片y約束的情況下有多大概率是真實(shí)的。本文生成器模型采用U-Net神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，如圖1中生成器G中框圖所示。判別器模型則采用神經(jīng)網(wǎng)絡(luò)，其結(jié)構(gòu)如圖1中判別器D框圖所示。

QQ截圖20180921155452.png

1.1.1 生成器

本文采用U-Net結(jié)構(gòu)作為生成器的網(wǎng)絡(luò)結(jié)構(gòu)。在ISOLA P提出U-Net結(jié)構(gòu)前，圖像到圖像的轉(zhuǎn)化任務(wù)中編碼解碼結(jié)構(gòu)的使用最為廣泛，其結(jié)構(gòu)如圖2所示。編碼解碼結(jié)構(gòu)在編碼時，使用卷積層和激活函數(shù)減少信息量。解碼時則執(zhí)行與編碼過程相反的操作。但在數(shù)據(jù)流傳遞的過程中，會出現(xiàn)輸出與輸入之間信息遺失的情況。因此ISOLA P提出了U-Net生成器結(jié)構(gòu)^［9］，其結(jié)構(gòu)如圖1中生成器結(jié)構(gòu)所示。U-Net的結(jié)構(gòu)和編碼解碼類似，但該結(jié)構(gòu)在編解碼過程的鏡像層間加了跳步連接（通過復(fù)制編碼層的特征圖譜傳遞給對應(yīng)的解碼層實(shí)現(xiàn)），以此解決生成器輸出輸入之間信息傳遞的問題。

1.1.2 判別器

ISOLA P^［9］為了追求細(xì)節(jié)的生成效果，采用馬爾科夫鏈模型作為判別器。然而熱紅外人臉圖像并不追求分毫畢現(xiàn)的效果，因此本文采用神經(jīng)網(wǎng)絡(luò)作為判別器結(jié)構(gòu)，其結(jié)構(gòu)如圖1中的判別器所示。輸入經(jīng)過這個卷積神經(jīng)網(wǎng)絡(luò)輸出判定該輸入是真實(shí)圖像的概率。

1.2 目標(biāo)函數(shù)

本文的目的是通過生成對抗網(wǎng)絡(luò)以可見光人臉圖像為素材生成熱紅外人臉圖像。考慮到同一張圖的可見光圖像與熱紅外圖像的五官分布一致，而且文獻(xiàn)［10］表明，將cGAN的目標(biāo)函數(shù)和傳統(tǒng)的目標(biāo)結(jié)合可以提高生成圖像的質(zhì)量，因此本文在生成時還考慮生成圖像與可見光圖像之間的相似程度，即有條件約束的生成對抗網(wǎng)絡(luò)，其目標(biāo)函數(shù)為：

min_Gmax_DV（D,G）=V′（D,G）+λL_L1 (1)

式(1)中V′（D,G）就是cGAN的目標(biāo)函數(shù)，即不考慮生成圖像與可見光圖像相似程度的目標(biāo)函數(shù)：

微信截圖_20180921160310.png

本文將可見光圖片y和生成器輸出G（z,y）之間的L1距離作為兩張圖片相似程度的懲罰項(xiàng)：

微信截圖_20180921160441.png

式(2)和式(3)中z是隨機(jī)噪聲，x是目標(biāo)圖像，y是可見光圖像，G（z,y）指生成器的輸出，D（·）指判別器輸出的概率。判別器的目標(biāo)是最大化式(1)，即maxDV（D,G）,而生成器的目標(biāo)是最小化式(2)的第二項(xiàng)與λLL1之和，其中，λ是超參數(shù)。

1.3 訓(xùn)練和優(yōu)化

為了訓(xùn)練生成對抗網(wǎng)絡(luò)，需要反復(fù)迭代多次，每次迭代需要交換固定判別器和生成器中的一個模型參數(shù)，更新另一個模型的參數(shù)。

判別器的訓(xùn)練過程如下：

（1）從隨機(jī)噪聲z中采樣；

（2）對訓(xùn)練樣本進(jìn)行采樣，采樣的可見光圖片作為條件y，對應(yīng)的熱紅外圖片作為真實(shí)數(shù)據(jù)樣本x；

（3）更新判別器模型的參數(shù)；

（4）所有樣本都采樣過一遍后，固定判別器模型參數(shù)，開始新一輪的生成器參數(shù)更新。

生成器的訓(xùn)練過程如下：

（1）從隨機(jī)噪聲z中采樣；

（2）對訓(xùn)練樣本的可見光圖片進(jìn)行采樣作為條件變量y；

（3）計(jì)算y與輸出G(z, y)之間的L1距離；

（4）更新生成器模型的參數(shù)；

（5）所有樣本都采樣過一遍后，固定生成器模型參數(shù)，開始新一輪的判別器參數(shù)更新。

本文使用隨機(jī)梯度下降法進(jìn)行參數(shù)優(yōu)化，進(jìn)行足夠多次交替訓(xùn)練的迭代之后，停止訓(xùn)練。

2 實(shí)驗(yàn)條件及結(jié)果分析

2.1 實(shí)驗(yàn)條件

本文在USTC-NVIE^［8］數(shù)據(jù)庫上進(jìn)行實(shí)驗(yàn)，該數(shù)據(jù)庫在左、中、右三種光源下，共收集了126名志愿者6種基本面部表情（高興、悲傷、驚喜、恐懼、憤怒和厭惡）的可見光和熱紅外圖像。

在進(jìn)行實(shí)驗(yàn)之前，需要對圖片進(jìn)行預(yù)處理。使用haar級聯(lián)特征對可見光圖像進(jìn)行人臉定位和截取；對熱紅外圖像則使用大津法（OSTU）和垂直投影曲線進(jìn)行人臉定位和截取。最終，截取了1 051對有表情的可見光人臉圖像和熱紅外人臉圖像對以及980對無表情的可見光和熱紅外圖像對，并調(diào)整所有圖像的大小為256×256。本文將成對的可見光人臉圖像和熱紅外圖像稱為一個樣本。

2.1.1 對照實(shí)驗(yàn)設(shè)置

本文設(shè)置了3組對照模型進(jìn)行效果對比，加上本文提出的模型，共4組模型，都采用神經(jīng)網(wǎng)絡(luò)作為判別器，但生成器結(jié)構(gòu)和目標(biāo)函數(shù)各不相同。為了方便表述，后文稱公式(2)為目標(biāo)函數(shù)Ⅰ，稱公式(1)為目標(biāo)函數(shù)Ⅱ；以編碼解碼為生成器結(jié)構(gòu)的生成框架為網(wǎng)絡(luò)結(jié)構(gòu)I，以U-Net為生成器結(jié)構(gòu)的生成框架為網(wǎng)絡(luò)結(jié)構(gòu)II。則本文的4組實(shí)驗(yàn)?zāi)Ｐ头謩e是網(wǎng)絡(luò)結(jié)構(gòu)I目標(biāo)函數(shù)I、網(wǎng)絡(luò)結(jié)構(gòu)I目標(biāo)函數(shù)II、網(wǎng)絡(luò)結(jié)構(gòu)II目標(biāo)函數(shù)I以及本文提出的方法網(wǎng)絡(luò)結(jié)構(gòu) II目標(biāo)函數(shù)II。

本文使用的判別器神經(jīng)網(wǎng)絡(luò)如圖1中的判別器框架所示，所有卷積核大小都為4×4，除最后一層的步長為1，使用Sigmoid激活函數(shù)輸出概率，其他卷積層的步長都為2，都使用LeakyReLU作為激活函數(shù)并且都需要進(jìn)行批量正則化（Batch Normalization, BN）。

對于兩種生成器網(wǎng)絡(luò)結(jié)構(gòu)，除了跳步連接的差別外，所有卷積層的卷積核大小都為4×4，步長都為2，都使用ReLU函數(shù)作為激活函數(shù)，并且都需要進(jìn)行批量正則化。從輸入開始各編碼層的輸出通道數(shù)為32→64→128→256→512→512→512→512，編碼之后一直到輸出的各解碼層的輸出通道數(shù)為512→512→512→ 512→ 256→128→64→32→3。

設(shè)置的4組模型除進(jìn)行生成實(shí)驗(yàn)外還進(jìn)行表情識別實(shí)驗(yàn)。

2.1.2 生成實(shí)驗(yàn)條件

生成實(shí)驗(yàn)中，數(shù)據(jù)集被分為訓(xùn)練集、驗(yàn)證集和測試集。其中，訓(xùn)練集有1 222個樣本，包含了全部的980對無表情圖片和242對有表情圖片。驗(yàn)證集和測試集樣本則都是有表情的圖片，分別有384個樣本和425個樣本。

為了評估測試集的目標(biāo)圖片和生成圖片的差異，本文使用高斯Parzen窗^［12］作為衡量標(biāo)準(zhǔn)。

2.1.3 識別實(shí)驗(yàn)條件

為了驗(yàn)證生成圖像能否被模型識別，本文使用SVM作為識別模型，以生成實(shí)驗(yàn)的訓(xùn)練集和驗(yàn)證集中的熱紅外圖像為訓(xùn)練集，總共有1 606幅熱紅外圖像。訓(xùn)練SVM模型分別識別測試集的生成圖像和原本熱紅外圖像（目標(biāo)圖像）的表情標(biāo)簽。

最后，為了驗(yàn)證生成圖片作為擴(kuò)充樣本的效果，仍使用SVM模型，除了生成實(shí)驗(yàn)的訓(xùn)練集和驗(yàn)證集外，再加入213幅生成的圖像，總共1 819幅熱紅外圖像作為訓(xùn)練集。剩下的212幅生成圖像的目標(biāo)圖像作為測試集。

2.2 實(shí)驗(yàn)結(jié)果和分析

2.2.1 生成實(shí)驗(yàn)結(jié)果

圖3為一個樣本的可見圖像、生成的紅外圖像及其目標(biāo)圖像的示例。對比4種模型的生成圖片與目標(biāo)圖片可以發(fā)現(xiàn)，本文提出的模型（網(wǎng)絡(luò)結(jié)構(gòu)II目標(biāo)函數(shù)II）的生成圖片與目標(biāo)圖片更相似。表1是生成圖片與目標(biāo)圖片基于Parzen窗的對數(shù)似然估計(jì)，結(jié)果表明本文提出的方法的生成圖片（圖3（e））與目標(biāo)圖片更相似。結(jié)合表1的結(jié)果以及圖3的成像效果考慮，生成效果還是比較令人滿意的。

微信截圖_20180922151724.png

2.2.2 識別實(shí)驗(yàn)結(jié)果

表2是使用SVM模型識別生成圖片的實(shí)驗(yàn)結(jié)果，實(shí)驗(yàn)結(jié)果表明生成的圖片可以被識別模型識別，并且與目標(biāo)圖片被識別的效果相似。本文提出的方法（網(wǎng)絡(luò)結(jié)構(gòu)II目標(biāo)函數(shù)II）的準(zhǔn)確率是所有生成圖片中最高的。

微信截圖_20180922150447.png

表3分別是沒有進(jìn)行樣本擴(kuò)充與使用生成圖片作為擴(kuò)充樣本訓(xùn)練的模型對真實(shí)熱紅外圖像的識別結(jié)果。實(shí)驗(yàn)結(jié)果表明生成的圖片作為擴(kuò)充樣本對模型識別效果的提升起了積極的作用。與沒有擴(kuò)充樣本的模型相比，四組擴(kuò)充訓(xùn)練集樣本的模型，識別準(zhǔn)確率分別提升了1.28%、2.7%、1.97%以及3.24%。訓(xùn)練集只進(jìn)行了12.36%的擴(kuò)充，提升效果令人滿意。由此可見使用生成對抗網(wǎng)絡(luò)生成圖片可以作為擴(kuò)增樣本提升模型訓(xùn)練效果。四組擴(kuò)充識別實(shí)驗(yàn)中，本文提出的方法（網(wǎng)絡(luò)結(jié)構(gòu)II目標(biāo)函數(shù)II）生成的圖片作為擴(kuò)增樣本訓(xùn)練效果最好。

微信截圖_20180922150548.png

綜合生成實(shí)驗(yàn)以及識別實(shí)驗(yàn)可以發(fā)現(xiàn)本文提出的方法比其他模型的結(jié)果更好。如果分別觀察各組實(shí)驗(yàn)的網(wǎng)絡(luò)結(jié)構(gòu)和目標(biāo)函數(shù)，可以發(fā)現(xiàn)不論是生成實(shí)驗(yàn)還是識別實(shí)驗(yàn)，目標(biāo)函數(shù)相同的情況下，使用U-Net的（網(wǎng)絡(luò)結(jié)構(gòu)II）模型，實(shí)驗(yàn)結(jié)果都比使用編碼解碼器（網(wǎng)絡(luò)結(jié)構(gòu)I）的結(jié)果要好。而網(wǎng)絡(luò)結(jié)構(gòu)相同的情況下，使用目標(biāo)函數(shù)II的結(jié)果都比使用目標(biāo)函數(shù)I的結(jié)果要好。綜上所述，本文所提方法表現(xiàn)出的優(yōu)越性是來自模型結(jié)構(gòu)以及目標(biāo)函數(shù)的雙重作用。

3 結(jié)論

為了解決近年來備受研究關(guān)注的熱紅外圖像采集困難的問題，本文提出采用條件生成對抗網(wǎng)絡(luò)結(jié)合L1損失從可見光圖像中生成熱紅外圖像的方法。USTC-NVIE庫上的實(shí)驗(yàn)結(jié)果表明，生成對抗網(wǎng)絡(luò)框架可用來從可見光圖像生成熱紅外圖像，并且生成的圖片作為擴(kuò)充樣本可提升模型訓(xùn)練的效果。

參考文獻(xiàn)

［1］ BETTADAPURA V. Face expression recognition and analysis: the state of the art［J］. arXiv preprint arXiv:1203.6722. 2012.

［2］ YOSHITOMI Y, KIM S I, Kawano T, et al. Effect of sensor fusion for recognition of emotional states using voice, face image and thermal image of face［C］//Proceedings in 9th IEEE International Workshop on Robot and Human Interactive Communication, 2000. IEEE, 2000: 178-183.

［3］ JARLIER S, GRANDJEAN D, DELPLANQUE S, et al. Thermal analysis of facial muscles contractions［J］. IEEE Transactions on Affective Computing, 2011, 2 (1): 2-9.

［4］ DAHL G E, YU D, DENG L, et al. Context-dependent pre-trained deep neural networks for large vocabulary speech recognition［J］. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20 (1): 30-42.

［5］ RUSSAKOVSKY O, DENG J, SU H, et al. Imagenet large scale visual recognition challenge［J］.International Journal of Computer Vision, 2015, 115 (3): 211-252.

［6］ HINTON G, DENG L, YU D, et al. Deep neural networks for acoustic modeling in speech recognition:the shared views of four research groups［J］. IEEE Signal Processing Magazine, 2012,29 (6): 82-97.

［7］ GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial nets［C］//Advances in Neural Information Processing Systems, 2014: 2672-2680.

［8］ MIRZA M,OSINDERO S. Conditional generative adversarial nets［J］. arXiv preprint arXiv:1411.1784. 2014.

［9］ ISOLA P, ZHU J Y, ZHOU T, et al. Image-to-image translation with conditional adversarial networks［J］.arXiv preprint arXiv:1611.07004. 2016.

［10］ PATHAK D,KRAHENBUHL P, DONAHUE J, et al. Context encoders: feature learning by in painting［C］//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 2536-2544.

［11］ WANG S, LIU Z,LV S, et al. A natural visible and infrared facial expression database for expression recognition and emotion inference［J］. IEEE Transactions on Multimedia, 2010, 12(7): 682-691.

［12］ BREULEUX O, BENGIO Y, VINCENT P. Quickly generating representative samples from an rbm derived process［J］. Neural Computation, 2011, 23 (8): 2058-2073.

（收稿日期：2018-04-14）

作者簡介：

王雅欣（1991-），女，碩士研究生，主要研究方向：情感計(jì)算。

史瀟瀟（1991-），女，碩士，主要研究方向：情感計(jì)算。

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容