文獻(xiàn)標(biāo)識碼: A
DOI:10.16157/j.issn.0258-7998.190060
中文引用格式: 黃海新,梁志旭,張東. 基于深度學(xué)習(xí)的圖像風(fēng)格化算法研究綜述[J].電子技術(shù)應(yīng)用,,2019,,45(7):27-31.
英文引用格式: Huang Haixin,Liang Zhixu,,Zhang Dong. A survey of image stylization algorithms based on deep learning[J]. Application of Electronic Technique,,2019,45(7):27-31.
0 引言
圖像風(fēng)格化是指通過一些算法,將一張具有藝術(shù)風(fēng)格圖像的風(fēng)格映射到其他自然圖像上,,使原自然圖像保留原始語義內(nèi)容的同時具備該藝術(shù)圖像的藝術(shù)風(fēng)格,。圖像風(fēng)格化這一概念的提出是源于人們被某些藝術(shù)繪畫大師的藝術(shù)作品所吸引,渴望自己也能夠擁有同樣藝術(shù)風(fēng)格的圖像,,而重新繪制特殊風(fēng)格的圖像則需要大量相關(guān)技術(shù)人員的投入和資源損耗,,于是一些研究人員開始研究相應(yīng)算法來完成圖像風(fēng)格化任務(wù)。
自20世紀(jì)90年代中期以來,,人們相繼提出大量風(fēng)格化算法,,其中非真實感渲染[1]方法取得了較好的效果,但這種方法局限于僅能針對單一風(fēng)格進(jìn)行繪制,,如果需要拓展到其他風(fēng)格的轉(zhuǎn)換,,則需要重新修改算法和參數(shù)。研究人員后來進(jìn)一步將風(fēng)格化問題轉(zhuǎn)化為風(fēng)格圖像的紋理合成問題,,將目標(biāo)風(fēng)格圖像的紋理特征信息映射到待風(fēng)格化圖像中完成風(fēng)格化任務(wù),。WANG B等[2]從風(fēng)格圖像數(shù)據(jù)集中提取紋理信息,將紋理信息與被分割的原始圖像結(jié)合成新的風(fēng)格化圖像,。HERTZMANN A等[3]通過學(xué)習(xí)來自未經(jīng)轉(zhuǎn)換的圖片和風(fēng)格化圖像的示例對的類似變換來進(jìn)行風(fēng)格化任務(wù),。FRIGO O等[4]提出一種無監(jiān)督的風(fēng)格化方法,具體是對小圖像塊的分割和重構(gòu)完成風(fēng)格轉(zhuǎn)移,。以上這些算法都是圖像風(fēng)格化的傳統(tǒng)算法,,傳統(tǒng)算法還有很多,但其最大的局限性就是僅僅使用了圖像低層次的特征,,無法完美捕捉到圖像的結(jié)構(gòu)分布,這就導(dǎo)致風(fēng)格化效果不理想,。
1 基于深度學(xué)習(xí)的圖像風(fēng)格化算法
深度學(xué)習(xí)對于計算機視覺方面良好的效果使得風(fēng)格化研究人員不得不將目光轉(zhuǎn)移到它身上,。隨著卷積神經(jīng)網(wǎng)絡(luò)[5]的提出,,圖像的高層次特征得以有效利用,傳統(tǒng)風(fēng)格化算法的局限性得以消除,,這吸引了大量的風(fēng)格化研究人員,。
GATYS L A等開創(chuàng)性地利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行風(fēng)格化任務(wù)。他們在文獻(xiàn)[6]中首先利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像紋理合成的任務(wù),,從目標(biāo)風(fēng)格圖像中提取紋理,。他們用Gram矩陣來表示紋理信息,Gram矩陣是預(yù)訓(xùn)練分類網(wǎng)絡(luò)VGG的各過濾器激活值之間的相關(guān)系數(shù),,這種基于Gram矩陣的紋理表示方式有效地模擬了紋理的各種變化,。他們初始化一張噪聲圖像,將噪聲圖像和待提取紋理的目標(biāo)圖像都送入VGG網(wǎng)絡(luò)中,,通過最小化噪聲圖像和目標(biāo)圖像之間各層的Gram矩陣之間的差值作為損失函數(shù)對噪聲圖像的像素值進(jìn)行優(yōu)化,,通過反復(fù)的優(yōu)化迭代得到目標(biāo)圖像的紋理,這是圖像的紋理也就是風(fēng)格的提取過程,。
在后來的工作中,,GATYS L A等人在紋理合成的基礎(chǔ)上通過引入目標(biāo)內(nèi)容圖像,修改了損失函數(shù)使算法同時針對風(fēng)格和內(nèi)容進(jìn)行優(yōu)化,,滿足了保持目標(biāo)語義內(nèi)容不變同時的風(fēng)格化任務(wù),,可以做到如圖1所示的風(fēng)格化效果。此方法雖然能夠較好地完成圖像風(fēng)格化的任務(wù),,但是其缺點也是很明顯的,,由于優(yōu)化需要較長的等待時間,因此在實時性這一方面此方法有很大的局限性,。另外,,由于卷積神經(jīng)網(wǎng)絡(luò)不可避免地會丟失一些低級特征信息,因此GATYS L A等人的算法在風(fēng)格化后的細(xì)節(jié)方面表現(xiàn)不佳且難以實現(xiàn)真實照片作為風(fēng)格的轉(zhuǎn)換任務(wù),。
針對GATYS L A等[7]的研究中關(guān)于實時性的問題,,ULYANOV D等[8]和JOHNSON J等[9]都提出了相應(yīng)的解決辦法。這兩種方法的原理相似,,都是采用離線訓(xùn)練的方式預(yù)先訓(xùn)練一個風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò),,只不過采用不同的網(wǎng)絡(luò)結(jié)構(gòu),兩個網(wǎng)絡(luò)結(jié)構(gòu)分別如圖2和圖3所示,。這樣,,當(dāng)需要進(jìn)行圖像風(fēng)格化任務(wù)時,只需要將圖像送入轉(zhuǎn)換網(wǎng)絡(luò)中,,即可立即獲得風(fēng)格化后的圖像,。但是,由于這兩種算法的核心思想是基于文獻(xiàn)[7]的算法,因此這兩種算法依舊面臨著GATYS L A等風(fēng)格化后的局部細(xì)節(jié)方面表現(xiàn)不佳的問題,。而且最大的局限性是預(yù)訓(xùn)練的轉(zhuǎn)換網(wǎng)絡(luò)只能對一種風(fēng)格進(jìn)行訓(xùn)練,,如果想實現(xiàn)多個風(fēng)格的轉(zhuǎn)換,需要為每種特定風(fēng)格都訓(xùn)練一個轉(zhuǎn)換網(wǎng)絡(luò),。
除了Gram矩陣可用于表示紋理特征外,,馬爾科夫隨機場(MRF)也是對圖像紋理特征建模的另一種方法??紤]到Gram矩陣的一些局限性,,一些研究人員采用MRF的方法處理風(fēng)格化問題?;贛RF的紋理建模表示方法假定在一個紋理圖像中,,每個像素僅與其相鄰的像素有關(guān),即每個像素完全由其空間鄰域表征,。
LI C和WAND M[10]認(rèn)為GATYS L A等基于Gram矩陣的紋理表示方法僅考慮像素特征的相關(guān)性,,沒有考慮空間結(jié)構(gòu),這導(dǎo)致了算法在真實圖像作為目標(biāo)風(fēng)格時不能很好地完成風(fēng)格化任務(wù),。所以,,他們提出了結(jié)合MRF和神經(jīng)網(wǎng)絡(luò)的方法。具體原理與GATYS L A等的原理相似,,不同點在于沒有利用特征圖之間的關(guān)系構(gòu)成Gram矩陣,,而是將特征圖生成了很多的局部圖像塊(local patch),利用MRF去尋找圖像塊與圖像塊之間關(guān)系的匹配,,這樣能更好地保留像素局部的信息,,可以完成真實照片作為目標(biāo)風(fēng)格圖像的風(fēng)格化任務(wù),如圖4所示,。這種方法的缺點在于當(dāng)內(nèi)容圖像和風(fēng)格圖像在結(jié)構(gòu)上存在很大差異時,,由于圖像塊之間難以匹配,可能導(dǎo)致風(fēng)格化任務(wù)失敗,。
考慮到文獻(xiàn)[10]實時性的問題,,LI C和WAND M又提出了一種離線訓(xùn)練的方式完成風(fēng)格化任務(wù)[11]。其核心思想依舊基于MRF,,通過對抗性訓(xùn)練一個前饋網(wǎng)絡(luò)來解決效率問題,。同樣,這種基于MRF的方法有利于保留紋理像素的局部細(xì)節(jié)信息,,所以對于復(fù)雜的紋理圖像,,這種方法的風(fēng)格化效果要比JOHNSON J等和ULYANOY D等要好。但是,,由于算法對圖像語義內(nèi)容和高層次特征上考慮的缺乏,,因此對于非紋理圖像(如臉部)作為目標(biāo)風(fēng)格圖像時往往得不到很好的結(jié)果,。
以上算法的很大限制就是往往只針對單一風(fēng)格進(jìn)行風(fēng)格化任務(wù),若希望得到不同的風(fēng)格化結(jié)果則需要多次運行算法或訓(xùn)練多個風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò),。于是研究人員開始對如何一次完成多種風(fēng)格的轉(zhuǎn)換任務(wù)這一問題進(jìn)行研究,。DUMOULIN V等[12]提出了一種基于條件實例規(guī)范化的方法去訓(xùn)練一個多風(fēng)格條件轉(zhuǎn)換網(wǎng)絡(luò),,具體做法是通過歸一化不同轉(zhuǎn)換參數(shù)的特征統(tǒng)計將內(nèi)容圖像轉(zhuǎn)換為不同的風(fēng)格,,來實現(xiàn)通過調(diào)整不同的轉(zhuǎn)換參數(shù)來模擬不同的風(fēng)格的目的。LI Y等[13]將初始化的噪聲圖像送入不同的子風(fēng)格網(wǎng)絡(luò)中得到相應(yīng)的風(fēng)格特征編碼,,然后結(jié)合內(nèi)容特征編碼和風(fēng)格特征編碼送入轉(zhuǎn)換網(wǎng)絡(luò)的上采樣部分完成風(fēng)格轉(zhuǎn)換,,不同的風(fēng)格可以通過選擇單元進(jìn)行選擇。ZHANG H和DANA K[14]將多種風(fēng)格送入預(yù)訓(xùn)練的VGG網(wǎng)絡(luò)中得到多尺度風(fēng)格特征,,然后將此風(fēng)格特征與來自編碼器中的不同層的多尺度內(nèi)容特征組合,,通過其所提出的激勵層,實現(xiàn)多風(fēng)格化,。
除了多風(fēng)格轉(zhuǎn)換,,一些研究人員還對任意風(fēng)格的轉(zhuǎn)換進(jìn)行了研究。HUANG X和BELONGIE S[15]提出了基于文獻(xiàn)[12]思想的另一種方法,,他們將條件實例規(guī)范化修改為自適應(yīng)實例歸一化,,與DUMOULIN V等[12]不同的是他們采用的風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)的下采樣部分包含了VGG網(wǎng)絡(luò)前幾層在內(nèi)且參數(shù)固定,這樣得到的特征激活值經(jīng)過自適應(yīng)實例歸一化處理后上采樣重構(gòu)后即可得到風(fēng)格化后的圖像,。此方法能夠完成實時的任意風(fēng)格化處理,,上采樣部分的網(wǎng)絡(luò)參數(shù)需要大量的風(fēng)格圖像和內(nèi)容圖像進(jìn)行訓(xùn)練。后來,,LI Y等[16]又對HUANG X和BELONGIE S[15]的方法進(jìn)行了改進(jìn),,他們采用相同的網(wǎng)絡(luò)結(jié)構(gòu),只是用白化著色變換代替了自適應(yīng)實例歸一化,,這是因為白化變換可以去除風(fēng)格相關(guān)信息并保留內(nèi)容結(jié)構(gòu),,這使得內(nèi)容圖像的特征信息能夠較好地傳遞,然后通過著色變換將風(fēng)格特征與內(nèi)容結(jié)合后,,經(jīng)過上采樣重構(gòu)圖像后得到的就是風(fēng)格化后的圖像,。
2 圖像風(fēng)格化的拓展
隨著圖像風(fēng)格化技術(shù)的成熟,一些研究人員發(fā)現(xiàn)圖像風(fēng)格化算法具備更廣泛的研究價值,,可以拓展到其他相關(guān)應(yīng)用,,以下僅簡要介紹圖像風(fēng)格化的幾個拓展方向。
2.1 視頻風(fēng)格化
視頻可以理解為一張張圖像經(jīng)過連續(xù)化處理得到的,,那么圖像的風(fēng)格化任務(wù)就可以拓展到視頻風(fēng)格化的領(lǐng)域來,。需要注意的是,視頻風(fēng)格化算法需要考慮相鄰視頻幀之間的平滑過渡,。第一個視頻風(fēng)格化算法由RUDER M等提出[17-18],,他們使用光流法計算光流信息,,并引入了時間一致性損失,他們的算法實現(xiàn)了平滑的視頻風(fēng)格化結(jié)果,。后來HUANG H等基于RUDER M等的思想提出一個離線訓(xùn)練的視頻風(fēng)格化模型[19],,具體做法是將兩個連續(xù)的幀畫面送入風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)中得到輸出,對輸出的結(jié)果直接計算時間一致性損失來約束兩幀之間的連續(xù)性,。
2.2 人臉風(fēng)格化
盡管之前的算法都能夠?qū)崿F(xiàn)風(fēng)格化任務(wù),,但是由于沒有單獨考慮頭部特征導(dǎo)致難以實現(xiàn)單獨針對頭部的風(fēng)格化效果。SELIM A等[20]在風(fēng)格化過程中增加了增益圖對空間配置進(jìn)行約束,,這使得面部的結(jié)構(gòu)特征在風(fēng)格化過程中得以保留,。ZHAO M T等[21]從由繪畫大師預(yù)先繪畫的肖像中提取筆觸信息,將筆觸信息傳遞給內(nèi)容圖像實現(xiàn)人臉風(fēng)格化方法,。WANG N N等[22]采用MRF的方法實現(xiàn)人臉風(fēng)格化,,他們的方法可以從訓(xùn)練數(shù)據(jù)集中為目標(biāo)圖像匹配到最合適的特征信息完成風(fēng)格化任務(wù)。
2.3 語義風(fēng)格化
語義風(fēng)格化是假設(shè)有兩張圖像,,兩張圖像有著相似的語義內(nèi)容但不同的風(fēng)格,,希望將一張圖像的風(fēng)格過渡到另一張圖像上。CHAMPANDARD A J[23]提出基于圖像塊匹配的算法[24]完成語義風(fēng)格化任務(wù),。CHEN Y L和HSU C T[25]提出了一種不同的思路,,他們約束空間對應(yīng)關(guān)系及風(fēng)格特征統(tǒng)計完成語義風(fēng)格化。
3 存在問題及今后研究方向
由于風(fēng)格這一概念的模糊性,,人們對于風(fēng)格化圖片效果的評估往往都是基于主觀意識,,風(fēng)格化的好與壞完全由個人主觀評判。由于人與人之間主觀意識上的差異,,導(dǎo)致對風(fēng)格化結(jié)果的評判也各不相同,。不同于分類任務(wù)[26],圖像風(fēng)格化沒有一個預(yù)期的標(biāo)準(zhǔn)來對風(fēng)格化結(jié)果進(jìn)行評判,,這是目前各種風(fēng)格化算法普遍面臨的問題,,如何找到一個標(biāo)準(zhǔn)的評估方法,將會是風(fēng)格化領(lǐng)域內(nèi)各研究人員今后的一個重要研究方向,。
雖然基于圖像優(yōu)化的在線風(fēng)格化算法(如GATYS L A等[7]和LI C,、WAND M等[10])可以較好地完成圖像風(fēng)格化的任務(wù),但是此類方法由于需要在線優(yōu)化,,難以保證風(fēng)格化的速度,。離線訓(xùn)練風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)的方式(如ULYANOV D等[8]和JOHNSON J等[9])可以避免此類速度問題,但訓(xùn)練一個單風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)不夠靈活,,因為多數(shù)情況下用戶需要多種風(fēng)格化方式,,而訓(xùn)練一個多風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)得到的效果卻又不如針對單一風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)的效果好,所以如何提出一種同時滿足轉(zhuǎn)換速度和轉(zhuǎn)換效果的方法也是今后研究的一個重要方向,。
4 結(jié)論
本文主要介紹了基于深度學(xué)習(xí)的圖像風(fēng)格化方法,,并對相應(yīng)算法的優(yōu)缺點和今后的研究發(fā)展方向進(jìn)行了簡要的分析,。通過研究發(fā)現(xiàn),盡管傳統(tǒng)方法能夠完成風(fēng)格化任務(wù),,但是由于其局限性,,不論是在合成速度方面還是圖像效果方面都不是很理想。隨著深度學(xué)習(xí)的介入,,傳統(tǒng)處理圖像的方法得到了更好的發(fā)揮,,圖像的特征信息也得到了充分利用,可以說神經(jīng)網(wǎng)絡(luò)使人們對圖像風(fēng)格化這一領(lǐng)域的研究向前邁了一大步,。雖然目前圖像風(fēng)格化領(lǐng)域有了一些進(jìn)展,,可以實現(xiàn)一些簡單的應(yīng)用,,但距離風(fēng)格化技術(shù)的全面成熟仍需要不斷的發(fā)展改進(jìn),。總而言之,,圖像風(fēng)格化作為一個具有廣泛商業(yè)用途,,充滿吸引力和挑戰(zhàn)性的方向,有重要的研究意義等著研究人員去發(fā)展創(chuàng)新,。
參考文獻(xiàn)
[1] GOOCH B,,GOOCH A.Non-photorealistic rendering[M].Natick,MA,,USA:A.K.Peters,,Ltd.,2001.
[2] WANG B,,WANG W P,,YANG H P,et al.Efficient examplebased painting and synthesis of 2D directional texture[J].IEEE Transactions on Visualization and Computer Graphics,,2004,,10(3):266-277.
[3] HERTZMANN A,JACOBS C E,,OLIVER N,,et al.Image analogies[C].Proceedings of the 28th Annual Conference On Computer Graphics And Interactive Techniques.ACM,2001:327-340.
[4] FRIGO O,,SABATER N,,DELON J,et al.Split and match:Example-based adaptive patch sampling for unsupervised style transfer[C].IEEE Conference on Computer Vision and PatternRecognition,,2016:2338-2351.
[5] 徐中輝,,呂維帥.基于卷積神經(jīng)網(wǎng)絡(luò)的圖像著色[J].電子技術(shù)應(yīng)用,2018,,44(10):19-22.
[6] GATYS L A,,ECKER A S,,BETHGE M.Texture synthesis using convolutional neural networks[C].International Conference on Neural Information Processing Systems.MIT Press,2015.
[7] GATYS L A,,ECKER A S,,BETHGE M.A neural algorithm of artistic style[J].arXiv:1508,06576[cs.CV].
[8] ULYANOV D,,LEBEDEV V,,VEDALDI A,et al.Texture networks:feed-forward synthesis of textures and stylized images[C].International Conference on Machine Learning,,2016:1349-1357.
[9] JOHNSON J,,ALAHI A,Li Feifei.Perceptual losses for real-time style transfer and super-resolution[C].European Conference on Computer Vision,,2016:694-711.
[10] LI C,,WAND M.Combining markov random fields and convolutional neural networks for image synthesis[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:2479-2486.
[11] LI C,,WAND M.Precomputed real-time texture synthesis with markovian generative adversarial networks[C].European Conference on Computer Vision,,2016:702-716.
[12] DUMOULIN V,SHLENS J,,KUDLUR M.A learned representation for artistic style[C].International Conference on Learning Representations,,2017.
[13] LI Y,CHEN F,,YANG J,,et al.Diversified texture synthesis with feed-forward networks[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017:3920-3928.
[14] ZHANG H,,DANA K.Multi-style generative network for real-time transfer[J].arXiv:1703.06953.
[15] HUANG X,,BELONGIE S.Arbitrary style transfer in real-time with adaptive instance normalization[C].Proceedings of the IEEE International Conference on Computer Vision,2017:1501-1510.
[16] LI Y,,F(xiàn)ANG C,,YANG J,et al.Universal style transfer via feature transforms[C].Advances in Neural Information Processing Systems,,2017:385-395.
[17] RUDER M,,DOSOVITSKIY A,BROX T.Artistic style transfer for videos[C].German Conference on Pattern Recognition,,2016:26-36.
[18] RUDER M,,DOSOVITSKLY A,BROX T.Artistic style transfer for videos and spherical images[J].International Journal of Computer Vision,,2018,,126:1199.
[19] HUANG H,WANG H,,LUO W,,et al.Real-time neural style transfer for videos[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,,2017:783-791.
[20] SELIM A,ELGHARIB M,,DOYLE L.Painting style transfer for head portraits using convolutional neural networks[J].ACM Transactions on Graphics,,2016,35(4):129.
[21] ZHAO M T,,ZHU S C.Portrait painting using active templates[C].ACM SIGG RAPH/Eurographics Symposium on Non-Photorealistic Animation and Rendering,,2011:117-124.
[22] WANG N N,TAO D C,,GAO X B,,et al.Transductive face sketch-photo synthesis[J].IEEE Transactions on Neural Networks and Learning Systems,2013,,24(9):1364-1376.
[23] CHAMPANDARD A J.Semantic style transfer and turning two-bit doodles into fine artworks[J].arXiv:1603:01768[cs.CV].
[24] LI C,,WAND M.Combining markov random fields and convolutional neural networks for image synthesis[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:2479-2486.
[25] CHEN Y L,,HSU C T.Towards deep style transfer:A content-aware perspective[C].Proceedings of the British Machine Vision Conference,,2016.
[26] 許少尉,陳思宇.基于深度學(xué)習(xí)的圖像分類方法[J].電子技術(shù)應(yīng)用,,2018,44(6):116-119.
[27] 鄧盈盈,,唐帆,,董未名.圖像藝術(shù)風(fēng)格化的研究現(xiàn)狀[J].南京信息工程大學(xué)學(xué)報(自然科學(xué)版),2017(6):31-36.
[28] JING Y,,YANG Y,,F(xiàn)ENG Z,et al.Neural style transfer:a review[J].arXiv:1705.04D58[cs.CV].
作者信息:
黃海新,,梁志旭,,張 東
(沈陽理工大學(xué) 自動化與電氣工程學(xué)院,遼寧 沈陽110159)