生成對抗網(wǎng)絡(luò)(GAN)可以產(chǎn)生復(fù)雜且逼真到令人驚訝的圖像,但它會(huì)忽略可能存在于場景中的多個(gè)實(shí)體間的顯式空間交互,。本文提出以 GAN 為框架,、將目標(biāo)組合建模為自洽的組合-分解網(wǎng)絡(luò)。該模型以其邊緣分布的目標(biāo)圖像為條件,,通過明確學(xué)習(xí)可能的交互,在聯(lián)合分布中產(chǎn)生逼真的圖像。實(shí)驗(yàn)結(jié)果表明,,訓(xùn)練后的模型可以在作為輸入的兩個(gè)給定的目標(biāo)域間捕獲潛在的交互關(guān)系,并以合理的方式在測試時(shí)輸出組合場景的新的實(shí)例,。
1. 引言
生成對抗網(wǎng)絡(luò)(GAN)是在給定輸入的條件下生成圖像的一種強(qiáng)大方法,。輸入的格式可以是圖像 [9,37,,16,,2,29,,21],、文本短語 [33,24,,23,,11] 以及類標(biāo)簽布局 [19,20,,1],。大多數(shù) GAN 實(shí)例的目標(biāo)是學(xué)習(xí)一種可以將源分布中的給定樣例轉(zhuǎn)換為輸出分布中生成的樣本的映射。這主要涉及到單個(gè)目標(biāo)的轉(zhuǎn)換(從蘋果到橙子,、從馬到斑馬或從標(biāo)簽到圖像等),,或改變輸入圖像的樣式和紋理(從白天到夜晚等)。但是,,這些直接的以輸入為中心的轉(zhuǎn)換無法直觀體現(xiàn)這樣一個(gè)事實(shí):自然圖像是 3D 視覺世界中交互的多個(gè)對象組成的 2D 投影,。本文探索了組合在學(xué)習(xí)函數(shù)中所起到的作用,該函數(shù)將從邊緣分布(如椅子和桌子)采集到的目標(biāo)不同的圖像樣本映射到捕獲其聯(lián)合分布的組合樣本(桌椅)中,。
由于不同對象間在相對縮放,、空間布局、遮擋以及視角變換等方面可能存在復(fù)雜的交互關(guān)系,,在自然圖像中對組合建模是一個(gè)極具挑戰(zhàn)的問題,。近期的研究在 GAN 框架 [15] 中使用空間變換網(wǎng)絡(luò) [10],通過在幾何扭曲參數(shù)空間中進(jìn)行操作,,找到前景對象的幾何糾正來分解該問題,。但這種方法僅限于固定的背景,,也并未考慮真實(shí)世界中更加復(fù)雜的交互關(guān)系。近期的另一項(xiàng)研究是以文本和場景圖為條件生成場景的,,這項(xiàng)研究明確地對對象和其交互關(guān)系進(jìn)行了推理,。
我們開發(fā)的這種方法可以對圖像中的目標(biāo)組合建模。我們將組合兩個(gè)輸入對象圖像的任務(wù)視為生成一個(gè)聯(lián)合圖像,,該圖像可以捕獲這兩個(gè)對象在自然圖像中的聯(lián)合交互關(guān)系,。例如,給定椅子和桌子的圖像,,可以產(chǎn)生一張包含相同的成對桌椅的自然交互的圖像,。一個(gè)可以正確捕捉組合特征的模型需要對遮擋排序(如桌子在椅子前面)和空間布局(如椅子在桌子內(nèi)滑動(dòng))有所了解。據(jù)我們所知,,我們是第一個(gè)在沒有任何清晰的關(guān)于目標(biāo)布局的先前顯式信息的情況下,,在圖像條件空間中解決該問題的組。
我們的工作重點(diǎn)是將兩個(gè)目標(biāo)組合的問題重構(gòu)為先組合好給定的目標(biāo)圖像以生成可以對目標(biāo)交互關(guān)系建模的聯(lián)合圖像,,再將聯(lián)合圖像分解,,以獲得單個(gè)目標(biāo)。這樣的重構(gòu)可以通過組合-分解網(wǎng)絡(luò)加強(qiáng)自洽約束 [37],。但在一些場景中無法用組合合成圖像對相同的目標(biāo)實(shí)例的成對樣例進(jìn)行訪問,,例如,要根據(jù)給定桌子和椅子的圖像生成聯(lián)合圖像,,除了指定的桌子外我們可能沒有任何有關(guān)指定椅子的樣例,,但我們可能有其他桌子和椅子的圖像。我們在組合分解層添加了修復(fù)網(wǎng)絡(luò),,以處理這樣的不配對情況,。
通過定性和定量實(shí)驗(yàn),我們在兩個(gè)訓(xùn)練場景中評(píng)估了我們提出的 Compositional-GAN 方法:(a)配對:當(dāng)我們有權(quán)用相關(guān)組合圖像訪問單個(gè)對象圖像的成對樣例時(shí),;(b)未配對:當(dāng)數(shù)據(jù)集源于聯(lián)合分布且沒有與來自邊緣分布的任何一張圖進(jìn)行配對時(shí)。
聯(lián)合 GAN 代碼和數(shù)據(jù)集請參閱:https://github.com/azadis/ CompositionalGAN
論文:Compositional GAN: Learning Conditional Image Composition
論文鏈接:https://arxiv.org/pdf/1807.07560v1.pdf
生成對抗網(wǎng)絡(luò)(GAN)可以產(chǎn)生復(fù)雜且逼真到令人驚訝的圖像,,但它一般會(huì)從單個(gè)潛在源采樣建模,,從而忽略可能存在于場景中的多個(gè)實(shí)體間的顯式空間交互。在相對縮放,、空間布局,、遮擋或視角轉(zhuǎn)移等情況下在不同目標(biāo)間捕獲復(fù)雜的交互關(guān)系是極具挑戰(zhàn)的問題。本文提出以 GAN 為框架,、將目標(biāo)組合建模為自洽的組合-分解網(wǎng)絡(luò),。該模型以其邊緣分布的目標(biāo)圖像為條件,通過明確學(xué)習(xí)可能的交互,,在聯(lián)合分布中產(chǎn)生逼真的圖像,。我們在對單獨(dú)的目標(biāo)進(jìn)行配對和不配對的兩個(gè)場景中通過定性實(shí)驗(yàn)和用戶評(píng)估對模型進(jìn)行了評(píng)估,,在訓(xùn)練過程中也給出了聯(lián)合場景。結(jié)果表明,,訓(xùn)練后的模型可以在作為輸入的兩個(gè)給定的目標(biāo)域間捕獲潛在的交互關(guān)系,,并以合理的方式在測試時(shí)輸出組合場景的新的實(shí)例。
圖 1:組合 GAN 對配對和未配對訓(xùn)練數(shù)據(jù)訓(xùn)練得到的模型,。黃色框指的是用于在給定第二對象被遮擋的情況下合成第一對象的新視角的 RAFN 步驟,,該過程僅用于成對數(shù)據(jù)的訓(xùn)練過程。橙色框表示用未配對數(shù)據(jù)修復(fù)輸入分割的過程,。對配對和未配對的情況而言模型的剩余部分相似,,都包括 STN,再之后是自洽組合-分解網(wǎng)絡(luò),。
圖 2:使用配對或未配對數(shù)據(jù)訓(xùn)練桌椅組合任務(wù)的測試結(jié)果,。「NN」代表成對訓(xùn)練集中最接近的圖像,,「NoInpaint」表示在沒有修復(fù)網(wǎng)絡(luò)的情況下未配對模型的結(jié)果,。在配對和未配對情況中,c? before 和 c? after 分別表示在推理細(xì)化網(wǎng)絡(luò)之前和之后的生成器的結(jié)果,。c? after s 表示細(xì)化步驟后的有遮掩的轉(zhuǎn)置輸入的總和,。
4 實(shí)驗(yàn)
圖 3:用配對或未配對數(shù)據(jù)對籃子-瓶子組合任務(wù)訓(xùn)練后的測試結(jié)果?!窷N」表示在配對的訓(xùn)練集中最近的圖像,,「NoInpaint」表示在沒有修復(fù)網(wǎng)絡(luò)的情況下用未配對數(shù)據(jù)訓(xùn)練得到的模型。在配對和未配對情況中,,c? before 和 c? after 分別表示在推理細(xì)化網(wǎng)絡(luò)之前和之后生成器的輸出結(jié)果,。此外,c? after s 表示細(xì)化步驟之后遮掩情況下轉(zhuǎn)置輸入的總和,。
表 1:AMT 用戶評(píng)估比較我們提出的模型的不同組件,。第一列表示在未配對場景中推理(未細(xì)化)期間要細(xì)化的圖像的偏好百分比。第二列表示與未配對情況相比,,通過配對數(shù)據(jù)訓(xùn)練策略生成的細(xì)化圖像的偏好百分比,。
圖 4:面部-太陽鏡組合任務(wù)的測試樣例。前兩行表示輸入的太陽鏡圖像和面部圖像,,第三行和第四行分別表示用配對和未配對數(shù)據(jù)訓(xùn)練的組合 GAN 的輸出,。最后一行表示 ST-GAN 模型生成的圖像。