文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2021.05.010
引用格式: 胡茂林,李金龍,,胡濤. 基于距離正則化的單視圖三維重建[J].信息技術(shù)與網(wǎng)絡安全,,2021,,40(5):56-61.
0 引言
三維重建是指給定一張或多張RGB圖像的情況下重建該RGB圖像中物體的三維形狀,。三維重建已經(jīng)被探索了幾十年,它是計算機視覺領(lǐng)域一個基礎性任務之一,,擁有大量應用場景,,例如,機器人導航,、虛擬現(xiàn)實,、計算機輔助設計、無人駕駛,、醫(yī)學圖像處理等領(lǐng)域,。三維重建是一個非常復雜的過程,從二維圖像恢復三維形狀,,恢復缺失的信息往往具有歧義性,。為克服三維形狀的歧義性,三維重建方法通常需要結(jié)合圖像信息和先驗形狀知識,。
隨著大型數(shù)據(jù)集的出現(xiàn),,數(shù)據(jù)驅(qū)動的方法一定程度上克服歧義性問題,數(shù)據(jù)集提供三維形狀先驗知識,。三維重建方法利用CNN在大型數(shù)據(jù)集進行預測物體三維形狀取得了巨大的成功,,預測的三維形狀可以被歸結(jié)為三類:體素網(wǎng)格表示[1]、點云表示[2],、網(wǎng)格表示[3],。近年來,大量基于深度學習的方法被提出來進行三維重建,,例如,,3D-R2N2[4]、Pix2Vox,、PSGN[2]和AttSets[5],。CHOY C B[4]率先提出使用長短期記憶網(wǎng)絡(Long Short Term Memory,LSTM)[6]來融合不同視角圖像的信息,,一步一步重建三維物體的形狀,。PSGN使用點云表示三維形狀進行單視圖三維重建,。Pix2Vox++直接使用CNN融合不同視角圖像信息來進行三維重建。AttSets使用一個注意力聚合模塊去預測一個權(quán)重矩陣作為輸入特征的注意力得分,。
本文詳細內(nèi)容請下載:http://forexkbc.com/resource/share/2000003552
作者信息:
胡茂林,,李金龍,胡 濤
(中國科學技術(shù)大學 計算機科學與技術(shù)學院,,安徽 合肥230027)