引用格式:吳孔賢,,鄭明魁. 基于邊緣增強(qiáng)和多尺度時(shí)空重組的視頻預(yù)測(cè)方法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,,2025,44(3):22-26.
引言
視頻預(yù)測(cè)[1]旨在通過(guò)分析現(xiàn)有的視頻幀來(lái)預(yù)測(cè)未來(lái)幀的內(nèi)容,是一項(xiàng)逐像素的預(yù)測(cè)任務(wù),。視頻預(yù)測(cè)對(duì)于自動(dòng)駕駛[2],、動(dòng)作預(yù)測(cè)[3]、天氣預(yù)測(cè)[4]等領(lǐng)域具有重要研究意義,。與圖像分類(lèi)和目標(biāo)檢測(cè)等傳統(tǒng)的計(jì)算機(jī)視覺(jué)任務(wù)不同,,視頻預(yù)測(cè)要求模型在時(shí)間和空間維度上雙重建模,從而捕捉到場(chǎng)景的動(dòng)態(tài)變化和長(zhǎng)期的依賴(lài)關(guān)系,。然而,,視頻中物體突然變化的運(yùn)動(dòng)軌跡以及復(fù)雜多樣的背景信息使得預(yù)測(cè)任務(wù)變得困難。
以往的視頻預(yù)測(cè)模型主要是基于卷積長(zhǎng)短期記憶網(wǎng)絡(luò)(Convolutional Long Short-Term Memory, ConvLSTM)[4]及其一系列變體來(lái)建模時(shí)空特性,。ConvLSTM通過(guò)在長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)單元中引入卷積運(yùn)算,有效地捕捉了時(shí)空數(shù)據(jù)中的局部空間特征和全局時(shí)間動(dòng)態(tài),。其變體PredRNN[5] (Predictive RNN) 提出了一種新的時(shí)空記憶單元,并將狀態(tài)信息沿之字形進(jìn)行水平和垂直方向的傳遞和更新,。PredRNN++[6]在PredRNN基礎(chǔ)上進(jìn)行改進(jìn),,提出了因果長(zhǎng)短時(shí)記憶單元(Causal LSTM)和梯度高速公路單元(Gradient Highway Unit, GHU)來(lái)對(duì)長(zhǎng)短期時(shí)空依賴(lài)進(jìn)行自適應(yīng)學(xué)習(xí),并緩解梯度消失問(wèn)題,。同樣采用此遞歸循環(huán)策略來(lái)進(jìn)行模型推理的還有MIM (Memory In Memory)[7] 、 E3D-LSTM(Eidetic 3D LSTM)[8],、MAU (Motion-Aware Unit)[9]、MotionRNN (Motion Recurrent Neural Network)[10] 等,。這些遞歸模型通過(guò)學(xué)習(xí)歷史信息的隱藏狀態(tài)來(lái)生成預(yù)測(cè)幀,,當(dāng)前幀的生成依賴(lài)于上一幀的預(yù)測(cè)幀,。然而,隨著預(yù)測(cè)幀序列的長(zhǎng)度增加,,早期預(yù)測(cè)幀中的誤差會(huì)被逐步傳遞和累積,導(dǎo)致后續(xù)預(yù)測(cè)幀的質(zhì)量和準(zhǔn)確性逐漸下降,。
近年來(lái)的方法中,SimVP(Simpler yet better Video Prediction)[11]打破了這種依靠循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)堆疊的單幀輸入單幀輸出架構(gòu)的局限性,。該方法完全依賴(lài)卷積來(lái)建模時(shí)空相關(guān)性,,采用多幀輸入多幀輸出(MIMO)的架構(gòu),將所有輸入一次性輸入到編碼器中,,并從解碼器輸出所有預(yù)測(cè)幀,。后續(xù)相關(guān)工作進(jìn)一步改進(jìn)了時(shí)間注意力單元(Temporal Attention Unit,TAU)[12],,專(zhuān)注于幀內(nèi)和幀間相關(guān)性。朱俊宏等[13]也提出了一種卷積與內(nèi)卷算子結(jié)合的中間模塊,,讓模型擁有多個(gè)不同大小的感受野,,來(lái)提高模型的準(zhǔn)確性。李衛(wèi)軍等[14]通過(guò)建立門(mén)控時(shí)空注意力機(jī)制來(lái)學(xué)習(xí)時(shí)空變化特征,,取得一定效果,。雖然此類(lèi)方法取得了一定研究進(jìn)展,但仍然存在一些需要改進(jìn)的問(wèn)題,。例如,,此類(lèi)方法都采用編碼器、翻譯器,、解碼器結(jié)構(gòu),,將高維的視頻序列通過(guò)卷積下采樣轉(zhuǎn)換為低維的潛在表示,再經(jīng)過(guò)翻譯器進(jìn)行時(shí)空的學(xué)習(xí),,最后由解碼器完成對(duì)視頻序列的預(yù)測(cè),。此過(guò)程通過(guò)跨步卷積下采樣實(shí)現(xiàn)降維,會(huì)造成像素的丟失,,導(dǎo)致圖像細(xì)節(jié)被忽略,,從而導(dǎo)致預(yù)測(cè)幀細(xì)節(jié)不夠清晰的問(wèn)題。其次,,翻譯器在捕捉時(shí)空信息方面的不足是導(dǎo)致視頻預(yù)測(cè)效果不理想的關(guān)鍵因素,。
針對(duì)以上問(wèn)題,本文提出了基于邊緣增強(qiáng)和多尺度時(shí)空重組的視頻預(yù)測(cè)方法,,具體貢獻(xiàn)如下:
(1)引入小波變換分離高低頻特征并實(shí)現(xiàn)下采樣操作,,避免了卷積下采樣造成的像素信息丟失的問(wèn)題,有效地保留了圖像的細(xì)節(jié)特征,。
(2)設(shè)計(jì)了一種高頻邊緣增強(qiáng)模塊,,通過(guò)一階 Sobel 卷積算子提取垂直和水平邊緣信息,并結(jié)合小核卷積對(duì)邊緣特征進(jìn)行精細(xì)化增強(qiáng)處理,,提升模型對(duì)高頻信息中細(xì)節(jié)和紋理特征的敏感性,。
(3)設(shè)計(jì)了一種多尺度時(shí)空重組模塊,采用不同尺度的卷積核對(duì)視頻的時(shí)空信息進(jìn)行提取,,并通過(guò)交叉連接進(jìn)行交互式特征重組,,強(qiáng)化了不同感受野下時(shí)空信息的融合能力,實(shí)現(xiàn)更豐富的時(shí)空特征表達(dá),。
本文詳細(xì)內(nèi)容請(qǐng)下載:
http://forexkbc.com/resource/share/2000006373
作者信息:
吳孔賢,,鄭明魁
(福州大學(xué) 物理與信息工程學(xué)院,福建福州350108)