《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 人工智能 > 設(shè)計(jì)應(yīng)用 > 基于邊緣增強(qiáng)和多尺度時(shí)空重組的視頻預(yù)測(cè)方法
基于邊緣增強(qiáng)和多尺度時(shí)空重組的視頻預(yù)測(cè)方法
網(wǎng)絡(luò)安全與數(shù)據(jù)治理
吳孔賢,,鄭明魁
福州大學(xué) 物理與信息工程學(xué)院
摘要: 針對(duì)當(dāng)前視頻預(yù)測(cè)算法在生成視頻幀時(shí)細(xì)節(jié)模糊,、精度較低的問(wèn)題,提出了一種基于邊緣增強(qiáng)和多尺度時(shí)空重組的視頻預(yù)測(cè)方法,。首先通過(guò)頻域分離技術(shù),將視頻幀劃分為高頻信息和低頻信息,,并對(duì)二者分別進(jìn)行針對(duì)性處理,。其次,設(shè)計(jì)了高頻邊緣增強(qiáng)模塊,,專(zhuān)注于高頻邊緣特征的學(xué)習(xí)與優(yōu)化,。同時(shí),引入多尺度時(shí)空重組模塊,,針對(duì)低頻結(jié)構(gòu)信息,,深入挖掘其時(shí)空依賴(lài)性。最終將高低頻特征進(jìn)行充分融合,,用以生成高質(zhì)量的預(yù)測(cè)視頻幀,。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有先進(jìn)算法相比,,該方法在預(yù)測(cè)性能上實(shí)現(xiàn)了提升,,充分驗(yàn)證了其有效性。
中圖分類(lèi)號(hào):TP181文獻(xiàn)標(biāo)識(shí)碼:ADOI:10.19358/j.issn.2097-1788.2025.03.004
引用格式:吳孔賢,,鄭明魁. 基于邊緣增強(qiáng)和多尺度時(shí)空重組的視頻預(yù)測(cè)方法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,,2025,44(3):22-26.
A video prediction method based on edge enhancement and multi-scale spatio-temporal reorganisation
Wu Kongxian,,Zheng Mingkui
School of Physics and Information Engineering,,F(xiàn)uzhou University
Abstract: Aiming at the current video prediction algorithms with blurred details and low accuracy in generating video frames, a video prediction method based on edge enhancement and multiscale spatio-temporal reorganisation is proposed. Firstly, the video frame is divided into high-frequency information and low-frequency information through the frequency domain separation technique, and the two are targeted separately. Secondly, a high-frequency edge enhancement module is designed to focus on the learning and optimisation of high-frequency edge features. At the same time, a multi-scale spatio-temporal restructuring module is introduced to target the low-frequency structural information and deeply excavate its spatio-temporal dependence. Ultimately, the high and low frequency features are fully fused and used to generate high-quality predictive video frames. The experimental results show that compared with the existing advanced algorithms, the proposed method achieves an improvement in prediction performance, which fully validates its effectiveness.
Key words : video prediction; frequency domain separation; edge enhancement; multi-scale spatio-temporal reorganisation

引言

視頻預(yù)測(cè)[1]旨在通過(guò)分析現(xiàn)有的視頻幀來(lái)預(yù)測(cè)未來(lái)幀的內(nèi)容,是一項(xiàng)逐像素的預(yù)測(cè)任務(wù),。視頻預(yù)測(cè)對(duì)于自動(dòng)駕駛[2],、動(dòng)作預(yù)測(cè)[3]、天氣預(yù)測(cè)[4]等領(lǐng)域具有重要研究意義,。與圖像分類(lèi)和目標(biāo)檢測(cè)等傳統(tǒng)的計(jì)算機(jī)視覺(jué)任務(wù)不同,,視頻預(yù)測(cè)要求模型在時(shí)間和空間維度上雙重建模,從而捕捉到場(chǎng)景的動(dòng)態(tài)變化和長(zhǎng)期的依賴(lài)關(guān)系,。然而,,視頻中物體突然變化的運(yùn)動(dòng)軌跡以及復(fù)雜多樣的背景信息使得預(yù)測(cè)任務(wù)變得困難。

以往的視頻預(yù)測(cè)模型主要是基于卷積長(zhǎng)短期記憶網(wǎng)絡(luò)(Convolutional Long Short-Term Memory, ConvLSTM)[4]及其一系列變體來(lái)建模時(shí)空特性,。ConvLSTM通過(guò)在長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)單元中引入卷積運(yùn)算,有效地捕捉了時(shí)空數(shù)據(jù)中的局部空間特征和全局時(shí)間動(dòng)態(tài),。其變體PredRNN[5] (Predictive RNN) 提出了一種新的時(shí)空記憶單元,并將狀態(tài)信息沿之字形進(jìn)行水平和垂直方向的傳遞和更新,。PredRNN++[6]在PredRNN基礎(chǔ)上進(jìn)行改進(jìn),,提出了因果長(zhǎng)短時(shí)記憶單元(Causal LSTM)和梯度高速公路單元(Gradient Highway Unit, GHU)來(lái)對(duì)長(zhǎng)短期時(shí)空依賴(lài)進(jìn)行自適應(yīng)學(xué)習(xí),并緩解梯度消失問(wèn)題,。同樣采用此遞歸循環(huán)策略來(lái)進(jìn)行模型推理的還有MIM (Memory In Memory)[7] 、 E3D-LSTM(Eidetic 3D LSTM)[8],、MAU (Motion-Aware Unit)[9]、MotionRNN (Motion Recurrent Neural Network)[10] 等,。這些遞歸模型通過(guò)學(xué)習(xí)歷史信息的隱藏狀態(tài)來(lái)生成預(yù)測(cè)幀,,當(dāng)前幀的生成依賴(lài)于上一幀的預(yù)測(cè)幀,。然而,隨著預(yù)測(cè)幀序列的長(zhǎng)度增加,,早期預(yù)測(cè)幀中的誤差會(huì)被逐步傳遞和累積,導(dǎo)致后續(xù)預(yù)測(cè)幀的質(zhì)量和準(zhǔn)確性逐漸下降,。

近年來(lái)的方法中,SimVP(Simpler yet better Video Prediction)[11]打破了這種依靠循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)堆疊的單幀輸入單幀輸出架構(gòu)的局限性,。該方法完全依賴(lài)卷積來(lái)建模時(shí)空相關(guān)性,,采用多幀輸入多幀輸出(MIMO)的架構(gòu),將所有輸入一次性輸入到編碼器中,,并從解碼器輸出所有預(yù)測(cè)幀,。后續(xù)相關(guān)工作進(jìn)一步改進(jìn)了時(shí)間注意力單元(Temporal Attention Unit,TAU)[12],,專(zhuān)注于幀內(nèi)和幀間相關(guān)性。朱俊宏等[13]也提出了一種卷積與內(nèi)卷算子結(jié)合的中間模塊,,讓模型擁有多個(gè)不同大小的感受野,,來(lái)提高模型的準(zhǔn)確性。李衛(wèi)軍等[14]通過(guò)建立門(mén)控時(shí)空注意力機(jī)制來(lái)學(xué)習(xí)時(shí)空變化特征,,取得一定效果,。雖然此類(lèi)方法取得了一定研究進(jìn)展,但仍然存在一些需要改進(jìn)的問(wèn)題,。例如,,此類(lèi)方法都采用編碼器、翻譯器,、解碼器結(jié)構(gòu),,將高維的視頻序列通過(guò)卷積下采樣轉(zhuǎn)換為低維的潛在表示,再經(jīng)過(guò)翻譯器進(jìn)行時(shí)空的學(xué)習(xí),,最后由解碼器完成對(duì)視頻序列的預(yù)測(cè),。此過(guò)程通過(guò)跨步卷積下采樣實(shí)現(xiàn)降維,會(huì)造成像素的丟失,,導(dǎo)致圖像細(xì)節(jié)被忽略,,從而導(dǎo)致預(yù)測(cè)幀細(xì)節(jié)不夠清晰的問(wèn)題。其次,,翻譯器在捕捉時(shí)空信息方面的不足是導(dǎo)致視頻預(yù)測(cè)效果不理想的關(guān)鍵因素,。

針對(duì)以上問(wèn)題,本文提出了基于邊緣增強(qiáng)多尺度時(shí)空重組的視頻預(yù)測(cè)方法,,具體貢獻(xiàn)如下:

(1)引入小波變換分離高低頻特征并實(shí)現(xiàn)下采樣操作,,避免了卷積下采樣造成的像素信息丟失的問(wèn)題,有效地保留了圖像的細(xì)節(jié)特征,。

(2)設(shè)計(jì)了一種高頻邊緣增強(qiáng)模塊,,通過(guò)一階 Sobel 卷積算子提取垂直和水平邊緣信息,并結(jié)合小核卷積對(duì)邊緣特征進(jìn)行精細(xì)化增強(qiáng)處理,,提升模型對(duì)高頻信息中細(xì)節(jié)和紋理特征的敏感性,。

(3)設(shè)計(jì)了一種多尺度時(shí)空重組模塊,采用不同尺度的卷積核對(duì)視頻的時(shí)空信息進(jìn)行提取,,并通過(guò)交叉連接進(jìn)行交互式特征重組,,強(qiáng)化了不同感受野下時(shí)空信息的融合能力,實(shí)現(xiàn)更豐富的時(shí)空特征表達(dá),。


本文詳細(xì)內(nèi)容請(qǐng)下載:

http://forexkbc.com/resource/share/2000006373


作者信息:

吳孔賢,,鄭明魁

(福州大學(xué) 物理與信息工程學(xué)院,福建福州350108)


Magazine.Subscription.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載,。