基于Transformer殘差網(wǎng)絡(luò)的事件重建算法-AET-電子技術(shù)應(yīng)用

基于Transformer殘差網(wǎng)絡(luò)的事件重建算法

電子技術(shù)應(yīng)用

王立喜1，劉云平1，湯琴琴2，李家豪1

1.南京信息工程大學(xué) 自動化學(xué)院；2.無錫學(xué)院軌道交通學(xué)院

摘要： 目前的人工視覺系統(tǒng)仍然無法處理一些涉及高速運動場景和高動態(tài)范圍的真實世界場景。事件相機因其低延遲和高動態(tài)范圍捕捉高速運動的優(yōu)勢具有消除上述問題的能力。然而，由于事件數(shù)據(jù)的高度稀疏和變化性質(zhì)，在保證其快速性的同時將事件重建為視頻仍然具有挑戰(zhàn)性。因此提出了一種基于Transformer殘差網(wǎng)絡(luò)和光流估計的事件流重建算法，通過光流估計和事件重建的聯(lián)合訓(xùn)練，實現(xiàn)自監(jiān)督的重建過程，并引入去模糊預(yù)處理和亞像素上采樣模塊來提高重建質(zhì)量。實驗結(jié)果表明，在公開數(shù)據(jù)集上，提出的方法可以有效提高事件流的重建效果。

關(guān)鍵詞： 事件相機視頻重建深度學(xué)習(xí) 光流估計

中圖分類號：TP193.41 文獻標(biāo)志碼：A DOI: 10.16157/j.issn.0258-7998.245292
中文引用格式： 王立喜，劉云平，湯琴琴，等. 基于Transformer殘差網(wǎng)絡(luò)的事件重建算法[J]. 電子技術(shù)應(yīng)用，2024，50(11)：28-34.
英文引用格式： Wang Lixi，Liu Yunping，Tang Qinqin，et al. Event reconstruction algorithm based on Transformer residual network[J]. Application of Electronic Technique，2024，50(11)：28-34.

Event reconstruction algorithm based on Transformer residual network

Wang Lixi1，Liu Yunping1，Tang Qinqin2，Li Jiahao1

(1.School of Automation， Nanjing University of Information Science & Technology； 2.School of Rail Transportation， Wuxi University

Abstract： Current artificial visual systems still struggle to handle real-world scenarios involving high-speed motion and high dynamic range scenes. Event cameras have the capability to address these challenges due to their low latency and high dynamic range for capturing fast-moving objects. However, reconstructing events into videos while maintaining their speed presents a challenge due to the highly sparse and dynamic nature of event data. Therefore, this paper proposes an event stream reconstruction algorithm based on Transformer residual networks and optical flow estimation. By jointly training optical flow estimation and event reconstruction, a self-supervised reconstruction process has been achieved. Additionally, deblurring preprocessing and subpixel upsampling modules are introduced to enhance the quality of reconstruction. Experimental results demonstrate that the proposed approach effectively improves the reconstruction quality of event streams on public datasets.

Key words : event camera；video reconstruction；deep learning；optical flow estimation

引言

在過去的十年里，由于現(xiàn)代深度學(xué)習(xí)方法和神經(jīng)體系結(jié)構(gòu)優(yōu)化，計算機視覺領(lǐng)域在許多不同的任務(wù)中取得了驚人的進步。但與生物系統(tǒng)相比，目前的人工視覺系統(tǒng)仍然無法處理一些涉及高速運動場景和高動態(tài)范圍的真實世界場景。這是因為傳統(tǒng)的基于幀的傳感器存在諸如運動模糊和低動態(tài)范圍等問題。事件相機具有消除上述問題的能力。它輸出異步像素且彼此獨立工作[1]。每個像素對局部相對光強度變化很敏感，當(dāng)這種變化超過閾值時，它們會連續(xù)產(chǎn)生稱為事件的信號。因其高動態(tài)范圍、高時間分辨率和低延遲的優(yōu)勢，事件數(shù)據(jù)已越來越多地被納入各種識別任務(wù)中，包括目標(biāo)檢測[2]、語義分割[3]等。此外，事件數(shù)據(jù)還被用于需要高速感知的挑戰(zhàn)性機器人應(yīng)用中，例如能夠捕捉對象的四足機器人[4]和能夠避開動態(tài)障礙物的撲翼機器人[5]。

盡管事件相機具有令人滿意的特性，但不能像處理強度圖像那樣直接處理事件流，而高質(zhì)量的強度圖像是理解視覺數(shù)據(jù)的最自然的方式。因此，從事件中重建強度圖像一直是基于事件的視覺研究的基石。重建高質(zhì)量強度圖像的另一個好處是可以立即將成功的基于幀的計算機視覺方法應(yīng)用于重建結(jié)果，以解決各種任務(wù)。

目前基于事件相機的圖像重建分為兩類：基于濾波的傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。基于濾波的方法是通過對事件數(shù)據(jù)進行濾波處理來還原圖像序列，包括中值濾波和高斯濾波[6]，但這些方法在處理復(fù)雜或動態(tài)場景的圖像時易失效。最近，基于深度學(xué)習(xí)的方法在基于事件的視頻重建任務(wù)中取得了顯著成果，為行人檢測和行人動作識別[7]等工作做出貢獻。Rebecq等[8]提出了一種新穎的遞歸網(wǎng)絡(luò)(E2VID)用于從大量事件中重建視頻，這是一種直接處理事件的端到端網(wǎng)絡(luò)。Cadena等[9]提出了一種基于條件生成對抗網(wǎng)絡(luò)的重建方法，將事件流數(shù)據(jù)用不同的表達方式來生成不同的灰度圖像。由于僅當(dāng)像素的強度發(fā)生變化時才會異步生成事件，因此生成的事件體素柵格是稀疏張量，僅包含場景中變化部分的信息。這些體素柵格的稀疏性也非常不同。這使得神經(jīng)網(wǎng)絡(luò)很難適應(yīng)新的數(shù)據(jù)，并導(dǎo)致包含模糊、低對比度或涂抹偽影的問題。同時這些算法有初始化時間，此過程需要20到30幀，且第一幀的質(zhì)量很差。

綜上所述，本文提出了一種基于Transformer殘差模塊的自監(jiān)督重建算法，將光流估計與事件重建結(jié)合共同訓(xùn)練學(xué)習(xí)實現(xiàn)自監(jiān)督重建。本文的創(chuàng)新在于使用聯(lián)合訓(xùn)練獲取高質(zhì)量的初始幀并提高對特征的長期相關(guān)性學(xué)習(xí)能力，有效捕捉視頻上下幀的時空關(guān)聯(lián)特征。同時設(shè)計去噪預(yù)處理與亞像素上采樣操作模塊，抑制噪聲，減少信息損失，共同提高重建質(zhì)量。實驗結(jié)果表明，在公開數(shù)據(jù)集上本文方法可以有效提高事件流的重建效果。

本文詳細內(nèi)容請下載：

http://forexkbc.com/resource/share/2000006206

作者信息：

王立喜1，劉云平1，湯琴琴2，李家豪1

（1.南京信息工程大學(xué) 自動化學(xué)院，江蘇南京 210016；

2.無錫學(xué)院軌道交通學(xué)院，江蘇無錫 214015）

Magazine.Subscription.jpg

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容