中文引用格式: 王立喜,劉云平,,湯琴琴,,等. 基于Transformer殘差網(wǎng)絡(luò)的事件重建算法[J]. 電子技術(shù)應(yīng)用,2024,,50(11):28-34.
英文引用格式: Wang Lixi,,Liu Yunping,Tang Qinqin,,et al. Event reconstruction algorithm based on Transformer residual network[J]. Application of Electronic Technique,,2024,50(11):28-34.
引言
在過(guò)去的十年里,由于現(xiàn)代深度學(xué)習(xí)方法和神經(jīng)體系結(jié)構(gòu)優(yōu)化,,計(jì)算機(jī)視覺(jué)領(lǐng)域在許多不同的任務(wù)中取得了驚人的進(jìn)步,。但與生物系統(tǒng)相比,目前的人工視覺(jué)系統(tǒng)仍然無(wú)法處理一些涉及高速運(yùn)動(dòng)場(chǎng)景和高動(dòng)態(tài)范圍的真實(shí)世界場(chǎng)景,。這是因?yàn)閭鹘y(tǒng)的基于幀的傳感器存在諸如運(yùn)動(dòng)模糊和低動(dòng)態(tài)范圍等問(wèn)題,。事件相機(jī)具有消除上述問(wèn)題的能力。它輸出異步像素且彼此獨(dú)立工作[1],。每個(gè)像素對(duì)局部相對(duì)光強(qiáng)度變化很敏感,,當(dāng)這種變化超過(guò)閾值時(shí),它們會(huì)連續(xù)產(chǎn)生稱為事件的信號(hào),。因其高動(dòng)態(tài)范圍,、高時(shí)間分辨率和低延遲的優(yōu)勢(shì),事件數(shù)據(jù)已越來(lái)越多地被納入各種識(shí)別任務(wù)中,,包括目標(biāo)檢測(cè)[2],、語(yǔ)義分割[3]等。此外,,事件數(shù)據(jù)還被用于需要高速感知的挑戰(zhàn)性機(jī)器人應(yīng)用中,,例如能夠捕捉對(duì)象的四足機(jī)器人[4]和能夠避開(kāi)動(dòng)態(tài)障礙物的撲翼機(jī)器人[5]。
盡管事件相機(jī)具有令人滿意的特性,,但不能像處理強(qiáng)度圖像那樣直接處理事件流,,而高質(zhì)量的強(qiáng)度圖像是理解視覺(jué)數(shù)據(jù)的最自然的方式。因此,,從事件中重建強(qiáng)度圖像一直是基于事件的視覺(jué)研究的基石,。重建高質(zhì)量強(qiáng)度圖像的另一個(gè)好處是可以立即將成功的基于幀的計(jì)算機(jī)視覺(jué)方法應(yīng)用于重建結(jié)果,以解決各種任務(wù),。
目前基于事件相機(jī)的圖像重建分為兩類:基于濾波的傳統(tǒng)方法和基于深度學(xué)習(xí)的方法,。基于濾波的方法是通過(guò)對(duì)事件數(shù)據(jù)進(jìn)行濾波處理來(lái)還原圖像序列,,包括中值濾波和高斯濾波[6],,但這些方法在處理復(fù)雜或動(dòng)態(tài)場(chǎng)景的圖像時(shí)易失效。最近,,基于深度學(xué)習(xí)的方法在基于事件的視頻重建任務(wù)中取得了顯著成果,,為行人檢測(cè)和行人動(dòng)作識(shí)別[7]等工作做出貢獻(xiàn)。Rebecq等[8]提出了一種新穎的遞歸網(wǎng)絡(luò)(E2VID)用于從大量事件中重建視頻,,這是一種直接處理事件的端到端網(wǎng)絡(luò),。Cadena等[9]提出了一種基于條件生成對(duì)抗網(wǎng)絡(luò)的重建方法,將事件流數(shù)據(jù)用不同的表達(dá)方式來(lái)生成不同的灰度圖像,。由于僅當(dāng)像素的強(qiáng)度發(fā)生變化時(shí)才會(huì)異步生成事件,,因此生成的事件體素柵格是稀疏張量,,僅包含場(chǎng)景中變化部分的信息。這些體素柵格的稀疏性也非常不同,。這使得神經(jīng)網(wǎng)絡(luò)很難適應(yīng)新的數(shù)據(jù),,并導(dǎo)致包含模糊、低對(duì)比度或涂抹偽影的問(wèn)題,。同時(shí)這些算法有初始化時(shí)間,,此過(guò)程需要20到30幀,且第一幀的質(zhì)量很差,。
綜上所述,,本文提出了一種基于Transformer殘差模塊的自監(jiān)督重建算法,將光流估計(jì)與事件重建結(jié)合共同訓(xùn)練學(xué)習(xí)實(shí)現(xiàn)自監(jiān)督重建,。本文的創(chuàng)新在于使用聯(lián)合訓(xùn)練獲取高質(zhì)量的初始幀并提高對(duì)特征的長(zhǎng)期相關(guān)性學(xué)習(xí)能力,,有效捕捉視頻上下幀的時(shí)空關(guān)聯(lián)特征。同時(shí)設(shè)計(jì)去噪預(yù)處理與亞像素上采樣操作模塊,,抑制噪聲,,減少信息損失,共同提高重建質(zhì)量,。實(shí)驗(yàn)結(jié)果表明,,在公開(kāi)數(shù)據(jù)集上本文方法可以有效提高事件流的重建效果。
本文詳細(xì)內(nèi)容請(qǐng)下載:
http://forexkbc.com/resource/share/2000006206
作者信息:
王立喜1,,劉云平1,,湯琴琴2,李家豪1
(1.南京信息工程大學(xué) 自動(dòng)化學(xué)院,,江蘇 南京 210016,;
2.無(wú)錫學(xué)院 軌道交通學(xué)院, 江蘇 無(wú)錫 214015)