文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2022.06.009
引用格式: 林志雄,,吳麗君,陳志聰. 基于注意力機制的無監(jiān)督單目標跟蹤算法[J].信息技術與網(wǎng)絡安全,,2022,,41(6):50-56.
0 引言
目標跟蹤被廣泛應用于視頻監(jiān)控和自動駕駛等領域。在給定視頻第一幀中目標位置后,,目標跟蹤的任務是得到目標在后續(xù)幀中的位置信息,。在有遮擋、變形和背景混亂等場景下, 準確有效地檢測和定位目標仍然是個難點,。
深度網(wǎng)絡由于可以加強特征表示,,被廣泛用于視覺目標跟蹤領域。TAO等人提出SINT網(wǎng)絡[1],,首次利用孿生網(wǎng)絡提取特征,,通過匹配初始目標的外觀識別候選圖像位置,實現(xiàn)目標跟蹤任務,;BERTINETTO等人提出SiamFC(Siamses Fully Convolution)網(wǎng)絡[2],,使用離線訓練的完全卷積孿生網(wǎng)絡作為跟蹤系統(tǒng)的基本網(wǎng)絡,大大提高了跟蹤性能,;LI等人[3]提出了SiamRPN網(wǎng)絡,,基于SiamFC網(wǎng)絡引入了區(qū)域提案網(wǎng)絡RPN模塊[4],讓跟蹤系統(tǒng)可以回歸位置,、形狀,,進一步提高性能并加速;在此之前,,基于孿生網(wǎng)絡的跟蹤器往往使用較淺的網(wǎng)絡,,很大原因在于深層網(wǎng)絡的填充會破壞平移不變性,,導致跟蹤性能下降。LI等人[5]提出在訓練過程中引入位置均衡的采樣策略,,來緩解網(wǎng)絡在訓練過程中存在的位置偏見問題,,進而在SiamRPN網(wǎng)絡基礎上用了ResNet網(wǎng)絡[6]作為主干網(wǎng)絡,讓跟蹤模型性能不再受制于網(wǎng)絡的容量,。
以上這些單目標跟蹤模型都是屬于有監(jiān)督學習,,有監(jiān)督學習需要大量的有標記數(shù)據(jù)集,但是手動標記既昂貴又耗時,。而互聯(lián)網(wǎng)上有大量的未標記視頻可供使用,,因此無監(jiān)督目標跟蹤算法具有更好的實際應用價值。WANG等人[7]提出了UDT(Unsupervised Deep Tracking)模型,,通過將前向傳播和反向預測的結果進行一致性損失計算,,實現(xiàn)在沒有標簽的情況下同樣優(yōu)化模型。但在前向傳播過程中,,跟蹤模型若預測的位置出錯,,經(jīng)過反向修正后可能會再回到正確的位置,這就會導致前向傳播的錯誤預測沒有被懲罰,,降低了模型跟蹤性能,。為此,WANG等人又進一步提出UDT+模型[8],,通過多幀驗證方法懲罰前向傳播的錯誤預測,,提升位置預測的準確性。
本文詳細內(nèi)容請下載:http://forexkbc.com/resource/share/2000004535
作者信息:
林志雄,,吳麗君,,陳志聰
(福州大學 物理與信息工程學院,福建 福州350108)