《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 設(shè)計應(yīng)用 > 基于YOLOX融合自注意力機制的FSA-FPN重構(gòu)方法
基于YOLOX融合自注意力機制的FSA-FPN重構(gòu)方法
電子技術(shù)應(yīng)用 2023年3期
安鶴男1,管聰2,鄧武才1,,楊佳洲2,,馬超2
(1.深圳大學 電子與信息工程學院,廣東 深圳 518000,;2.深圳大學 微納光電子學研究院,廣東 深圳 518000)
摘要: 隨著目前目標檢測任務(wù)輸入圖像分辨率的不斷增大,在特征提取網(wǎng)絡(luò)的感受野不變的情況下,,網(wǎng)絡(luò)提取的特征信息會越來越局限,相鄰特征點之間的信息重合度也會越來越高,。提出一種FSA(Fusion Self-Attention)-FPN,,設(shè)計SAU(Self-Attention Upsample)模塊,SAU內(nèi)部結(jié)構(gòu)通過CNN與自注意力機制(Self-Attention)進行交叉計算以進一步進行特征融合,,并通過重構(gòu)FCU(Feature Coupling Unit)消除二者之間的特征錯位,,彌補語義差距。以YOLOX-Darknet53為主干網(wǎng)絡(luò),,在Pascal VOC2007數(shù)據(jù)集上進行了對比實驗,。實驗結(jié)果表明,對比原網(wǎng)絡(luò)的FPN,,替換FSA-FPN后的平均精度值mAP@[.5:.95]提升了1.5%,,預測框的位置也更為精準,在需要更高精度的檢測場景下有更為出色的使用價值,。
中圖分類號:TP391.4 文獻標志碼:A DOI: 10.16157/j.issn.0258-7998.223139
中文引用格式: 安鶴男,,管聰,鄧武才,,等. 基于YOLOX融合自注意力機制的FSA-FPN重構(gòu)方法[J]. 電子技術(shù)應(yīng)用,,2023,49(3):61-66.
英文引用格式: An Henan,,Guan Cong,,Deng Wucai,et al. FSA-FPN reconstruction method that fused self-attention mechanism based on YOLOX[J]. Application of Electronic Technique,,2023,,49(3):61-66.
FSA-FPN reconstruction method that fused self-attention mechanism based on YOLOX
An Henan1,Guan Cong2,,Deng Wucai1,,Yang Jiazhou2,Ma Chao2
(1.College of Electronics and Information Engineering,,Shenzhen University,,Shenzhen 518000,China,; 2.Institute of Microscale Optoelectronics,,Shenzhen University,,Shenzhen 518000,China)
Abstract: Abstract: With the increasing resolution of the input image of the current target detection task,,the feature information extracted from the feature extraction network will become more and more limited under the condition that the receptive field of the feature extraction network remains unchanged,,and the information coincidence degree between adjacent feature points will also become higher and higher.This paper proposes an FSA(fusion self-attention)-FPN,and designs SAU(self-attention upsample) module.The internal structure of SAU performs cross calculation with self-attention mechanism and CNN to further Feature fusion,,and reconstructs FCU(feature coupling unit) to eliminate feature dislocation between them and bridge semantic gap. In this paper,,a comparative experiment is carried out on Pascal VOC2007 data set using YOLOX-Darknet 53 as the main dry network. The experimental results show that compared with the FPN of the original network,the average accuracy of MAP@ [.5:.95] after replacing FSA-FPN is improved by 1.5%,,and the position of the prediction box is also more accurate.It has better application value in detection scenarios requiring higher accuracy.
Key words : FSA-feature pyramid networks,;feature fusion;SAU,;self-attention mechanism

0 引言

目標檢測是致力于解決確定圖像中所需物體類別并標識出物體具體位置的一類任務(wù),。自從以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)為代表的深度學習技術(shù)在多個領(lǐng)域取得突破性成功后,基于CNN的目標檢測方法也憑著卷積運算的特性做到對圖像特征信息的深層次提取,,從而達到較為優(yōu)秀的檢測性能,。目前主流目標檢測任務(wù)大多還是分為兩類,分別是以Faster-RCNN[1]為代表的雙階段檢測與以YOLO和SSD為代表的單階段檢測算法,,它們都以CNN作為特征提取核心,。FPN(Feature Pyramid Network)是自頂向下的一種特征融合方式,通過將不同尺寸的特征信息進行融合,,對不同尺寸的物體檢測均有較為出色的適應(yīng)性,。整體來說,CNN受制于其卷積層的大小,,感受野有限,,所以更多地是對局部特征的提取。

Transformer開創(chuàng)了自注意力機制(Self-attention)的先河,,在全局特征的提取上有著CNN無法比擬的優(yōu)勢,。而現(xiàn)在的目標檢測算法大部分還是以CNN為主要特征提取手段,雖然也有以ViT,、Swin-Transformer等以Self-attention為特征提取核心的目標檢測算法,,但是其計算量巨大,且實際落地受到硬件設(shè)施,、計算資源的限制,,通用性不如Faster-RCNN和YOLOv3、SSD等以CNN為特征提取核心的目標檢測算法,。

本文對Conformer提出的一種CNN分支與Transformer分支互相彌補語義差距,、 消除特征錯位的方法做出改進,并結(jié)合Darknet-53的結(jié)構(gòu),,在其FPN的特征融合過程中引入自注意力機制,,設(shè)計了SAU(Self-Attention Upsample)模塊,,通過對特征圖進行重新編碼以對齊自注意力輸入的特征維度,同時設(shè)計多次的自注意力計算與上下層之間的聯(lián)動結(jié)合,,提出的FSA-FPN在融合不同尺寸物體的特征時同時也注重了自身全局信息的特征提取以提升其整體檢測效果,,在需要更高精度的檢測場景下有更大的使用價值。




本文詳細內(nèi)容請下載:http://forexkbc.com/resource/share/2000005230




作者信息:

安鶴男1,,管聰2,,鄧武才1,,楊佳洲2,,馬超2

(1.深圳大學 電子與信息工程學院,廣東 深圳 518000,;2.深圳大學 微納光電子學研究院,,廣東 深圳 518000)



微信圖片_20210517164139.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),未經(jīng)授權(quán)禁止轉(zhuǎn)載,。