基于時(shí)空注意力金字塔卷積的動(dòng)作識(shí)別-AET-電子技術(shù)應(yīng)用

基于時(shí)空注意力金字塔卷積的動(dòng)作識(shí)別

網(wǎng)絡(luò)安全與數(shù)據(jù)治理 2期

馮雨威，吳麗君

(福州大學(xué) 物理與信息工程學(xué)院，福建福州350108)

摘要： 動(dòng)作識(shí)別算法需要從視頻中提取空間和時(shí)域特征，對(duì)計(jì)算存儲(chǔ)資源要求較高。基于2D CNN的網(wǎng)絡(luò)更為輕量，但從視頻中提取時(shí)域特征的能力較弱，動(dòng)作識(shí)別性能通常受到限制。S-TPNet提出時(shí)空金字塔模塊以獲取圖像序列的時(shí)間粒度特征，有效提升了基于2D CNN的動(dòng)作識(shí)別網(wǎng)絡(luò)的性能。基于S-TPNet，設(shè)計(jì)了時(shí)空注意力模型以凸顯空間和時(shí)間上的重要特征。為降低輸入數(shù)據(jù)量，通常抽取局部視頻幀作為輸入，為降低采樣幀與整體視頻之間的不穩(wěn)定差異，設(shè)計(jì)了自適應(yīng)等間隔采樣策略。實(shí)驗(yàn)表明，在未預(yù)訓(xùn)練的情況下，本網(wǎng)絡(luò)在UCF-101和HMDB-51數(shù)據(jù)集上分別將Top-1精度提高了5.1%和3.3%，并且不會(huì)大幅增加所需參數(shù)。

關(guān)鍵詞： 時(shí)空注意力動(dòng)作識(shí)別自適應(yīng)采樣 2DCNN 時(shí)空金字塔

中圖分類號(hào)： TP391
文獻(xiàn)標(biāo)識(shí)碼： A
DOI： 10.19358/j.issn.2097-1788.2023.02.012
引用格式：馮雨威，吳麗君. 基于時(shí)空注意力金字塔卷積的動(dòng)作識(shí)別[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理，2023，42(2)：76-82，88.

Action recognition based on spatial-temporal attention pyramid convolution

Feng Yuwei，Wu Lijun

(College of Physics and Information Engineering，F(xiàn)uzhou University，F(xiàn)uzhou 350108，China)

Abstract： Action recognition algorithms need to extract spatial and temporal features from video, which requires high computing and storage resources. The network based on 2D CNN is lighter, but the ability to extract time-domain features from video is weak, and the performance of action recognition is usually limited. S-TPNet proposes a spatial-temporal pyramid module to obtain the time granularity features of image sequences, which effectively improves the performance of the action recognition network based on 2D CNN. Based on S-TPNet, this paper designs a spatial-temporal attention model to highlight the important features of space and time. In order to reduce the amount of input data, local video frames are usually extracted as input. In order to reduce the unstable difference between the sampled frames and the overall video, this paper designs an adaptive equal interval sampling strategy. The experiment shows that without pre training, the network improves Top-1 accuracy by 5.1% and 3.3% on UCF-101 and HMDB-51 datasets, respectively, and does not significantly increase the required parameters.

Key words : spatial-temporal attention；action recognition；adaptive sampling；2D CNN；spatial-temporal pyramid

0 引言

動(dòng)作識(shí)別是從視頻片段中提取有效的空間和時(shí)間特征以分辨人的動(dòng)作類型，在視頻檢索、異常檢測(cè)、智能監(jiān)控、人機(jī)交互和自動(dòng)駕駛等領(lǐng)域逐漸興起。早期算法主要依賴人工提取人體關(guān)節(jié)點(diǎn)和時(shí)空興趣點(diǎn)特征。近年來，基于深度學(xué)習(xí)的算法可有效提取特征、實(shí)現(xiàn)端到端訓(xùn)練，極大提升了動(dòng)作識(shí)別精度和速度。根據(jù)提取特征的方式不同，動(dòng)作識(shí)別算法大致可歸納為基于3D CNN、雙/多流網(wǎng)絡(luò)、CNN(2D或3D)與時(shí)間特征聚合模塊的組合三種類型。3D CNN[1-2]可直接提取時(shí)空特征，但是其采用固定大小的3D卷積核，不能充分挖掘時(shí)間粒度特征，并且相比2D卷積核含有更多參數(shù)。雙流網(wǎng)絡(luò)[3]的輸入通常為RGB幀和光流圖像，提取光流較為繁瑣且易造成延遲。基于CNN與時(shí)間特征聚合模塊[4-5]組合的算法通常使用CNN從單幀或視頻片段提取空間特征，然后使用LSTM或時(shí)間池化從多個(gè)幀或片段間提取時(shí)間特征。LSTM隨著時(shí)間跨度增大、網(wǎng)絡(luò)深度增加，計(jì)算成本將急劇增加。

基于2D CNN與時(shí)間池化的S-TPNet[6]提出了空間金字塔模塊，利用CNN固有的平移和尺度不變性充分提取空間特征，并使用不同尺寸的時(shí)間池重復(fù)利用片段級(jí)數(shù)據(jù)以獲得時(shí)間粒度特征。相比于3D CNN的算法，S-TPNet網(wǎng)絡(luò)參數(shù)大大減少，但在動(dòng)作識(shí)別精度上相對(duì)較低。因此，本文在S-TPNet基礎(chǔ)上引入輕量級(jí)的時(shí)空注意力模型，以提高算法精度。

除網(wǎng)絡(luò)結(jié)構(gòu)外，視頻采樣策略也會(huì)影響動(dòng)作識(shí)別精度。為減少輸入信息的冗余數(shù)量，降低運(yùn)算量，一般會(huì)提取原視頻的部分幀來作為輸入。視頻采樣策略主要分為密集[7]和稀疏采樣兩種。密集采樣對(duì)設(shè)備的計(jì)算和存儲(chǔ)要求都很高。最近，微軟在視頻和語言學(xué)習(xí)任務(wù)研究[8]中提出“少即是多”的稀疏采樣。在每次訓(xùn)練中僅使用單個(gè)或幾個(gè)稀疏采樣片段，獲得了不輸于密集采樣訓(xùn)練所得的網(wǎng)絡(luò)性能。稀疏采樣包含隨機(jī)采樣和預(yù)定義間隔采樣。隨機(jī)采樣易導(dǎo)致采樣后的相鄰幀之間具有不穩(wěn)定的差異，無法有效表達(dá)原始視頻的語義內(nèi)容。預(yù)定義間隔采樣不適合數(shù)據(jù)集中視頻段持續(xù)時(shí)間差距較大的情況。因此，本文提出了一種自適應(yīng)等間隔采樣策略，根據(jù)每段視頻的總幀數(shù)和指定的最小采樣數(shù)動(dòng)態(tài)調(diào)整采樣間隔，使采樣后序列可以更好地表示原視頻。

本文詳細(xì)內(nèi)容請(qǐng)下載：http://forexkbc.com/resource/share/2000005217

作者信息：

馮雨威，吳麗君

(福州大學(xué) 物理與信息工程學(xué)院，福建福州350108)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容