文獻(xiàn)標(biāo)識碼: A
DOI: 10.19358/j.issn.2097-1788.2023.02.012
引用格式: 馮雨威,吳麗君. 基于時(shí)空注意力金字塔卷積的動(dòng)作識別[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,,2023,,42(2):76-82,88.
0 引言
動(dòng)作識別是從視頻片段中提取有效的空間和時(shí)間特征以分辨人的動(dòng)作類型,在視頻檢索,、異常檢測,、智能監(jiān)控、人機(jī)交互和自動(dòng)駕駛等領(lǐng)域逐漸興起,。早期算法主要依賴人工提取人體關(guān)節(jié)點(diǎn)和時(shí)空興趣點(diǎn)特征,。近年來,基于深度學(xué)習(xí)的算法可有效提取特征,、實(shí)現(xiàn)端到端訓(xùn)練,,極大提升了動(dòng)作識別精度和速度。根據(jù)提取特征的方式不同,,動(dòng)作識別算法大致可歸納為基于3D CNN,、雙/多流網(wǎng)絡(luò)、CNN(2D或3D)與時(shí)間特征聚合模塊的組合三種類型,。3D CNN[1-2]可直接提取時(shí)空特征,,但是其采用固定大小的3D卷積核,不能充分挖掘時(shí)間粒度特征,,并且相比2D卷積核含有更多參數(shù),。雙流網(wǎng)絡(luò)[3]的輸入通常為RGB幀和光流圖像,提取光流較為繁瑣且易造成延遲,。基于CNN與時(shí)間特征聚合模塊[4-5]組合的算法通常使用CNN從單幀或視頻片段提取空間特征,,然后使用LSTM或時(shí)間池化從多個(gè)幀或片段間提取時(shí)間特征,。LSTM隨著時(shí)間跨度增大,、網(wǎng)絡(luò)深度增加,計(jì)算成本將急劇增加,。
基于2D CNN與時(shí)間池化的S-TPNet[6]提出了空間金字塔模塊,,利用CNN固有的平移和尺度不變性充分提取空間特征,并使用不同尺寸的時(shí)間池重復(fù)利用片段級數(shù)據(jù)以獲得時(shí)間粒度特征,。相比于3D CNN的算法,,S-TPNet網(wǎng)絡(luò)參數(shù)大大減少,但在動(dòng)作識別精度上相對較低,。因此,,本文在S-TPNet基礎(chǔ)上引入輕量級的時(shí)空注意力模型,以提高算法精度,。
除網(wǎng)絡(luò)結(jié)構(gòu)外,,視頻采樣策略也會(huì)影響動(dòng)作識別精度。為減少輸入信息的冗余數(shù)量,,降低運(yùn)算量,,一般會(huì)提取原視頻的部分幀來作為輸入。視頻采樣策略主要分為密集[7]和稀疏采樣兩種,。密集采樣對設(shè)備的計(jì)算和存儲要求都很高,。最近,微軟在視頻和語言學(xué)習(xí)任務(wù)研究[8]中提出“少即是多”的稀疏采樣,。在每次訓(xùn)練中僅使用單個(gè)或幾個(gè)稀疏采樣片段,,獲得了不輸于密集采樣訓(xùn)練所得的網(wǎng)絡(luò)性能。稀疏采樣包含隨機(jī)采樣和預(yù)定義間隔采樣,。隨機(jī)采樣易導(dǎo)致采樣后的相鄰幀之間具有不穩(wěn)定的差異,,無法有效表達(dá)原始視頻的語義內(nèi)容。預(yù)定義間隔采樣不適合數(shù)據(jù)集中視頻段持續(xù)時(shí)間差距較大的情況,。因此,,本文提出了一種自適應(yīng)等間隔采樣策略,根據(jù)每段視頻的總幀數(shù)和指定的最小采樣數(shù)動(dòng)態(tài)調(diào)整采樣間隔,,使采樣后序列可以更好地表示原視頻,。
本文詳細(xì)內(nèi)容請下載:http://forexkbc.com/resource/share/2000005217
作者信息:
馮雨威,吳麗君
(福州大學(xué) 物理與信息工程學(xué)院,,福建 福州350108)