基于深度學(xué)習(xí)的視頻行為分類方法綜述-AET-電子技術(shù)應(yīng)用

基于深度學(xué)習(xí)的視頻行為分類方法綜述

2022年電子技術(shù)應(yīng)用第7期

楊戈1，2，鄒武星1，2

1.北京師范大學(xué)珠海分校智能多媒體技術(shù)重點(diǎn)實(shí)驗(yàn)室，廣東珠海519087； 2.北京師范大學(xué)自然科學(xué)高等研究院，廣東珠海519087

摘要： 過去幾年，視頻行為分類從手工選擇特征方式逐步向采用深度學(xué)習(xí)端到端網(wǎng)絡(luò)模型方式轉(zhuǎn)變。討論了傳統(tǒng)手工選擇特征的行為分類方法以及基于深度學(xué)習(xí)的行為分類方法，著重對包括基于卷積神經(jīng)網(wǎng)絡(luò)、長短期記憶網(wǎng)絡(luò)和時(shí)空融合網(wǎng)絡(luò)等不同的深度學(xué)習(xí)方法進(jìn)行了論述，并對常用視頻行為分類數(shù)據(jù)集做了概述，對視頻行為分類方法的發(fā)展進(jìn)行總結(jié)和展望。

關(guān)鍵詞： 視頻行為分類數(shù)據(jù)集深度學(xué)習(xí)

中圖分類號： TP391
文獻(xiàn)標(biāo)識碼： A
DOI：10.16157/j.issn.0258-7998.212388
中文引用格式： 楊戈，鄒武星. 基于深度學(xué)習(xí)的視頻行為分類方法綜述[J].電子技術(shù)應(yīng)用，2022，48(7)：1-7，12.
英文引用格式： Yang Ge，Zou Wuxing. A survey on video action classification methods based on deep learning[J]. Application of Electronic Technique，2022，48(7)：1-7，12.

A survey on video action classification methods based on deep learning

Yang Ge1，2，Zou Wuxing1，2

1.Key Laboratory of Intelligent Multimedia Technology，Beijing Normal University，Zhuhai 519087，China； 2.Advanced Institute of Natural Sciences，Beijing Normal University，Zhuhai 519087，China

Abstract： In the past few years, video action classification has gradually changed from manual feature selection to deep learning end-to-end model. This article discusses the traditional action classification method of manually selecting features and the action classification method based on deep learning, focusing on different deep learning methods including convolutional neural networks, recurrent neural network, dual-stream network, long and short-term memory network, etc., and it summarizes the commonly used video action classification data sets, summarizes and prospects the development of video action classification methods.

Key words : video action classification；data set；deep learning

0 引言

視頻行為分類的目的是根據(jù)視頻內(nèi)容將視頻行為歸類為預(yù)設(shè)類別。隨著數(shù)字?jǐn)z像機(jī)、智能手持終端等各種視頻拍攝設(shè)備的普及，網(wǎng)絡(luò)上視頻產(chǎn)生數(shù)量出現(xiàn)飛速增長。截至2019年6月，中國網(wǎng)絡(luò)視頻用戶規(guī)模近7.59億，中國短視頻用戶規(guī)模為6.27億^[1]，最新興起的短視頻業(yè)務(wù)用戶規(guī)模以及用戶日均短視頻移動應(yīng)用(Application，APP)停留時(shí)長均出現(xiàn)爆發(fā)式增長。圖像本身就包含大量信息，而視頻是圖像在時(shí)間維度的擴(kuò)展，每秒往往包含24幀左右的圖像，所占存儲空間較之圖像可以說是呈數(shù)量級倍數(shù)關(guān)系。存儲、分析這些視頻內(nèi)容需要花費(fèi)巨大的財(cái)力和人力，在計(jì)算機(jī)自動分析視頻數(shù)據(jù)得到廣泛應(yīng)用前，視頻內(nèi)容的行為分類一般依靠人工實(shí)現(xiàn)，不僅效率低而且誤判、漏判率高。自動化視頻內(nèi)容分析技術(shù)推廣的現(xiàn)實(shí)意義廣泛而深遠(yuǎn)。

計(jì)算機(jī)視頻行為分析技術(shù)不僅可以同時(shí)自動監(jiān)控多路信號，且不會產(chǎn)生疲勞，降低誤判的可能性；在視頻內(nèi)容檢索領(lǐng)域的應(yīng)用更是將極大減輕公共安全從業(yè)人員的視頻檢索工作量，提高他們的檢索效率，降低漏檢率。自動化視頻內(nèi)容分析技術(shù)推廣的現(xiàn)實(shí)意義廣泛而深遠(yuǎn)，深度學(xué)習(xí)在視頻分類的應(yīng)用主要有以下方面。

本文詳細(xì)內(nèi)容請下載：http://forexkbc.com/resource/share/2000004577。

作者信息：

楊戈1，2，鄒武星1，2

(1.北京師范大學(xué)珠海分校智能多媒體技術(shù)重點(diǎn)實(shí)驗(yàn)室，廣東珠海519087；

2.北京師范大學(xué)自然科學(xué)高等研究院，廣東珠海519087)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容