《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 其他 > 設(shè)計(jì)應(yīng)用 > 基于深度學(xué)習(xí)的視頻行為分類(lèi)方法綜述
基于深度學(xué)習(xí)的視頻行為分類(lèi)方法綜述
2022年電子技術(shù)應(yīng)用第7期
楊 戈1,,2,,鄒武星1,,2
1.北京師范大學(xué)珠海分校 智能多媒體技術(shù)重點(diǎn)實(shí)驗(yàn)室,廣東 珠海519087,; 2.北京師范大學(xué)自然科學(xué)高等研究院,,廣東 珠海519087
摘要: 過(guò)去幾年,視頻行為分類(lèi)從手工選擇特征方式逐步向采用深度學(xué)習(xí)端到端網(wǎng)絡(luò)模型方式轉(zhuǎn)變,。討論了傳統(tǒng)手工選擇特征的行為分類(lèi)方法以及基于深度學(xué)習(xí)的行為分類(lèi)方法,,著重對(duì)包括基于卷積神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短期記憶網(wǎng)絡(luò)和時(shí)空融合網(wǎng)絡(luò)等不同的深度學(xué)習(xí)方法進(jìn)行了論述,,并對(duì)常用視頻行為分類(lèi)數(shù)據(jù)集做了概述,,對(duì)視頻行為分類(lèi)方法的發(fā)展進(jìn)行總結(jié)和展望。
中圖分類(lèi)號(hào): TP391
文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.212388
中文引用格式: 楊戈,,鄒武星. 基于深度學(xué)習(xí)的視頻行為分類(lèi)方法綜述[J].電子技術(shù)應(yīng)用,,2022,48(7):1-7,,12.
英文引用格式: Yang Ge,,Zou Wuxing. A survey on video action classification methods based on deep learning[J]. Application of Electronic Technique,2022,,48(7):1-7,,12.
A survey on video action classification methods based on deep learning
Yang Ge1,2,,Zou Wuxing1,,2
1.Key Laboratory of Intelligent Multimedia Technology,Beijing Normal University,,Zhuhai 519087,,China; 2.Advanced Institute of Natural Sciences,,Beijing Normal University,,Zhuhai 519087,China
Abstract: In the past few years, video action classification has gradually changed from manual feature selection to deep learning end-to-end model. This article discusses the traditional action classification method of manually selecting features and the action classification method based on deep learning, focusing on different deep learning methods including convolutional neural networks, recurrent neural network, dual-stream network, long and short-term memory network, etc., and it summarizes the commonly used video action classification data sets, summarizes and prospects the development of video action classification methods.
Key words : video action classification,;data set,;deep learning

0 引言

    視頻行為分類(lèi)的目的是根據(jù)視頻內(nèi)容將視頻行為歸類(lèi)為預(yù)設(shè)類(lèi)別。隨著數(shù)字?jǐn)z像機(jī),、智能手持終端等各種視頻拍攝設(shè)備的普及,,網(wǎng)絡(luò)上視頻產(chǎn)生數(shù)量出現(xiàn)飛速增長(zhǎng)。截至2019年6月,,中國(guó)網(wǎng)絡(luò)視頻用戶(hù)規(guī)模近7.59億,,中國(guó)短視頻用戶(hù)規(guī)模為6.27億[1],最新興起的短視頻業(yè)務(wù)用戶(hù)規(guī)模以及用戶(hù)日均短視頻移動(dòng)應(yīng)用(Application,,APP)停留時(shí)長(zhǎng)均出現(xiàn)爆發(fā)式增長(zhǎng),。圖像本身就包含大量信息,而視頻是圖像在時(shí)間維度的擴(kuò)展,,每秒往往包含24幀左右的圖像,,所占存儲(chǔ)空間較之圖像可以說(shuō)是呈數(shù)量級(jí)倍數(shù)關(guān)系。存儲(chǔ),、分析這些視頻內(nèi)容需要花費(fèi)巨大的財(cái)力和人力,,在計(jì)算機(jī)自動(dòng)分析視頻數(shù)據(jù)得到廣泛應(yīng)用前,視頻內(nèi)容的行為分類(lèi)一般依靠人工實(shí)現(xiàn),,不僅效率低而且誤判,、漏判率高。自動(dòng)化視頻內(nèi)容分析技術(shù)推廣的現(xiàn)實(shí)意義廣泛而深遠(yuǎn)。

    計(jì)算機(jī)視頻行為分析技術(shù)不僅可以同時(shí)自動(dòng)監(jiān)控多路信號(hào),,且不會(huì)產(chǎn)生疲勞,,降低誤判的可能性;在視頻內(nèi)容檢索領(lǐng)域的應(yīng)用更是將極大減輕公共安全從業(yè)人員的視頻檢索工作量,,提高他們的檢索效率,,降低漏檢率。自動(dòng)化視頻內(nèi)容分析技術(shù)推廣的現(xiàn)實(shí)意義廣泛而深遠(yuǎn),,深度學(xué)習(xí)在視頻分類(lèi)的應(yīng)用主要有以下方面,。




本文詳細(xì)內(nèi)容請(qǐng)下載:http://forexkbc.com/resource/share/2000004577




作者信息:

楊  戈1,,2,,鄒武星1,2

(1.北京師范大學(xué)珠海分校 智能多媒體技術(shù)重點(diǎn)實(shí)驗(yàn)室,,廣東 珠海519087,;

2.北京師范大學(xué)自然科學(xué)高等研究院,廣東 珠海519087)




wd.jpg

此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載,。