基于深度學習的視頻行為分類方法綜述
2022年電子技術應用第7期
楊 戈1,2,鄒武星1,2
1.北京師范大學珠海分校 智能多媒體技術重點實驗室,廣東 珠海519087; 2.北京師范大學自然科學高等研究院,廣東 珠海519087
摘要: 過去幾年,視頻行為分類從手工選擇特征方式逐步向采用深度學習端到端網絡模型方式轉變。討論了傳統手工選擇特征的行為分類方法以及基于深度學習的行為分類方法,著重對包括基于卷積神經網絡、長短期記憶網絡和時空融合網絡等不同的深度學習方法進行了論述,并對常用視頻行為分類數據集做了概述,對視頻行為分類方法的發(fā)展進行總結和展望。
中圖分類號: TP391
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.212388
中文引用格式: 楊戈,鄒武星. 基于深度學習的視頻行為分類方法綜述[J].電子技術應用,2022,48(7):1-7,12.
英文引用格式: Yang Ge,Zou Wuxing. A survey on video action classification methods based on deep learning[J]. Application of Electronic Technique,2022,48(7):1-7,12.
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.212388
中文引用格式: 楊戈,鄒武星. 基于深度學習的視頻行為分類方法綜述[J].電子技術應用,2022,48(7):1-7,12.
英文引用格式: Yang Ge,Zou Wuxing. A survey on video action classification methods based on deep learning[J]. Application of Electronic Technique,2022,48(7):1-7,12.
A survey on video action classification methods based on deep learning
Yang Ge1,2,Zou Wuxing1,2
1.Key Laboratory of Intelligent Multimedia Technology,Beijing Normal University,Zhuhai 519087,China; 2.Advanced Institute of Natural Sciences,Beijing Normal University,Zhuhai 519087,China
Abstract: In the past few years, video action classification has gradually changed from manual feature selection to deep learning end-to-end model. This article discusses the traditional action classification method of manually selecting features and the action classification method based on deep learning, focusing on different deep learning methods including convolutional neural networks, recurrent neural network, dual-stream network, long and short-term memory network, etc., and it summarizes the commonly used video action classification data sets, summarizes and prospects the development of video action classification methods.
Key words : video action classification;data set;deep learning
0 引言
視頻行為分類的目的是根據視頻內容將視頻行為歸類為預設類別。隨著數字攝像機、智能手持終端等各種視頻拍攝設備的普及,網絡上視頻產生數量出現飛速增長。截至2019年6月,中國網絡視頻用戶規(guī)模近7.59億,中國短視頻用戶規(guī)模為6.27億[1],最新興起的短視頻業(yè)務用戶規(guī)模以及用戶日均短視頻移動應用(Application,APP)停留時長均出現爆發(fā)式增長。圖像本身就包含大量信息,而視頻是圖像在時間維度的擴展,每秒往往包含24幀左右的圖像,所占存儲空間較之圖像可以說是呈數量級倍數關系。存儲、分析這些視頻內容需要花費巨大的財力和人力,在計算機自動分析視頻數據得到廣泛應用前,視頻內容的行為分類一般依靠人工實現,不僅效率低而且誤判、漏判率高。自動化視頻內容分析技術推廣的現實意義廣泛而深遠。
計算機視頻行為分析技術不僅可以同時自動監(jiān)控多路信號,且不會產生疲勞,降低誤判的可能性;在視頻內容檢索領域的應用更是將極大減輕公共安全從業(yè)人員的視頻檢索工作量,提高他們的檢索效率,降低漏檢率。自動化視頻內容分析技術推廣的現實意義廣泛而深遠,深度學習在視頻分類的應用主要有以下方面。
本文詳細內容請下載:http://forexkbc.com/resource/share/2000004577。
作者信息:
楊 戈1,2,鄒武星1,2
(1.北京師范大學珠海分校 智能多媒體技術重點實驗室,廣東 珠海519087;
2.北京師范大學自然科學高等研究院,廣東 珠海519087)
此內容為AET網站原創(chuàng),未經授權禁止轉載。