基于深度學(xué)習(xí)的人體行為識(shí)別算法-AET-電子技術(shù)應(yīng)用

基于深度學(xué)習(xí)的人體行為識(shí)別算法

2018年電子技術(shù)應(yīng)用第10期

黃友文，萬超倫

江西理工大學(xué) 信息工程學(xué)院，江西贛州341000

摘要： 為改善人體行為識(shí)別任務(wù)中準(zhǔn)確率低的問題，提出了一種基于批歸一化的卷積神經(jīng)網(wǎng)絡(luò)（CNN）與長短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)結(jié)合的神經(jīng)網(wǎng)絡(luò)。CNN部分引入批歸一化思想，將輸入網(wǎng)絡(luò)的訓(xùn)練樣本進(jìn)行小批量歸一化處理，經(jīng)過全連接之后，送入長短期記憶神經(jīng)網(wǎng)絡(luò)中。該算法采用時(shí)空雙流網(wǎng)絡(luò)模型結(jié)構(gòu)，視頻數(shù)據(jù)的RGB圖像作為空間流網(wǎng)絡(luò)輸入，光流場(chǎng)圖像作為時(shí)間流網(wǎng)絡(luò)輸入，再將時(shí)空雙流網(wǎng)絡(luò)各自得到的識(shí)別結(jié)果進(jìn)行加權(quán)融合得到最終的行為識(shí)別結(jié)果。實(shí)驗(yàn)結(jié)果表明，本文設(shè)計(jì)的時(shí)空雙流神經(jīng)網(wǎng)絡(luò)算法在人體行為識(shí)別任務(wù)上具有較高的識(shí)別準(zhǔn)確率。

關(guān)鍵詞： 行為識(shí)別批歸一化長短期記憶神經(jīng)網(wǎng)絡(luò) 深度學(xué)習(xí)

中圖分類號(hào)： TP183
文獻(xiàn)標(biāo)識(shí)碼： A
DOI：10.16157/j.issn.0258-7998.182201
中文引用格式： 黃友文，萬超倫. 基于深度學(xué)習(xí)的人體行為識(shí)別算法[J].電子技術(shù)應(yīng)用，2018，44(10)：1-5，10.
英文引用格式： Huang Youwen，Wan Chaolun. Human behavior recognition algorithm based on deep learning[J]. Application of Electronic Technique，2018，44(10)：1-5，10.

Human behavior recognition algorithm based on deep learning

Huang Youwen，Wan Chaolun

School of Information Engineering，Jiangxi University of Science and Technology，Ganzhou 341000，China

Abstract： In order to improve the problem of low accuracy in human behavior recognition task, a neural network based on batch normalization convolution neural network(CNN) and long short-term memory(LSTM) neural network is proposed. The CNN part introduces the idea of batch normalization, and the training data of the input network are normalized in mini-batch. After full connection, they are sent to long short-term memory neural network. The algorithm adopts the space-time dual stream network model structure. The RGB image of video data is taken as spatial stream network input, and the optical flow field image is taken as time flow network input. Then the recognition results obtained by the time-space dual-stream network are combined in a certain proportion to obtain the final behavior recognition result. The experimental results show that the space-time dual stream neural network algorithm designed in this paper has a high recognition accuracy in human behavior recognition tasks.

Key words : behavior recognition；batch normalization；long short-term memory neural network；deep learning

0 引言

人體行為識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要的課題。其在行為檢測(cè)、視頻監(jiān)控等領(lǐng)域都有著廣泛的應(yīng)用價(jià)值。與單純的圖片識(shí)別不同，人體行為識(shí)別會(huì)受到諸多因素的干擾，例如光照、背景等。傳統(tǒng)方法中，通常通過手動(dòng)設(shè)計(jì)某些特定的特征，對(duì)數(shù)據(jù)集中特定的動(dòng)作進(jìn)行識(shí)別，典型的有HOG/HOF^[1]等。文獻(xiàn)[2]提出一種基于稠密光流軌跡與稀疏編碼算法的行為識(shí)別方法，將融合框架提取出的行為特征進(jìn)行處理后，送入支持向量機(jī)中得到模型進(jìn)行分類；文獻(xiàn)[3]利用顯著性檢測(cè)獲取到動(dòng)作主體位置并提取稠密軌跡，采用Fisher Vector去增強(qiáng)特征，再利用SVM進(jìn)行識(shí)別；文獻(xiàn)[4]利用序列化的思想提取骨骼特征矢量，利用SVM訓(xùn)練并識(shí)別靜態(tài)特征。然而，傳統(tǒng)方法在面對(duì)諸多與現(xiàn)實(shí)場(chǎng)景接近的情況時(shí)，往往很難取得好的識(shí)別效果^[5]。

近些年，隨著人工智能技術(shù)的崛起，深度學(xué)習(xí)模型也被應(yīng)用到了人體行為識(shí)別任務(wù)中去。利用深度學(xué)習(xí)模型去自動(dòng)提取特征，良好地避免了人工設(shè)計(jì)特征過程中的盲目性和差異性。深度學(xué)習(xí)模型的一種——卷積神經(jīng)網(wǎng)絡(luò)，通過對(duì)輸入數(shù)據(jù)的卷積操作，逐層提取特征，從而對(duì)圖像進(jìn)行識(shí)別分類，其在圖像識(shí)別領(lǐng)域已經(jīng)取得了優(yōu)異的成果。2012年的AlexNet網(wǎng)絡(luò)^[6]，將ImageNet數(shù)據(jù)集上的top-5錯(cuò)誤率降低到了16.4%；2015年的Inception v2網(wǎng)絡(luò)^[7]，提出了批量歸一化的方法；2017年的SeNet網(wǎng)絡(luò)^[8]，再次取得了ILSVRC比賽的冠軍。

而針對(duì)視頻人體行為識(shí)別問題，由于幀與幀之間具有著時(shí)間相關(guān)性，因此，單純將提取到的RGB數(shù)據(jù)輸入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類并不能得到一個(gè)很好的結(jié)果。文獻(xiàn)[9]將視頻數(shù)據(jù)的稠密光流與RGB數(shù)據(jù)分別送入CNN進(jìn)行訓(xùn)練，使網(wǎng)絡(luò)良好處理了時(shí)空信息，再將雙流網(wǎng)絡(luò)各自得到的結(jié)果進(jìn)行融合；文獻(xiàn)[10]將數(shù)據(jù)通過一組硬連接內(nèi)核進(jìn)行處理后，利用3D卷積網(wǎng)絡(luò)訓(xùn)練提取信息進(jìn)行人體行為識(shí)別。

除此之外，遞歸神經(jīng)網(wǎng)絡(luò)(RNN)也經(jīng)常被采用來處理此類問題。RNN是一個(gè)具有循環(huán)的網(wǎng)絡(luò)，可以被看作對(duì)同一神經(jīng)網(wǎng)絡(luò)的多次賦值，其允許了信息的持久化。然而，RNN有著梯度消失的問題，為此HOCHREITER S等人提出了一個(gè)新的RNN單元，長短期記憶遞歸神經(jīng)網(wǎng)絡(luò)單元^[11]，通過刻意的設(shè)計(jì)避免了長期依賴問題的出現(xiàn)。文獻(xiàn)[12]首次將CNN與LSTM進(jìn)行結(jié)合運(yùn)用在了視頻識(shí)別與視頻描述領(lǐng)域；文獻(xiàn)[13]用3D卷積提取數(shù)據(jù)特征，再送入LSTM網(wǎng)絡(luò)中，用于行為識(shí)別。

本文設(shè)計(jì)了一種采用批歸一化方法的CNN與LSTM結(jié)合的網(wǎng)絡(luò)，將批歸一化處理運(yùn)用到了設(shè)計(jì)的CNN中，通過全連接層，送入LSTM單元對(duì)得到的特征序列進(jìn)行處理，采用Softmax層映射類別。算法提取視頻數(shù)據(jù)的RGB圖像作為空間流輸入，光流場(chǎng)圖像作為時(shí)間流輸入，再將各自得出的分類結(jié)果進(jìn)行加權(quán)融合，得出最終的分類結(jié)果，用于人體行為識(shí)別。該算法在KTH視頻數(shù)據(jù)集上的識(shí)別率達(dá)到了95.8%，可有效地運(yùn)用在人體行為識(shí)別任務(wù)上。

1 模型結(jié)構(gòu)

1.1 雙流模型框架

視頻數(shù)據(jù)具有時(shí)間和空間兩部分的特性。空間部分RGB圖像包含了物體的外觀信息，時(shí)間部分光流場(chǎng)圖像包含了物體的運(yùn)動(dòng)信息。因此，分別提取出視頻的光流場(chǎng)圖像與RGB圖像作為輸入數(shù)據(jù),得出各自分類結(jié)果后進(jìn)行加權(quán)融合，網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

1.2 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)通常由卷積層、池化層、全連接層堆疊而成。卷積層利用多個(gè)不同的卷積核，提取目標(biāo)的特征，生成特征圖；池化層用來進(jìn)行下采樣，將相鄰特征圖的特征進(jìn)行合并，減小維度；全連接層起到將學(xué)到的分布式特征映射到樣本標(biāo)記空間的作用。

然而深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)，各層網(wǎng)絡(luò)的輸入分布會(huì)受到上一層的影響，隨著網(wǎng)絡(luò)的不斷加深，網(wǎng)絡(luò)層的微小變動(dòng)產(chǎn)生的影響會(huì)被放大，從而導(dǎo)致梯度消失、梯度爆炸、網(wǎng)絡(luò)收斂到一個(gè)局部最優(yōu)值等問題。為此，本文將批歸一化思想^[7]從圖像分類領(lǐng)域引入到了行為識(shí)別領(lǐng)域，對(duì)網(wǎng)絡(luò)輸入的樣本進(jìn)行小批量歸一化處理。

傳統(tǒng)的批歸一化操作公式如下:

而對(duì)于此式，由于需要對(duì)全部的訓(xùn)練樣本集合進(jìn)行操作，計(jì)算其協(xié)方差矩陣，計(jì)算量極其龐大。對(duì)此，文獻(xiàn)[7]提出了兩點(diǎn)改進(jìn)措施：

(1)輸入數(shù)據(jù)的每一維進(jìn)行獨(dú)立的批歸一化處理；

(2)采用小批量（mini-batch）。

對(duì)于有d維輸入x=(x⁽¹⁾…x^(d))的神經(jīng)網(wǎng)絡(luò)層，利用式(3)去歸一化每一維：

式(3)的期望與方差在每個(gè)mini-batch上對(duì)每層進(jìn)行運(yùn)算得出。該歸一化操作能加速收斂，即使特征之間不具有相關(guān)性。并且通過mini-batch的方式，批歸一化所需的信息能被運(yùn)用在了反向傳播之中。

同時(shí)，對(duì)每一個(gè)輸入?yún)?shù)x^(k)都引入一對(duì)參數(shù)λ^(k)和β^(k)，如式(4)所示：

1.3 長短期記憶神經(jīng)網(wǎng)絡(luò)

人體動(dòng)作識(shí)別的數(shù)據(jù)是一組連續(xù)的數(shù)據(jù)，相鄰幀之間有著極大的相關(guān)性，因此遞歸神經(jīng)網(wǎng)絡(luò)被用來處理這種問題。傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)包含輸入序列X，隱藏序列H，輸出序列Y。其隱藏層中包含著時(shí)間序列的歷史信息，前向公式可表述為：

1.4 融合模型

本文的CNN結(jié)構(gòu)由卷積層、池化層、全連接層堆疊而成，并在每個(gè)卷積層之后加入batchnorm操作進(jìn)行小批量歸一化。

實(shí)驗(yàn)數(shù)據(jù)采用25 f/s的圖像序列，對(duì)提取的每幀圖片，將尺寸擴(kuò)充為227×227。輸入數(shù)據(jù)的維度為25×227×227×3。25為視頻數(shù)據(jù)幀數(shù)，227×227為圖片尺寸，3為RGB圖片的3個(gè)通道。融合模型的CNN部分如圖2所示。

圖2中上方的是特征圖的維度大小，下方的是神經(jīng)網(wǎng)絡(luò)的操作層。人體行為識(shí)別CNN部分的模型一共有5個(gè)卷積層，每個(gè)卷積層后都有一個(gè)非線性激活函數(shù)ReLU去增加非線性，同時(shí)，每個(gè)卷積層之后也都有一個(gè)batchnorm層與scale層組合共同完成小批量歸一化操作。CNN的最后是一個(gè)全連接層，將輸入的數(shù)據(jù)進(jìn)行矢量化操作后，再送入LSTM網(wǎng)絡(luò)中。

數(shù)據(jù)輸入LSTM中后，在長短期遞歸神經(jīng)網(wǎng)絡(luò)中按時(shí)序做遞歸運(yùn)算，每次遞歸運(yùn)算的結(jié)果是之前所有特征和當(dāng)前特征的總和。本文采用一層的LSTM模型，結(jié)構(gòu)如圖3所示。

融合后的模型如圖4所示，將視頻數(shù)據(jù)的光流場(chǎng)與RGB形式分別作為時(shí)間與空間兩種數(shù)據(jù)流輸入設(shè)計(jì)的網(wǎng)絡(luò)中進(jìn)行分別的訓(xùn)練，再將各自得到的分類結(jié)果進(jìn)行加權(quán)融合，最終用于人體行為識(shí)別任務(wù)。

2 實(shí)驗(yàn)過程

2.1 數(shù)據(jù)集

本文使用公開的KTH視頻數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)來檢驗(yàn)算法的效果，部分動(dòng)作的示意圖如圖5所示。數(shù)據(jù)集包含由固定攝像機(jī)拍攝的600個(gè)動(dòng)作視頻。視頻的幀數(shù)為25 f/s，視頻每幀圖片的分辨率都為160像素×120像素。共有25名不同的實(shí)驗(yàn)對(duì)象，4個(gè)不同的實(shí)驗(yàn)場(chǎng)景：室外、室內(nèi)、室外尺度變化、室外著裝變化，6種不同的人體行為：散步、慢跑、奔跑、揮手、拍手、拳擊。

2.2 實(shí)驗(yàn)結(jié)果與分析

本文在Linux系統(tǒng)下搭建的平臺(tái)上用單核GTX 1070 GPU進(jìn)行訓(xùn)練。將KTH數(shù)據(jù)集以動(dòng)作類別進(jìn)行劃分，每個(gè)動(dòng)作的前80%作為訓(xùn)練集，后20%作為測(cè)試集。視頻數(shù)據(jù)的光流場(chǎng)圖像與RGB圖像被預(yù)先提取出來，提取出的每張圖片被擴(kuò)充為227×227，在保證特征不損失的情況下，為加載該訓(xùn)練網(wǎng)絡(luò)的CNN部分在ImageNet數(shù)據(jù)集下訓(xùn)練30萬次的預(yù)訓(xùn)練模型參數(shù)做準(zhǔn)備，用以增強(qiáng)模型的魯棒性，防止過擬合，并加速收斂。

圖6顯示了訓(xùn)練過程中，光流場(chǎng)時(shí)間網(wǎng)絡(luò)和RGB空間網(wǎng)絡(luò)隨著訓(xùn)練次數(shù)的增加，對(duì)訓(xùn)練數(shù)據(jù)識(shí)別準(zhǔn)確率的變化情況。從圖中可以看出，在空間流上，當(dāng)?shù)螖?shù)接近10 000次時(shí)，準(zhǔn)確率達(dá)到86%，趨于穩(wěn)定，隨著迭代的進(jìn)行，準(zhǔn)確率緩慢上升；在時(shí)間流上，當(dāng)?shù)螖?shù)接近16 000次時(shí)，準(zhǔn)確率達(dá)到90%以上，隨著迭代的進(jìn)行，準(zhǔn)確率增長趨于平緩，收斂近乎飽和。

在得到時(shí)空網(wǎng)絡(luò)各自訓(xùn)練出的模型后，將雙流的分類結(jié)果進(jìn)行加權(quán)融合。圖7中， RGB空間網(wǎng)絡(luò)分類結(jié)果的權(quán)重以0.05的步長進(jìn)行增加，逐步提高占比。

可以看出，當(dāng)純粹以空間流網(wǎng)絡(luò)或者時(shí)間流網(wǎng)絡(luò)進(jìn)行人體行為識(shí)別時(shí)，時(shí)間流網(wǎng)絡(luò)提取出的運(yùn)動(dòng)信息比空間流網(wǎng)絡(luò)提取出的外觀與背景信息具有更高的識(shí)別率，這也說明了在行為識(shí)別任務(wù)中，光流數(shù)據(jù)所包含的運(yùn)動(dòng)信息比RGB數(shù)據(jù)包含的外觀信息更為有效。當(dāng)識(shí)別的權(quán)重比為RGB：光流場(chǎng)=0.35：0.65時(shí)，本文設(shè)計(jì)的模型達(dá)到最好的識(shí)別效果，以一定權(quán)重比融合的時(shí)空雙流神經(jīng)網(wǎng)絡(luò)能有效改善單獨(dú)的網(wǎng)絡(luò)在識(shí)別上的準(zhǔn)確率。

在表1中，本文選取了融合的時(shí)空雙流網(wǎng)絡(luò)在KTH數(shù)據(jù)集上得到的最好的識(shí)別結(jié)果與已有的一些算法模型進(jìn)行了對(duì)比。

可以看出，本文設(shè)計(jì)的基于批歸一化的卷積神經(jīng)網(wǎng)絡(luò)與LSTM結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu)在將其在RGB空間圖像與光流場(chǎng)時(shí)間圖像分別得到的分類結(jié)果以0.35：0.65的比例進(jìn)行加權(quán)融合之后，可以得到優(yōu)于文獻(xiàn)[2]與文獻(xiàn)[3]提出的兩種傳統(tǒng)算法的結(jié)果。在和同樣是以深度學(xué)習(xí)為基礎(chǔ)的算法進(jìn)行對(duì)比時(shí)，本文設(shè)計(jì)的模型結(jié)構(gòu)同樣也優(yōu)于文獻(xiàn)[10]與文獻(xiàn)[13]提出的兩種算法。這充分說明本文提出的算法在人體行為識(shí)別任務(wù)上具有可行性。

表2所示的混淆矩陣對(duì)測(cè)試集中6種不同的動(dòng)作行為的識(shí)別結(jié)果做了可視化，對(duì)角線元素表示正確識(shí)別率。可以看出，在KTH數(shù)據(jù)集中模型對(duì)“拳擊”和“揮手”動(dòng)作的識(shí)別率最高，由于“拍手”與“揮手”之間有部分的相似性，因此，有部分“拍手”被識(shí)別成了“揮手”。 “慢跑”和“散步”、“跑步”之間相似性較高，因此，這三者之間產(chǎn)生了一些誤識(shí)別率。但就總體而言模型依舊具有良好的泛化能力和魯棒性。

3 結(jié)論

本文提出了一種采用批歸一化的卷積神經(jīng)網(wǎng)絡(luò)與LSTM網(wǎng)絡(luò)結(jié)合的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)。采用視頻數(shù)據(jù)的RGB圖像與光流場(chǎng)圖像分別作為空間流網(wǎng)絡(luò)輸入與時(shí)間流網(wǎng)絡(luò)輸入，再將時(shí)空雙流網(wǎng)絡(luò)分別得到的分類結(jié)果以一定的權(quán)重比例進(jìn)行融合。本文模型在KTH數(shù)據(jù)集的測(cè)試集上的識(shí)別率達(dá)到了95.8%。相較于文中對(duì)比的兩種傳統(tǒng)方法與兩種深度學(xué)習(xí)方法，本文模型能更好地提取視頻中的時(shí)序特征與空間特征，識(shí)別率較好。整個(gè)模型基于深度神經(jīng)網(wǎng)絡(luò)，無需先驗(yàn)經(jīng)驗(yàn)，具有良好的泛化性與實(shí)用性。

參考文獻(xiàn)

[1] LAPTEV I，MARSZALEK M，SCHMID C，et al.Learning realistic human actions from movies[C].IEEE Conference on Computer Vision and Pattern Recognition，2008.CVPR 2008.IEEE，2008：1-8.

[2] 趙曉健，曾曉勤.基于稠密光流軌跡和稀疏編碼算法的行為識(shí)別方法[J].計(jì)算機(jī)應(yīng)用，2016，36(1)：181-187.

[3] 鹿天然，于鳳芹，楊慧中，等.基于顯著性檢測(cè)和稠密軌跡的人體行為識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用，2018，54(4)：163-167.

[4] 胡青松，張亮.人體行為序列化識(shí)別算法研究[J].電子技術(shù)應(yīng)用，2018，44(4)：122-125.

[5] 羅海波，許凌云，惠斌，等.基于深度學(xué)習(xí)的目標(biāo)跟蹤方法研究現(xiàn)狀與展望[J].紅外與激光工程，2017(5)：6-12.

[6] KRIZHEVSKY A，SUTSKEVER I，HINTON G E.Imagenet classification with deep convolutional neural networks[C].Advances in Neural Information Processing Systems，2012：1097-1105.

[7] IOFFE S，SZEGEDY C.Batch normalization: accelerating deep network training by reducing internal covariate shift[C].Proceedings of the 32nd International Conference on Machine Learning，2015：448-456.

[8] HU J，SHEN L，SUN G.Squeeze-and-excitation networks[J].arXiv preprint arXiv：1709.01507，2017，7.

[9] WANG L，XIONG Y，WANG Z，et al.Temporal segment networks：towards good practices for deep action recognition[C].European Conference on Computer Vision.Springer，Cham，2016：20-36.

[10] JI S，XU W，YANG M，et al.3D convolutional neural networks for human action recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2013，35(1)：221-231.

[11] HOCHREITER S，SCHMIDHUBER J.Long short-term memory[J].Neural Computation，1997，9(8)：1735-1780.

[12] DONAHUE J，ANNE HENDRICKS L，GUADARRAMA S，et al.Long-term recurrent convolutional networks for visual recognition and description[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition，2015：2625-2634.

[13] 秦陽，莫凌飛，郭文科，等.3D CNNs與LSTMs在行為識(shí)別中的組合及其應(yīng)用[J].測(cè)控技術(shù)，2017(2)：28-32.

作者信息:

黃友文，萬超倫

(江西理工大學(xué) 信息工程學(xué)院，江西贛州341000)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容