文獻(xiàn)標(biāo)識(shí)碼: A
DOI:10.16157/j.issn.0258-7998.182201
中文引用格式: 黃友文,,萬(wàn)超倫. 基于深度學(xué)習(xí)的人體行為識(shí)別算法[J].電子技術(shù)應(yīng)用,,2018,44(10):1-5,,10.
英文引用格式: Huang Youwen,,Wan Chaolun. Human behavior recognition algorithm based on deep learning[J]. Application of Electronic Technique,2018,,44(10):1-5,,10.
0 引言
人體行為識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)重要的課題,。其在行為檢測(cè),、視頻監(jiān)控等領(lǐng)域都有著廣泛的應(yīng)用價(jià)值。與單純的圖片識(shí)別不同,,人體行為識(shí)別會(huì)受到諸多因素的干擾,,例如光照、背景等,。傳統(tǒng)方法中,,通常通過(guò)手動(dòng)設(shè)計(jì)某些特定的特征,對(duì)數(shù)據(jù)集中特定的動(dòng)作進(jìn)行識(shí)別,,典型的有HOG/HOF[1]等,。文獻(xiàn)[2]提出一種基于稠密光流軌跡與稀疏編碼算法的行為識(shí)別方法,將融合框架提取出的行為特征進(jìn)行處理后,,送入支持向量機(jī)中得到模型進(jìn)行分類,;文獻(xiàn)[3]利用顯著性檢測(cè)獲取到動(dòng)作主體位置并提取稠密軌跡,采用Fisher Vector去增強(qiáng)特征,,再利用SVM進(jìn)行識(shí)別,;文獻(xiàn)[4]利用序列化的思想提取骨骼特征矢量,利用SVM訓(xùn)練并識(shí)別靜態(tài)特征,。然而,,傳統(tǒng)方法在面對(duì)諸多與現(xiàn)實(shí)場(chǎng)景接近的情況時(shí),往往很難取得好的識(shí)別效果[5],。
近些年,,隨著人工智能技術(shù)的崛起,深度學(xué)習(xí)模型也被應(yīng)用到了人體行為識(shí)別任務(wù)中去,。利用深度學(xué)習(xí)模型去自動(dòng)提取特征,,良好地避免了人工設(shè)計(jì)特征過(guò)程中的盲目性和差異性。深度學(xué)習(xí)模型的一種——卷積神經(jīng)網(wǎng)絡(luò),,通過(guò)對(duì)輸入數(shù)據(jù)的卷積操作,,逐層提取特征,從而對(duì)圖像進(jìn)行識(shí)別分類,,其在圖像識(shí)別領(lǐng)域已經(jīng)取得了優(yōu)異的成果,。2012年的AlexNet網(wǎng)絡(luò)[6],,將ImageNet數(shù)據(jù)集上的top-5錯(cuò)誤率降低到了16.4%;2015年的Inception v2網(wǎng)絡(luò)[7],,提出了批量歸一化的方法,;2017年的SeNet網(wǎng)絡(luò)[8],再次取得了ILSVRC比賽的冠軍,。
而針對(duì)視頻人體行為識(shí)別問(wèn)題,,由于幀與幀之間具有著時(shí)間相關(guān)性,因此,,單純將提取到的RGB數(shù)據(jù)輸入卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類并不能得到一個(gè)很好的結(jié)果,。文獻(xiàn)[9]將視頻數(shù)據(jù)的稠密光流與RGB數(shù)據(jù)分別送入CNN進(jìn)行訓(xùn)練,使網(wǎng)絡(luò)良好處理了時(shí)空信息,,再將雙流網(wǎng)絡(luò)各自得到的結(jié)果進(jìn)行融合,;文獻(xiàn)[10]將數(shù)據(jù)通過(guò)一組硬連接內(nèi)核進(jìn)行處理后,利用3D卷積網(wǎng)絡(luò)訓(xùn)練提取信息進(jìn)行人體行為識(shí)別,。
除此之外,,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)也經(jīng)常被采用來(lái)處理此類問(wèn)題。RNN是一個(gè)具有循環(huán)的網(wǎng)絡(luò),,可以被看作對(duì)同一神經(jīng)網(wǎng)絡(luò)的多次賦值,,其允許了信息的持久化。然而,,RNN有著梯度消失的問(wèn)題,,為此HOCHREITER S等人提出了一個(gè)新的RNN單元,長(zhǎng)短期記憶遞歸神經(jīng)網(wǎng)絡(luò)單元[11],,通過(guò)刻意的設(shè)計(jì)避免了長(zhǎng)期依賴問(wèn)題的出現(xiàn),。文獻(xiàn)[12]首次將CNN與LSTM進(jìn)行結(jié)合運(yùn)用在了視頻識(shí)別與視頻描述領(lǐng)域;文獻(xiàn)[13]用3D卷積提取數(shù)據(jù)特征,,再送入LSTM網(wǎng)絡(luò)中,,用于行為識(shí)別。
本文設(shè)計(jì)了一種采用批歸一化方法的CNN與LSTM結(jié)合的網(wǎng)絡(luò),,將批歸一化處理運(yùn)用到了設(shè)計(jì)的CNN中,,通過(guò)全連接層,送入LSTM單元對(duì)得到的特征序列進(jìn)行處理,,采用Softmax層映射類別,。算法提取視頻數(shù)據(jù)的RGB圖像作為空間流輸入,光流場(chǎng)圖像作為時(shí)間流輸入,,再將各自得出的分類結(jié)果進(jìn)行加權(quán)融合,,得出最終的分類結(jié)果,用于人體行為識(shí)別。該算法在KTH視頻數(shù)據(jù)集上的識(shí)別率達(dá)到了95.8%,,可有效地運(yùn)用在人體行為識(shí)別任務(wù)上,。
1 模型結(jié)構(gòu)
1.1 雙流模型框架
視頻數(shù)據(jù)具有時(shí)間和空間兩部分的特性??臻g部分RGB圖像包含了物體的外觀信息,,時(shí)間部分光流場(chǎng)圖像包含了物體的運(yùn)動(dòng)信息。因此,,分別提取出視頻的光流場(chǎng)圖像與RGB圖像作為輸入數(shù)據(jù),得出各自分類結(jié)果后進(jìn)行加權(quán)融合,,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
1.2 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)通常由卷積層,、池化層,、全連接層堆疊而成,。卷積層利用多個(gè)不同的卷積核,,提取目標(biāo)的特征,生成特征圖,;池化層用來(lái)進(jìn)行下采樣,,將相鄰特征圖的特征進(jìn)行合并,減小維度,;全連接層起到將學(xué)到的分布式特征映射到樣本標(biāo)記空間的作用,。
然而深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí),各層網(wǎng)絡(luò)的輸入分布會(huì)受到上一層的影響,,隨著網(wǎng)絡(luò)的不斷加深,,網(wǎng)絡(luò)層的微小變動(dòng)產(chǎn)生的影響會(huì)被放大,從而導(dǎo)致梯度消失,、梯度爆炸,、網(wǎng)絡(luò)收斂到一個(gè)局部最優(yōu)值等問(wèn)題。為此,,本文將批歸一化思想[7]從圖像分類領(lǐng)域引入到了行為識(shí)別領(lǐng)域,,對(duì)網(wǎng)絡(luò)輸入的樣本進(jìn)行小批量歸一化處理。
傳統(tǒng)的批歸一化操作公式如下:
而對(duì)于此式,,由于需要對(duì)全部的訓(xùn)練樣本集合進(jìn)行操作,,計(jì)算其協(xié)方差矩陣,計(jì)算量極其龐大,。對(duì)此,,文獻(xiàn)[7]提出了兩點(diǎn)改進(jìn)措施:
(1)輸入數(shù)據(jù)的每一維進(jìn)行獨(dú)立的批歸一化處理;
(2)采用小批量(mini-batch),。
對(duì)于有d維輸入x=(x(1)…x(d))的神經(jīng)網(wǎng)絡(luò)層,,利用式(3)去歸一化每一維:
式(3)的期望與方差在每個(gè)mini-batch上對(duì)每層進(jìn)行運(yùn)算得出。該歸一化操作能加速收斂,即使特征之間不具有相關(guān)性,。并且通過(guò)mini-batch的方式,,批歸一化所需的信息能被運(yùn)用在了反向傳播之中。
同時(shí),,對(duì)每一個(gè)輸入?yún)?shù)x(k)都引入一對(duì)參數(shù)λ(k)和β(k),,如式(4)所示:
1.3 長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)
人體動(dòng)作識(shí)別的數(shù)據(jù)是一組連續(xù)的數(shù)據(jù),相鄰幀之間有著極大的相關(guān)性,,因此遞歸神經(jīng)網(wǎng)絡(luò)被用來(lái)處理這種問(wèn)題,。傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)包含輸入序列X,隱藏序列H,,輸出序列Y,。其隱藏層中包含著時(shí)間序列的歷史信息,前向公式可表述為:
1.4 融合模型
本文的CNN結(jié)構(gòu)由卷積層,、池化層,、全連接層堆疊而成,并在每個(gè)卷積層之后加入batchnorm操作進(jìn)行小批量歸一化,。
實(shí)驗(yàn)數(shù)據(jù)采用25 f/s的圖像序列,,對(duì)提取的每幀圖片,將尺寸擴(kuò)充為227×227,。輸入數(shù)據(jù)的維度為25×227×227×3,。25為視頻數(shù)據(jù)幀數(shù),227×227為圖片尺寸,,3為RGB圖片的3個(gè)通道,。融合模型的CNN部分如圖2所示。
圖2中上方的是特征圖的維度大小,,下方的是神經(jīng)網(wǎng)絡(luò)的操作層,。人體行為識(shí)別CNN部分的模型一共有5個(gè)卷積層,每個(gè)卷積層后都有一個(gè)非線性激活函數(shù)ReLU去增加非線性,,同時(shí),,每個(gè)卷積層之后也都有一個(gè)batchnorm層與scale層組合共同完成小批量歸一化操作。CNN的最后是一個(gè)全連接層,,將輸入的數(shù)據(jù)進(jìn)行矢量化操作后,,再送入LSTM網(wǎng)絡(luò)中。
數(shù)據(jù)輸入LSTM中后,,在長(zhǎng)短期遞歸神經(jīng)網(wǎng)絡(luò)中按時(shí)序做遞歸運(yùn)算,,每次遞歸運(yùn)算的結(jié)果是之前所有特征和當(dāng)前特征的總和。本文采用一層的LSTM模型,,結(jié)構(gòu)如圖3所示,。
融合后的模型如圖4所示,將視頻數(shù)據(jù)的光流場(chǎng)與RGB形式分別作為時(shí)間與空間兩種數(shù)據(jù)流輸入設(shè)計(jì)的網(wǎng)絡(luò)中進(jìn)行分別的訓(xùn)練,再將各自得到的分類結(jié)果進(jìn)行加權(quán)融合,,最終用于人體行為識(shí)別任務(wù),。
2 實(shí)驗(yàn)過(guò)程
2.1 數(shù)據(jù)集
本文使用公開(kāi)的KTH視頻數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)來(lái)檢驗(yàn)算法的效果,部分動(dòng)作的示意圖如圖5所示,。數(shù)據(jù)集包含由固定攝像機(jī)拍攝的600個(gè)動(dòng)作視頻,。視頻的幀數(shù)為25 f/s,視頻每幀圖片的分辨率都為160像素×120像素,。共有25名不同的實(shí)驗(yàn)對(duì)象,,4個(gè)不同的實(shí)驗(yàn)場(chǎng)景:室外、室內(nèi),、室外尺度變化,、室外著裝變化,6種不同的人體行為:散步,、慢跑,、奔跑、揮手,、拍手,、拳擊。
2.2 實(shí)驗(yàn)結(jié)果與分析
本文在Linux系統(tǒng)下搭建的平臺(tái)上用單核GTX 1070 GPU進(jìn)行訓(xùn)練,。將KTH數(shù)據(jù)集以動(dòng)作類別進(jìn)行劃分,每個(gè)動(dòng)作的前80%作為訓(xùn)練集,,后20%作為測(cè)試集,。視頻數(shù)據(jù)的光流場(chǎng)圖像與RGB圖像被預(yù)先提取出來(lái),提取出的每張圖片被擴(kuò)充為227×227,,在保證特征不損失的情況下,,為加載該訓(xùn)練網(wǎng)絡(luò)的CNN部分在ImageNet數(shù)據(jù)集下訓(xùn)練30萬(wàn)次的預(yù)訓(xùn)練模型參數(shù)做準(zhǔn)備,用以增強(qiáng)模型的魯棒性,,防止過(guò)擬合,,并加速收斂。
圖6顯示了訓(xùn)練過(guò)程中,,光流場(chǎng)時(shí)間網(wǎng)絡(luò)和RGB空間網(wǎng)絡(luò)隨著訓(xùn)練次數(shù)的增加,,對(duì)訓(xùn)練數(shù)據(jù)識(shí)別準(zhǔn)確率的變化情況。從圖中可以看出,,在空間流上,,當(dāng)?shù)螖?shù)接近10 000次時(shí),準(zhǔn)確率達(dá)到86%,,趨于穩(wěn)定,,隨著迭代的進(jìn)行,準(zhǔn)確率緩慢上升;在時(shí)間流上,,當(dāng)?shù)螖?shù)接近16 000次時(shí),,準(zhǔn)確率達(dá)到90%以上,隨著迭代的進(jìn)行,,準(zhǔn)確率增長(zhǎng)趨于平緩,,收斂近乎飽和。
在得到時(shí)空網(wǎng)絡(luò)各自訓(xùn)練出的模型后,,將雙流的分類結(jié)果進(jìn)行加權(quán)融合,。圖7中, RGB空間網(wǎng)絡(luò)分類結(jié)果的權(quán)重以0.05的步長(zhǎng)進(jìn)行增加,,逐步提高占比,。
可以看出,當(dāng)純粹以空間流網(wǎng)絡(luò)或者時(shí)間流網(wǎng)絡(luò)進(jìn)行人體行為識(shí)別時(shí),,時(shí)間流網(wǎng)絡(luò)提取出的運(yùn)動(dòng)信息比空間流網(wǎng)絡(luò)提取出的外觀與背景信息具有更高的識(shí)別率,,這也說(shuō)明了在行為識(shí)別任務(wù)中,光流數(shù)據(jù)所包含的運(yùn)動(dòng)信息比RGB數(shù)據(jù)包含的外觀信息更為有效,。當(dāng)識(shí)別的權(quán)重比為RGB:光流場(chǎng)=0.35:0.65時(shí),,本文設(shè)計(jì)的模型達(dá)到最好的識(shí)別效果,以一定權(quán)重比融合的時(shí)空雙流神經(jīng)網(wǎng)絡(luò)能有效改善單獨(dú)的網(wǎng)絡(luò)在識(shí)別上的準(zhǔn)確率,。
在表1中,,本文選取了融合的時(shí)空雙流網(wǎng)絡(luò)在KTH數(shù)據(jù)集上得到的最好的識(shí)別結(jié)果與已有的一些算法模型進(jìn)行了對(duì)比。
可以看出,,本文設(shè)計(jì)的基于批歸一化的卷積神經(jīng)網(wǎng)絡(luò)與LSTM結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu)在將其在RGB空間圖像與光流場(chǎng)時(shí)間圖像分別得到的分類結(jié)果以0.35:0.65的比例進(jìn)行加權(quán)融合之后,,可以得到優(yōu)于文獻(xiàn)[2]與文獻(xiàn)[3]提出的兩種傳統(tǒng)算法的結(jié)果。在和同樣是以深度學(xué)習(xí)為基礎(chǔ)的算法進(jìn)行對(duì)比時(shí),,本文設(shè)計(jì)的模型結(jié)構(gòu)同樣也優(yōu)于文獻(xiàn)[10]與文獻(xiàn)[13]提出的兩種算法,。這充分說(shuō)明本文提出的算法在人體行為識(shí)別任務(wù)上具有可行性。
表2所示的混淆矩陣對(duì)測(cè)試集中6種不同的動(dòng)作行為的識(shí)別結(jié)果做了可視化,,對(duì)角線元素表示正確識(shí)別率,。可以看出,,在KTH數(shù)據(jù)集中模型對(duì)“拳擊”和“揮手”動(dòng)作的識(shí)別率最高,,由于“拍手”與“揮手”之間有部分的相似性,因此,,有部分“拍手”被識(shí)別成了“揮手”,。 “慢跑”和“散步”、“跑步”之間相似性較高,,因此,,這三者之間產(chǎn)生了一些誤識(shí)別率,。但就總體而言模型依舊具有良好的泛化能力和魯棒性。
3 結(jié)論
本文提出了一種采用批歸一化的卷積神經(jīng)網(wǎng)絡(luò)與LSTM網(wǎng)絡(luò)結(jié)合的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),。采用視頻數(shù)據(jù)的RGB圖像與光流場(chǎng)圖像分別作為空間流網(wǎng)絡(luò)輸入與時(shí)間流網(wǎng)絡(luò)輸入,,再將時(shí)空雙流網(wǎng)絡(luò)分別得到的分類結(jié)果以一定的權(quán)重比例進(jìn)行融合。本文模型在KTH數(shù)據(jù)集的測(cè)試集上的識(shí)別率達(dá)到了95.8%,。相較于文中對(duì)比的兩種傳統(tǒng)方法與兩種深度學(xué)習(xí)方法,,本文模型能更好地提取視頻中的時(shí)序特征與空間特征,識(shí)別率較好,。整個(gè)模型基于深度神經(jīng)網(wǎng)絡(luò),,無(wú)需先驗(yàn)經(jīng)驗(yàn),具有良好的泛化性與實(shí)用性,。
參考文獻(xiàn)
[1] LAPTEV I,,MARSZALEK M,SCHMID C,,et al.Learning realistic human actions from movies[C].IEEE Conference on Computer Vision and Pattern Recognition,,2008.CVPR 2008.IEEE,2008:1-8.
[2] 趙曉健,,曾曉勤.基于稠密光流軌跡和稀疏編碼算法的行為識(shí)別方法[J].計(jì)算機(jī)應(yīng)用,,2016,36(1):181-187.
[3] 鹿天然,,于鳳芹,,楊慧中,等.基于顯著性檢測(cè)和稠密軌跡的人體行為識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用,,2018,,54(4):163-167.
[4] 胡青松,張亮.人體行為序列化識(shí)別算法研究[J].電子技術(shù)應(yīng)用,,2018,44(4):122-125.
[5] 羅海波,,許凌云,,惠斌,等.基于深度學(xué)習(xí)的目標(biāo)跟蹤方法研究現(xiàn)狀與展望[J].紅外與激光工程,,2017(5):6-12.
[6] KRIZHEVSKY A,,SUTSKEVER I,HINTON G E.Imagenet classification with deep convolutional neural networks[C].Advances in Neural Information Processing Systems,,2012:1097-1105.
[7] IOFFE S,,SZEGEDY C.Batch normalization: accelerating deep network training by reducing internal covariate shift[C].Proceedings of the 32nd International Conference on Machine Learning,2015:448-456.
[8] HU J,,SHEN L,,SUN G.Squeeze-and-excitation networks[J].arXiv preprint arXiv:1709.01507,,2017,7.
[9] WANG L,,XIONG Y,,WANG Z,et al.Temporal segment networks:towards good practices for deep action recognition[C].European Conference on Computer Vision.Springer,,Cham,,2016:20-36.
[10] JI S,XU W,,YANG M,,et al.3D convolutional neural networks for human action recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,,35(1):221-231.
[11] HOCHREITER S,,SCHMIDHUBER J.Long short-term memory[J].Neural Computation,1997,,9(8):1735-1780.
[12] DONAHUE J,,ANNE HENDRICKS L,GUADARRAMA S,,et al.Long-term recurrent convolutional networks for visual recognition and description[C].Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,,2015:2625-2634.
[13] 秦陽(yáng),莫凌飛,,郭文科,,等.3D CNNs與LSTMs在行為識(shí)別中的組合及其應(yīng)用[J].測(cè)控技術(shù),2017(2):28-32.
作者信息:
黃友文,,萬(wàn)超倫
(江西理工大學(xué) 信息工程學(xué)院,,江西 贛州341000)