面向特殊人群行為識別的主動學習與預測方法-AET-電子技術(shù)應用

面向特殊人群行為識別的主動學習與預測方法

2018年電子技術(shù)應用第11期

陳凡健

茂名職業(yè)技術(shù)學院計算機工程系，廣東茂名525000

摘要： 老人等特殊人群的智能護理是人體行為識別研究的新方向。現(xiàn)有行為識別方法在學習樣本時需要人工標記的樣本數(shù)量多，在面向特殊人群行為識別應用時存在工作量大、識別率低的問題。為此，提出一種主動學習與預測方法，依據(jù)信息熵和互信息量構(gòu)建目標函數(shù)，主動學習行為樣本集，自動生成需要人工標記的樣本子集。同時，以無向圖模型作為行為描述子，依據(jù)信任傳播方法進行類標簽預測。實驗結(jié)果表明，該方法需要人工標記的樣本數(shù)量少，而且對特殊人群行為識別的識別率高。

關(guān)鍵詞： 行為識別行為預測主動學習無向圖智能護理

中圖分類號： TP391
文獻標識碼： A
DOI：10.16157/j.issn.0258-7998.174976
中文引用格式： 陳凡健. 面向特殊人群行為識別的主動學習與預測方法[J].電子技術(shù)應用，2018，44(11)：116-120.
英文引用格式： Chen Fanjian. Active learning and prediction method for activity recognition of special populations[J]. Application of Electronic Technique，2018，44(11)：116-120.

Active learning and prediction method for activity recognition of special populations

Chen Fanjian

Department of Computer Engineering，Maoming Vocational Technical College，Maoming 525000，China

Abstract： The intelligent nursing of the elderly and other special populations is the new research direction of human activity recognition. For the existing activity recognition methods, the number of samples that need to be manually marked when learning samples is large, and there is a problem that the workload is large and the recognition rate is low in the application of activity recognition for special populations. Therefore, an active learning and prediction method is proposed, which constructs the objective function according to the information entropy and mutual information, to learn activity sample set actively, and automatically generates the subset of the samples need to be manually marked. At the same time, the undirected graph model is used as the activity descriptor, and the class labels are predicted through belief propagation method. The experimental results show that this method requires a small number of manually labeled samples, and the recognition rate of activity recognition for special populations is high.

Key words : activity recognition；activity prediction；active learning；undirected graph；intelligent nursing

0 引言

空巢老人的護理問題是目前社會的焦點問題之一，針對這類特殊群體的智能看護系統(tǒng)需求迫切。基于計算機視覺的人體行為識別技術(shù)可以實現(xiàn)人體行為的智能識別，對于特殊群體的智能看護有著重要意義。鑒于此，特殊人群的智能護理成為目前人體行為識別研究的新方向。人體行為識別是計算機視覺學科的研究熱點，在視頻監(jiān)控、電影分級、人工智能領(lǐng)域已有廣泛應用^[1]。人體行為常用一個特定的時間和空間模型來描述，行為識別需要獲取充分的時空信息來區(qū)分不同的行為類別，同時還需要處理復雜的外界環(huán)境因素干擾。然而，人體行為本身極其復雜，環(huán)境干擾也復雜多變，因此從視頻中自動識別人體行為還面臨著很大挑戰(zhàn)^[2]。目前的人體行為識別方法主要依據(jù)低層和中層的行為特征來區(qū)分不同行為，譬如全局時空特征^[3-4]、局部時空特征^[5-6]、深度感興趣點特征^[7]和梯度直方圖特征^[8-9]等。這些方法在KTH、WEIZANN等簡單行為數(shù)據(jù)集上可以達到較高的識別率，然而對特殊群體行為的區(qū)分能力有限^[10]。Action Bank^[10]是一種高層的行為特征表示方法，該方法采用許多獨立的行為檢測子進行行為檢測，然后再將檢測輸出轉(zhuǎn)化為特征向量，采用支持向量機（Support Vector Machines，SVM）對其進行分類，可以有效提高行為識別性能。但是，此方法的識別性能依賴于構(gòu)建的行為模型，而模型構(gòu)建需要人工標記大量樣本，人工標記難度和工作量很大。詞袋模型（Bag-of-Words，BoW）^[11]是目前比較流行的行為識別方法之一，該方法的主要優(yōu)點是魯棒性強，計算效率高。但是，該模型只關(guān)注行為的局部特征，難以區(qū)分局部行為類似而整體行為差異巨大的人體行為，譬如采用手部向外用力的特征難以區(qū)分用手推門的動作和用手推人的動作。

為了提高行為識別算法對特殊群體行為識別的識別率，同時降低人工標記樣本的難度和工作量，本文提出一種主動學習與預測的特殊群體行為識別方法。在現(xiàn)有采用局部時空特征描述行為的基礎上，構(gòu)建包含行為類別、行為屬性、目標屬性、幀內(nèi)特征和幀間特征的行為圖模型及各條邊的勢能函數(shù)，結(jié)合信任傳播算法進行行為的類標簽預測，依據(jù)行為頂點的熵和各行為頂點之間的互信息量進行主動學習，可以有效提高行為識別率和降低人工標記樣本的工作量。

1 主動學習與預測方法

本文提出一種面向特殊群體行為識別的主動學習與預測方法，采用無向圖模型作為行為描述子，依據(jù)信任傳播方法進行類標簽預測，依據(jù)信息熵和互信息量構(gòu)建目標函數(shù)，主動學習行為樣本集，自動生成需要人工標記的樣本子集，詳細描述如下。

1.1 行為描述子

圖模型（Graph Model，GM）^[12]是采用圖的形式來描述條件獨立的概率分布，這樣可以將概率分布表示成多個因子的乘積形式，從而簡化概率分布的計算。圖模型包含有向圖和無向圖兩類，有向圖模型中各個節(jié)點的連接是有方向的，而無向圖模型中各個節(jié)點的連接沒有方向。在描述行為時，行為各種特征構(gòu)成的節(jié)點之間的連接并沒有明確的方向，故本文采用無圖模型來描述行為，記為G=(V，E)。其中，V表示圖的頂點集合，E表示圖的邊的集合^[13]。

在本文中，圖模型的頂點分為五類：

(1)行為類別頂點：簡記為C，用于描述行為的類別，如奔跑行為、行走行為；

(2)行為屬性頂點：簡記為A，用于描述行為的屬性，可以由行為分類器的分類得分表示；

(3)目標屬性頂點：簡記為O，用于描述目標的屬性，可以由目標分類器的分類得分表示；

(4)幀內(nèi)特征頂點：簡記為X，用于描述行為的單幀特征，如方向梯度直方圖（Histogram of Oriented Gradient，HOG）特征；

(5)幀間特征頂點：簡記為Y，用于描述行為的視頻相關(guān)性特征，如光流直方圖(Histogram of Optical Flow，HOF)特征。

這樣，圖模型的頂點集合可以表示為V={C，A，O，X，Y}，如圖1所示。

E表示圖的邊的集合。本文的設計思想是，幀內(nèi)特征輸入分類器P_x后得到目標屬性信息，故幀內(nèi)特征頂點X與目標屬性頂點O相連接；幀間特征輸入分類器P_y得到行為屬性信息，故幀間特征頂點Y與行為屬性頂點A相連接；行為分類時需要參考目標屬性信息和行為屬性信息，故行為類別頂點C與目標屬性頂點O和行為屬性頂點A相連接；另外，考慮到不同行為之間可能存在相關(guān)性，故不同的行為類別頂點C也可以相互連接。于是，行為圖模型邊的集合可以表示為E={C-C，C-A，C-O，A-Y，O-X}，如圖1所示。

對于一個視頻片段v_i，本文提取每一幀圖像中時空興趣點的HOG特征作為幀內(nèi)特征，提取HOF特征作為幀間特征，具體特征提取過程詳見文獻[6]。特征的訓練與分類采用SVM方法，詳見文獻[10]，這里不再贅述。本文主要闡述如何采用圖模型對行為和目標屬性之間的內(nèi)在關(guān)系進行建模，目的是在判定行為類別時既利用視頻的相關(guān)性信息，又利用目標的屬性信息，這樣可以降低各種干擾目標的運動對行為判決的影響，從而降低行為識別的虛警率。譬如，在利用光流的激烈變化屬性確定了可疑的斗毆行為后，如果發(fā)現(xiàn)可疑斗毆區(qū)域中有多個人體目標出現(xiàn)，那么此處發(fā)生斗毆行為的可信度很大；但如果在可疑斗毆區(qū)域內(nèi)未發(fā)現(xiàn)人體目標出現(xiàn)（譬如只有車輛等其他非人體目標），那么該區(qū)域發(fā)生斗毆行為的可信度就降低了，此處的激烈光流變化可能是由車輛、樹葉等其他運動目標的激烈運動引起的，故可以判定該區(qū)域未發(fā)生斗毆行為。

無向圖模型常采用各條邊的勢能函數(shù)來描述，對于本文的行為圖模型G=(V，E)，下面定義各條邊的勢能函數(shù)。

（1）邊O-X的勢

對于一個目標屬性頂點o_i，對應的HOG特征向量記為x_i，HOG特征的SVM分類器記為P_x。這樣，目標屬性頂點O的勢可以用相應特征分類器的分類得分代替，表示為：

（3）邊C-O的勢

邊C-O的勢用于描述行為類別和目標屬性的內(nèi)在關(guān)系，可以用行為類別與目標屬性同時出現(xiàn)的頻率（簡記為同現(xiàn)頻率）來表示，為：

其中，α為權(quán)重。為便于計算，同現(xiàn)頻率可以簡單地用行為類別與目標屬性同時出現(xiàn)的次數(shù)代替，此時α取值為0.01，且φ(c_i，o_i)的最大值為1，也即當φ(c_i，o_i)大于1時將其置為1。同現(xiàn)頻率越高，表明行為類別與目標屬性的關(guān)聯(lián)度越大。譬如，對于騎馬行為常伴隨著人和馬兩類目標，也即這兩類目標與騎馬行為的同現(xiàn)頻率很高。這樣，對于一個未知的行為，如果行為分類為騎馬行為的得分較高，同時又伴隨有人和馬兩類目標，那么該行為為騎馬行為的可信度很高。

（4）邊C-A的勢

邊C-A的勢用于描述行為類別和行為屬性的內(nèi)在關(guān)系，也可以用行為類別與行為屬性的同現(xiàn)頻率來表示，為：

其中，β為權(quán)重。同現(xiàn)頻率也用行為類別與行為屬性同時出現(xiàn)的次數(shù)代替，此時β取值為0.02，同樣地，φ(c_i，a_i)的最大值也為1。需要說明的是，此處權(quán)重β的取值大于權(quán)重α的取值，主要是考慮到與目標屬性相比，行為屬性對行為分類的貢獻更大。

（5）邊C-C的勢

邊C-C的勢用于描述兩個行為類別頂點之間的連通性。假設在一個時空距離上的行為是相互關(guān)聯(lián)的，行為類別頂點之間的勢主要由時間和空間上的距離來描述，表示為：

1.2 類標簽預測

信任傳播（Belief Propagation，BP）算法采用局部消息傳遞來擴散信任度，可以很好地解決標簽離散情況下的樣本標記問題。本文采用BP算法計算行為類別頂點C的后驗概率，預測類標簽。具體地，在每一次迭代過程中，信任頂點依據(jù)其鄰居頂點收到的消息進行更新。對于任一頂點c_i∈C，其鄰居頂點集合記為C_N(c_i)，從頂點c_i到其鄰居頂點的消息可以表示為：

其中：

選擇邊緣概率最大的類標簽作為頂點c_i預測的類標簽。

1.3 主動學習與預測

考慮到特殊群體行為的多樣性和場景的多變性，在訓練階段人工標記行為類別是非常困難的。本文采用主動學習策略來降低人工標記的難度。

給定一組已標記的樣本集L和一組未標記的樣本集U，以及行為類別數(shù)N。為降低人工標記難度，已標記樣本集中的元素數(shù)量遠遠小于未標記樣本集中元素數(shù)量。對于未標記樣本集中的元素，結(jié)合圖模型和主動學習策略從中主動選取需要人工標記的樣本子集S^*。基本思路是：首先，按照前述方法構(gòu)建圖模型G，并計算任一c_i∈U的邊緣分布p(c_i)；然后，計算c_i的熵，表示為：

在信息論中，熵越大說明信息的不確定性越大，對應的信息量越豐富。很明顯，信息量越豐富的樣本越需要專家進行標記。因此，本文將熵最大作為選取需人工標記的子集S^*的依據(jù)之一。

另外，考慮到在許多應用中，各行為樣本可能相互關(guān)聯(lián)，這樣，c_i的邊緣分布可能受鄰居頂點集合中的其他頂點影響。本文采用互信息量來描述兩個頂點之間的相互影響，表示為：

互信息量越大，說明兩個頂點之間的相互影響越大。這樣情況下，如果知道其中一個頂點的標簽，另一個頂點的標簽受其影響很大，可以依據(jù)其標簽在圖模型上進行可靠的預測。換言之，不需要同時人工標記兩個相互影響的頂點。因此，本文將互信息量最小作為選取需人工標記的子集S^*的另一依據(jù)。

綜合所述，本文依據(jù)熵最大和互信息量最小兩個準則選取需人工標記的子集S^*。基本步驟為：

(1)給定擬選取的S^*的元素個數(shù)K，S^*初始為空；

(2)對任一c_i∈U，計算熵H(c_i)，并按由大到小的順序進行排序，排序后的集合記為As；

(3)如果S^*中元素個數(shù)小于K，選取As中第一位數(shù)據(jù)對應的頂點c_x，加入集合S^*；否則，結(jié)束S^*的搜索過程，輸出S^*；

(4)計算c_x與其所有相鄰頂點的互信息量M(c_x,c_y)，選取信息量最小的頂點c_y，加入集合S^*。

對于得到的最優(yōu)子集S^*，需要專家進行標記。標記之后，再針對S^*上的頂點進行類別預測，這樣與這些頂點相鄰的頂點得到的標簽可信度更高。

2 實驗結(jié)果與分析

本節(jié)對本文方法和目前主流的行為識別方法進行對比分析，首先介紹實驗數(shù)據(jù)集和對比算法，然后展示和分析實驗結(jié)果。

2.1 實驗數(shù)據(jù)集與對比算法

目前公開的行為識別數(shù)據(jù)集中，與特殊群體智能看護相關(guān)的行為識別數(shù)據(jù)集只有一個，是ADL數(shù)據(jù)集^[13]。該數(shù)據(jù)集是由Rirsiavash建立的人體日常行為數(shù)據(jù)集，主要用于研究特殊人群的智能輔助系統(tǒng)。該數(shù)據(jù)集包含10個類別的日常行為，詳見表1。其中，每類行為都由5個不同的人體完成，且每個行為重復進行3次。部分行為示例如圖2所示。

目前在該數(shù)據(jù)集下測試結(jié)果排名靠前的算法見文獻[13]-[17]。本文直接引用相應文獻中的識別率指標進行對比分析。

2.2 實驗結(jié)果與分析

本文采用該領(lǐng)域常用的識別率和分類混淆矩陣來評價算法性能。表2展示了ADL數(shù)據(jù)集下不同算法的識別率指標，圖3展示了ADL數(shù)據(jù)集下本文算法的分類混淆矩陣。其中，對比算法的性能指標取自相應文獻。

需要指出的是，本文算法在訓練時，每類行為選擇4個視頻片段進行學習，主動學習階段的參數(shù)K取值為2，也即每類行為只選擇2個視頻片段進行人工標記，其余視頻片段采用本文的主動學習方法進行訓練。

分析以上實驗結(jié)果，可以得出以下結(jié)論：

（1）從表2可以看出，本文算法在ADL行為數(shù)據(jù)集下的識別率都是最高的，比相應數(shù)據(jù)集下現(xiàn)有測試算法高出一個百分點以上。可見，本文方法提高了特殊群體行為識別的識別率指標。

（2）從圖3可以看出，在ADL數(shù)據(jù)集下的10個行為類別中，本文方法僅在2個行為類別上存在錯分現(xiàn)象，低于識別率次高的文獻[16]所述方法。可見，本文方法區(qū)分不同行為的能力強，對群體復雜行為的混淆率低。

（3）對于ADL行為數(shù)據(jù)集，本文方法在識別率高于其他對比算法的情況下，人工標記的樣本數(shù)量小于其他對比算法，如識別率次高的文獻[16]中每類行為需要標記16個樣本。這樣在實際應用過程中，本文方法可以從海量視頻中主動學習行為類別，大幅降低人工標記樣本的難度和工作量。

綜上所述，本文方法不僅提高了特殊群體行為識別的識別率，而且增強了不同行為的區(qū)分能力，同時需要人工標記的樣本數(shù)量少。

3 結(jié)束語

本文提出了一種基于主動學習與預測的特殊群體行為識別方法，主要設計思路包括兩個方面：(1)在行為描述方面，將視頻的幀內(nèi)特征、幀間特征、目標屬性、行為屬性和行為類別組合在一起，構(gòu)建成行為的無向圖模型，這樣在行為識別時可以綜合利用多層次的關(guān)聯(lián)性特征，減少了單純依靠部分特征引起的虛警現(xiàn)象，增強了特征的區(qū)分能力，提高了行為識別算法對特殊群體行為識別的識別率；(2)在學習過程中采用主動學習方法，以行為類別頂點的熵最大和行為類別頂點之間的互信息量最小為準則進行主動學習，降低了人工標記樣本的數(shù)量和難度。通過在國際上通用的ADL行為數(shù)據(jù)集上進行對比實驗，證實本文方法可以提高行為識別算法對特殊群體行為識別的識別率，降低不同行為間的分類混淆現(xiàn)象，同時降低了需人工標記的樣本數(shù)量。

參考文獻

[1] 楊帥，于忠清，蘇博群，等.基于軌跡分割的老人行為識別方法[J].青島大學學報(自然科學版)，2017(1)：103-107.

[2] 李瑞峰，王亮亮，王珂.人體動作行為識別研究綜述[J].模式識別與人工智能，2014(1)：35-48.

[3] KIHL O，PICARD D，GOSSELIN P H.Local polynomial space-time descriptors for action classification[J].Machine Vision & Applications，2016，27(3)：351-361.

[4] MA S，ZHANG J，IKIZLER-CINBIS N，et al.Action recognition and localization by hierarchical space-time segments[C].IEEE International Conference on Computer Vision.IEEE，2014：2744-2751.

[5] 王泰青，王生進.基于中層時空特征的人體行為識別[J].中國圖象圖形學報，2015，20(4)：520-526.

[6] EVERTS I，GEMERT J C V，GEVERS T.Evaluation of color spatio-temporal interest points for human action recognition[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society，2014，23(4)：1569-1580.

[7] Wang Yangyang，Li Yibo，Ji Xiaofei.Human action recognition based on normalized interest points and super-interest points[J].International Journal of Humanoid Robotics，2014，11(1)：145005.

[8] LI Y，YE J，WANG T，et al.Augmenting bag-of-words：a robust contextual representation of spatiotemporal interest points for action recognition[J].Visual Computer，2015，31(10)：1383-1394.

[9] WANG P，LI W，GAO Z，et al.Action recognition from depth maps using deep convolutional neural networks[J].IEEE Transactions on Human-Machine Systems，2016，46(4)：498-509.

[10] SADANAND S.Action bank：a high-level representation of activity in video[C].IEEE Conference on Computer Vision & Pattern Recognition，2012：1234-1241.

[11] AGUSTI P，TRAVER V J，PLA F.Bag-of-words with aggregated temporal pair-wise word co-occurrence for human action recognition[J].Pattern Recognition Letters，2014，49(49)：224-230.

[12] Pu Songtao，Zha Hongbin.Video object segmentation via two-frame graph model[J].Beijing Daxue Xuebao Ziran Kexue Ban/acta Scientiarum Naturalium Universitatis Pekinensis，2015，51(3)：409-417.

[13] FEICHTENHOFER C，PINZ A，ZISSERMAN A.Convolutional two-stream network fusion for video action recognition[C].Computer Vision and Pattern Recognition.IEEE，2016：1933-1941.

[14] FERNANDO B，GAVVES E，ORAMAS M J，et al.Modeling video evolution for action recognition[C].Computer Vision and Pattern Recognition.IEEE，2015：5378-5387.

[15] WANG H，DAN O，VERBEEK J，et al.A robust and efficient video representation for action recognition[J].International Journal of Computer Vision，2016，119(3)：219-238.

[16] SINGH S，VELASTIN S A，RAGHEB H.MuHAVi：a multicamera human action video dataset for the evaluation of action recognition methods[C].Seventh IEEE International Conference on Advanced Video and Signal Based Surveillance.IEEE，2010：48-55.

[17] GUO K，ISHWAR P，KONRAD J.Action recognition from video using feature covariance matrices[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society，2013，22(6)：2479-2494.

作者信息:

陳凡健

(茂名職業(yè)技術(shù)學院計算機工程系，廣東茂名525000)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容