《電子技術應用》
您所在的位置:首頁 > 可編程邏輯 > 業(yè)界動態(tài) > ECCV 2018 | 美圖云聯(lián)合中科院提出基于交互感知注意力機制神經(jīng)網(wǎng)絡的行為分類技術

ECCV 2018 | 美圖云聯(lián)合中科院提出基于交互感知注意力機制神經(jīng)網(wǎng)絡的行為分類技術

2018-07-23

以往注意機制模型通過加權所有局部特征計算和提取關鍵特征,忽略了各局部特征間的強相關性,,特征間存在較強的信息冗余,。為解決此問題,,來自美圖云視覺技術部門和中科院自動化所的研發(fā)人員借鑒 PCA(主成分分析)思想,提出了一種引入局部特征交互感知的自注意機制模型,并將模型嵌入到 CNN 網(wǎng)絡中,提出一個端到端的網(wǎng)絡結(jié)構,。該算法在多個學術數(shù)據(jù)集和美圖公司內(nèi)部工業(yè)界視頻數(shù)據(jù)集上的行為分類表現(xiàn)都非常出色?;谠撍惴ㄋ枷氲南嚓P論文「Interaction-aware Spatio-temporal Pyramid Attention Networks for Action Classification」已被 ECCV2018 收錄,,下文將從背景、核心思想,、效果和應用前景幾個方面進行介紹,。


一、背景


深度卷積神經(jīng)網(wǎng)絡中,,特征圖里相鄰空間位置的局部通道特征,,往往由于它們的感受野重疊而具有很高的相關性。自注意機制模型通常利用每個局部特征內(nèi)部元素的加權和(或其他函數(shù))來獲得其權重得分,,此權重用于加權所有局部特征獲取關鍵特征,。盡管局部特征之間具有很高的相關性,但此權重計算并沒有考慮到它們之間的相互作用,。


PCA 可以提取全局特征主要維度的主成分信息,,而這些主成分信息可以看作是提取的局部特征,最后降維后的全局特征即是關鍵局部特征的集合,。注意機制的目的是從局部特征集合中提取關鍵部分,,也就是 PCA 中的局部特征。不同的是注意力機制使用每個局部特征對應的加權得分來計算最終的全局特征,。PCA 利用協(xié)方差矩陣來獲得降維(或加權權重)的基向量,,從而減少特征間的信息冗余和噪聲?;谝陨媳尘?,該團隊使用 PCA 來指導提出的注意力模型,并通過將 PCA 算法轉(zhuǎn)換成損失設計實現(xiàn),。此外,,由于深度網(wǎng)絡中的不同層可以捕獲不同尺度的特征圖,算法使用這些特征圖來構造空間金字塔,,利用多尺度信息來計算每個局部通道特征更精確的注意力分數(shù),,這些權重得分用于在所有空間位置中對局部特征進行加權。


二,、核心思想

微信圖片_20180723192054.jpg



本論文定義了一個新的交互感知時空金字塔注意力層,,以此實現(xiàn)輸入在深度卷積神經(jīng)網(wǎng)絡中各個層的不同尺度局部特征的交互感知和時空特征融合的功能。它的架構如上圖所示,,算法首先定義了一個下采樣函數(shù) R, 將不同層的特征圖統(tǒng)一到一個尺度,。接著對不同尺度的特征圖的局部通道特征使用注意力機制進行關鍵特征提取,通過使用融合函數(shù)對不同尺度的特征進行融合,,并計算每個局部特征的注意力得分,,用于加權特征。

微信圖片_20180723192116.jpg

在 PCA 中使用協(xié)方差矩陣計算投影向量并依此進行降維,,即提取關鍵的局部特征,,本論文將其轉(zhuǎn)化損失函數(shù)的設計加入到最終的模型中:

 

微信圖片_20180723192144.jpg


再對提出的空間金字塔注意力模型進行約束,使其不同尺度層的特征圖盡量關注到不同的信息,,加入分類損失得出最終的損失函數(shù):


微信圖片_20180723192210.jpg


論文提出的模型參數(shù)與輸入特征圖的數(shù)目無關,,因此,自然地將其拓展到視頻級端到端訓練的時空網(wǎng)絡,,最終的網(wǎng)絡結(jié)構定義如下圖:


微信圖片_20180723192230.jpg


三,、效果


 研發(fā)人員將提出的基于交互感知的時空金字塔注意力機制神經(jīng)網(wǎng)絡算法應用于美圖公司的視頻相關業(yè)務進行人物行為分類,效果表現(xiàn)優(yōu)異,。除此之外在公開數(shù)據(jù)集 UCF101,、HMDB51 和無裁剪行為數(shù)據(jù)庫 Charades 上進行了評測,,也取得了領先效果,結(jié)果如下圖所示 :


微信圖片_20180723192315.jpg

微信圖片_20180723192347.jpg


此外,,該論文對視頻時空輸入進行了評測,,評測結(jié)果顯示出該模型能夠同時處理任意數(shù)量的視頻幀輸入,并取得較好的實驗結(jié)果,。


微信圖片_20180723192412.jpg


微信圖片_20180723192429.jpg


上圖給出了該算法在進行行為分類時的可視化輸出結(jié)果,,可以看出該算法能夠?qū)σ曨l中關鍵的行為進行精確定位。


四,、展望


實際應用中,,業(yè)務場景對算法的運行時間要求較嚴苛。本論文在公開數(shù)據(jù)集上的結(jié)果均通過截取視頻中的多幀得到,,時間復雜度較高,,后續(xù)會以降低算法時間復雜度為目標對核心模塊進行優(yōu)化。值得注意的是,,本論文提出的空間金字塔注意力模型不受其輸入特征圖數(shù)量的限制,,因此它很容易擴展到一個可以兼容任意數(shù)量的輸入幀的時空版本,在應用中可以在分類準確率幾乎不受影響的前提下,,通過減少截幀數(shù)提升處理速度,。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章、圖片,、音/視頻文件等資料的版權歸版權所有權人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權者。如涉及作品內(nèi)容,、版權和其它問題,,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118;郵箱:[email protected],。