《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 模擬設(shè)計 > 其他 > CVPR 2018 | UNC&Adobe提出模塊化注意力模型MAttNet,,解決指示表達的理解問題

CVPR 2018 | UNC&Adobe提出模塊化注意力模型MAttNet,,解決指示表達的理解問題

2018-03-08
關(guān)鍵詞: UNC CVPR2018 自然語句

北卡教堂山分校 (UNC) 虞立成等人近日發(fā)表的 CVPR 2018 論文提出了模塊化注意力模型 MAttNet,,將 Referring Expression(指示表達)分解為三個模塊:主語,、位置和關(guān)系,,并基于句子和圖片的聯(lián)合注意力解析,,解決基于指示表達的目標定位問題,。實驗表明 MAttNet 在基于自然語句的目標檢測和分割兩種任務(wù)上都大幅優(yōu)于前文的方法,。該論文已被 CVPR 2018 錄取,,并提供了代碼以及 demo,。


  • 代碼鏈接:https://github.com/lichengunc/MAttNet

  • Demo 鏈接:http://vision2.cs.unc.edu/refer/comprehension


任務(wù)


Referring Expression(指示表達)指描述圖片中某一特定物體的一句自然語句。與 Image Captioning 任務(wù)不同的是 Referring Expression 具有唯一性和區(qū)域性,,比如「穿紅色毛衣的女人」或「右邊的男孩」,。在日常生活中,無論人與人之間的交流或是人機交互,,都會涉及這種指示性的短語表達,。所以理解它們并準確定位所描述的物體成為自然交互的必要條件。


指示表達理解的問題可以被定義成:從圖片 I 里的各個物體〖O={o_i }〗_(i=1)^N 中選出那個「最」能被指示表達 r 貼切描述的物體 o^*,。過往在此問題上的研究可以分為兩類:基于 CNN-LSTM 的框架建模的 P(r|o),,以及基于聯(lián)合概率框架建模的 P(r, o)。本文使用后者,。


模型與方法


文章對數(shù)據(jù)集進行統(tǒng)計后發(fā)現(xiàn)根據(jù)目標物體和其他物體的差異性,,對它的指示表達可以涉及不同類型的信息。例如,,如果目標物體為十個黑球中的一個紅球,,那么對它的指示表達可以很簡單得說「紅球」。如果相同的紅球被放在其他三個紅球中,,那么基于位置的信息可能變得更加重要,,例如「右邊的紅球」?;蛘?,如果在場景中有 100 個紅球,那么球與其他物體之間的關(guān)系可能是最明顯的信息,,例如「貓旁邊的紅球」,。因此,將指示語句的理解模型進行模塊化分析便顯得非常自然直觀,。本文利用主語,,位置和關(guān)系模塊來解析輸入的指示語句,然后觸發(fā)不同的視覺模塊進行處理,。


本文提出的模塊化注意力模型 (MAttNet) 如圖 1 所示,。模型首先將輸入的指示表達分解成三個短語表征,作為三個視覺模塊的輸入,,這些視覺模塊用不同的注意力模型分別計算與其對應(yīng)的短語的匹配分數(shù),。最后,三個模塊的匹配分數(shù)的加權(quán)總和成為整體匹配得分,。整個模型可以無縫鏈接 Mask R-CNN 框架,,因而可以做目標定位和目標分割兩個任務(wù)。


具體來分析模型的細節(jié)。首先是自然語言的分解模塊,,作者提出的 Language Attention Network(語言注意力模型)對輸入的指示表達進行主語,,位置和關(guān)系的三個模塊的拆解。每個拆解后的成分會有兩個輸出,,其一是該模塊的詞向量表征,,其二是該模塊占整句句子的權(quán)重。然后是三個視覺模塊,,給定某個備選物體 (candidate object),,我們計算它與三個詞向量表征的匹配分數(shù)。其中,,主語的視覺模塊抽取物體的 R-CNN 特征,,并使用該模塊內(nèi)部的軟注意力模型抽取與詞向量相關(guān)的區(qū)域,計算匹配分數(shù),;位置的視覺模塊抽取物體的位置特征,,將其映射到高維空間后與位置詞向量進行匹配;關(guān)系的視覺模塊抽取其周邊其他物體的特征,,使用多示例學(xué)習(xí) (Multiple Instance Learning) 選取與關(guān)系詞向量最相關(guān)的周邊物體,,計算得分。最后,,三個匹配得分會和上述的三個權(quán)重進行內(nèi)積,,得到最終匹配得分。


圖 1:模塊化注意網(wǎng)絡(luò) (MAttNet)


實驗結(jié)果


實驗中,,首先為了和前文進行公平比較,,使用了 VGG16 特征,在目標定位上超過前文~2%,。配合上 Mask R-CNN 的特征后,,優(yōu)勢擴展為~7%。在目標分割上,,基本達到前文最佳精度的兩倍。此外,,模型具有很好的解釋性,,作者展示了三個模塊各自注意到的相關(guān)單詞和視覺區(qū)域。如圖 2 所示,。


結(jié)束語


指示表達的應(yīng)用很廣,,人與人的對話系統(tǒng)和人機交互系統(tǒng)都經(jīng)常會涉及對圖片或場景里的某個目標物體進行自然語言的描述。從作者提供的 demo 來看,,方向性的指示表達和對「人」這一類的指示表達,,理解得都還比較準確;但對其他物體的指示理解還有進一步的提升空間,。作者在提供的代碼的最后寫了一些 Notes,,可以作為后續(xù)工作的思考方向,。

 

圖 2:MAttNet 在 RefCOCOg 上的結(jié)果:第一列為原圖,第二列為輸入的指示表達與其分解結(jié)果,,第三列為主語模塊的注意區(qū)域,;第四列為主語模塊的 attribute 輸出;第五列為目標定位(藍筐),;第六列為目標分割,。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容,、版權(quán)和其它問題,,請及時通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118;郵箱:[email protected],。