《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 可編程邏輯 > 業(yè)界動態(tài) > 學(xué)界 | 為卷積模型執(zhí)行加入循環(huán)和遠(yuǎn)程反饋,更完整地擬合生物視覺

學(xué)界 | 為卷積模型執(zhí)行加入循環(huán)和遠(yuǎn)程反饋,,更完整地擬合生物視覺

2018-07-30

與當(dāng)前的機(jī)器視覺行為執(zhí)行僅涉及前饋過程不同,,人類及靈長類動物的視覺行為執(zhí)行包含前饋、反饋和時間預(yù)測等多種過程的整合,。也就是說,,當(dāng)前的機(jī)器視覺僅能從低級圖像屬性逐層計算傳播到高層得到模型輸出,而現(xiàn)實應(yīng)用中,,即使像分類,、目標(biāo)檢測這樣的任務(wù)也需要考慮復(fù)雜的高級概念,,例如功能,、語境等。為此,,來自斯坦福,、MIT、谷歌大腦等機(jī)構(gòu)的研究者借鑒了靈長類動物的大腦神經(jīng)結(jié)構(gòu),,提出了在內(nèi)部整合了循環(huán)和遠(yuǎn)程反饋結(jié)構(gòu)的新型卷積循環(huán)模型 ConvRNN,,實驗表明,該架構(gòu)能以更少的參數(shù)達(dá)到更深層前饋 ResNet 的性能,,并更好地擬合靈長動物的視覺過程,,說明在執(zhí)行不同復(fù)雜視覺行為時大腦的循環(huán)連接扮演著重要角色。


大腦的感覺系統(tǒng)必須要在復(fù)雜的有噪聲感覺數(shù)據(jù)中檢測出有意義的模式 [James, 1890],。視覺環(huán)境可以揭示對象的積極或消極性質(zhì),,包括食物種類,、危險標(biāo)志以及令人記憶猶新的社會伙伴。這些對象在每一時刻的位置,、姿勢,、對比度、背景以及前景都各不相同,。因此,,從低級圖像屬性中進(jìn)行目標(biāo)檢測是很不容易的 [Pinto 等人,2008],。靈長類動物的視覺系統(tǒng)會對相關(guān)的高級屬性進(jìn)行編碼,,以便指導(dǎo)行為 [Majaj 等人,2015],。這一過程可被建模為把一張圖從原始像素值轉(zhuǎn)換為內(nèi)部表征 [DiCarlo 等人,,2012]。好的編碼算法能夠?qū)⑷蝿?wù)的相關(guān)特征提供給簡單的解碼過程,,如線性分類器 [Hung 等人,,2005,Majaj 等人,,2015],。


近期的研究工作表明,基于任務(wù)優(yōu)化的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)是靈長類動物大腦視覺編碼的精準(zhǔn)量化模型 [Yamins 等人,,2014,,Khaligh-Razavi 和 Kriegeskorte,2014,,Gü?lü 和 van Gerven,,2015]。目前與其他模型類別相比,,用于識別 ImageNet 目標(biāo)的 CNN 可以更好地解釋視覺系統(tǒng)中神經(jīng)元的平均時間響應(yīng)(temporally-averaged response),。來自底層、中層,、高層的卷積層的模型單元分別提供了發(fā)生在早期(V1 區(qū) [Khaligh-Razavi 和 Kriegeskorte,,2014,Cadena 等人,,2017]),、中期(V4 區(qū) [Yamins 等人,2014])和更高的視覺皮層區(qū)域(下顳葉皮質(zhì),,即 IT 區(qū),,[Khaligh-Razavi 和 Kriegeskorte,2014,Yamins 等人,,2014])的神經(jīng)誘發(fā)反應(yīng)的已知最好線性預(yù)測值,。


但靈長類動物的視覺系統(tǒng)還有不能用前饋 CNN 建模的其他解剖結(jié)構(gòu)。這些結(jié)構(gòu)包括每個皮層區(qū)域內(nèi)密集的局部循環(huán)連接以及不同區(qū)域間的遠(yuǎn)程連接,,例如從視覺層次的較高部分到較低部分的反饋 [Gilbert 和 Wu,,2013]。靈長類動物大腦的視覺系統(tǒng)中「循環(huán)」(recurrence)的功能尚未得到充分研究,。一些猜想認(rèn)為循環(huán)「填補」了缺失數(shù)據(jù) [Spoerer 等人,,2017,Michaelis 等人,,2018,,Rajaei 等人,2018,,Linsley 等人,,2018],如被其他物體遮擋住的物體部分,;一些猜想認(rèn)為循環(huán)通過自上而下的注意力特征的細(xì)化「銳化」了表征,,以便對特定的刺激因素或特定任務(wù)的性能進(jìn)行解碼 [Gilber 和 Wu,2013,,Lindsay,,2015,McIntosh 等人,,2017,,Li 等人,2018],;一些猜想認(rèn)為循環(huán)允許大腦「預(yù)測」未來的刺激信號(如電影的幀)[Rao 和 Ballard,,1999,Lotter 等人,,2017,,Issa 等人,2018],;還有一些猜想認(rèn)為循環(huán)「擴(kuò)展」了前饋計算,,這意味著展開的循環(huán)網(wǎng)絡(luò)等價于通過多次重復(fù)變換來保存神經(jīng)元(和可學(xué)習(xí)參數(shù))的更深層前饋網(wǎng)絡(luò) [Khaligh-Razavi 和 Keirgeskorte,,2014,,Liao 和 Poggio,2016,,Zamir 等人,,2017,Leroux 等人,2018],。


因為現(xiàn)有的神經(jīng)數(shù)據(jù)無法排除這些可能性,,所以計算模型可能有助于對這些假設(shè)進(jìn)行評估。我們試著將來自前饋 CNN 和神經(jīng)信號時間平均值的目標(biāo)驅(qū)動建模方法 [Yamins 和 DiCarlo,,2016,,Mante 等人,2013,,Shi 等人,,2018] 擴(kuò)展到卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(ConvRNN)和神經(jīng)動態(tài)(neural dynamics)。具體來說,,我們假設(shè)給 CNN 添加循環(huán)和反饋有助于這些模型執(zhí)行行為相關(guān)任務(wù)(ethologically-relevant task),,并且這樣的增強(qiáng)網(wǎng)絡(luò)可以更好地解釋視覺路徑中神經(jīng)響應(yīng)的精細(xì)時間軌跡。


盡管添加了循環(huán)結(jié)構(gòu)的增強(qiáng) CNN 已用于解決相對簡單的遮擋變形和預(yù)測未來的任務(wù) [Spoerer 等人,,2017,,Lotter 等人,2017],,但這些模型既無法泛化到前饋 CNN 執(zhí)行的較困難任務(wù)(如識別 ImageNet 數(shù)據(jù)集中的目標(biāo)),,也無法像 ImageNet 優(yōu)化的 CNN 一樣對神經(jīng)響應(yīng)作出解釋。在本文的撰寫過程中,,在 ImageNet 中進(jìn)行目標(biāo)識別是已知僅有的可以產(chǎn)生與視覺皮層神經(jīng)元激活模式相仿的 CNN 激活模式的任務(wù) [Khaligh-Razavi 和 Kriegeskorte,,2014,Yamins 等人,,2014,,Cadena 等人,2017],。事實上,,由于多樣性和復(fù)雜性,ImageNet 包含許多可以根據(jù)上述假設(shè)(例如嚴(yán)重遮擋,、出現(xiàn)多個前景目標(biāo)等)利用循環(huán)過程的圖像,。此外,近期一些針對 ImageNet 的最有效方法(如 ResNet 模型 [He 等人,,2016])是在多個層上重復(fù)相同的架構(gòu)模式,,這說明它們可能與較淺的循環(huán)網(wǎng)絡(luò)的展開近似 [Liao 和 Poggio,2016],。因此我們試著探索循環(huán)是否可以改善在 ImageNet 數(shù)據(jù)集上的分類性能,。盡管其他研究是將 CNN 的輸出作為 RNN 的輸入來解決目標(biāo)分割等視覺任務(wù) [McIntosh 等人,2017],,但我們選擇將循環(huán)架構(gòu)整合進(jìn) CNN 中,,因為這樣的架構(gòu)在神經(jīng)科學(xué)文獻(xiàn)中很普遍。


我們發(fā)現(xiàn)標(biāo)準(zhǔn)的循環(huán)單元(例如標(biāo)準(zhǔn) RNN 和 LSTM [Elman,1990,,Hochreiter 和 Schmidhuber,,1997])不會使 ImageNet 性能提升至超越參數(shù)匹配的前饋基線的水平。但我們設(shè)計了新的局部單元架構(gòu),,該架構(gòu)包含用于將循環(huán)架構(gòu)集成到 CNN 中的結(jié)構(gòu)屬性,。為了在廣泛的模型架構(gòu)空間中更好地識別模型架構(gòu),我們在數(shù)以千計的模型上進(jìn)行了自動搜索,,這些模型的局部循環(huán)單元和遠(yuǎn)程反饋連接有所不同,。引人注目的是我們在這個過程中發(fā)現(xiàn)了在傳統(tǒng) RNN 中從未發(fā)現(xiàn)過的新的循環(huán)模式:例如,最成功的模型會用深度可分離的卷積專門處理局部循環(huán)連接,,從而對網(wǎng)絡(luò)中類似 ResNet 的前饋骨干網(wǎng)絡(luò)進(jìn)行多重門控,。此外,小部分遠(yuǎn)程反饋連接可以提升任務(wù)性能,,盡管大多數(shù)只具備中性或負(fù)面影響,。總的來講,,這種搜索產(chǎn)生的循環(huán)模型在僅使用 75% 的參數(shù)時,,表現(xiàn)與更深層的前饋架構(gòu)(ResNet-34)差不多。最后,,在比較循環(huán)模型特征和靈長類動物視覺系統(tǒng)中的神經(jīng)響應(yīng)后,,我們發(fā)現(xiàn)基于 ImageNet 優(yōu)化的 ConvRNN 提供了以 10ms 分辨率跨越中高層視覺皮層區(qū)域的精準(zhǔn)量化的神經(jīng)動態(tài)模型。這些結(jié)果提供了一個視覺系統(tǒng)中的局部和遠(yuǎn)程循環(huán)如何調(diào)整以適應(yīng)在靈長類動物的視覺系統(tǒng)中執(zhí)行目標(biāo)識別的模型,。

微信圖片_20180730224819.jpg


圖 1:模型架構(gòu)示意圖,。卷積循環(huán)網(wǎng)絡(luò)(ConvRNN)是將局部循環(huán)單元和遠(yuǎn)程反饋連接組合在一起添加到 CNN 的骨干網(wǎng)絡(luò)上。在我們的實現(xiàn)中,,沿著黑色或紅色箭頭進(jìn)行的傳播需要一個時間步(10 ms)來模擬皮質(zhì)層間的傳導(dǎo)延遲,。

微信圖片_20180730224943.jpg

圖 2:局部循環(huán)單元架構(gòu)的比較。(a)ConvRNN 單元間的架構(gòu)差異,。標(biāo)準(zhǔn) ResNet 和標(biāo)準(zhǔn) RNN 單元都有旁路(見論文),。LSTM 單元有門控,在圖中用 T 字連接符表示,,但是沒有旁路,。reciprocal 門控單元兩個都有。(b)多種 ConvRNN 和前饋模型隨著參數(shù)數(shù)量變化產(chǎn)生的性能變化,。彩色的點將相應(yīng)的 RNN 單元合并到 6 層前饋架構(gòu)(「FF」)中,。「T」表示展開的步數(shù),。經(jīng)過超參數(shù)優(yōu)化的 LSTM ConvRNN 和 reciprocal 門控單元 ConvRNN 通過黑線連接到未優(yōu)化版本,。

微信圖片_20180730225003.jpg


圖 3:ConvRNN 的超參數(shù)化和搜索結(jié)果,。(a)局部循環(huán)單元的超參數(shù)化,。箭頭表示輸入單元,、隱藏狀態(tài)和輸出之間的連接。問號表示可選連接,,可能是常規(guī)或深度可分離的卷積,,可選擇卷積核大小。層(l-1 out,、l in 和 l out)之間的反饋連接始終存在,。帶有問號的方框表示可選擇 sigmoid 或 tanh 非線性激活函數(shù)、加法,,或恒等連接(identity connection,,像 ResNet 中一樣)這樣的多重門控。最終,,從 l+k out 層開始的遠(yuǎn)程反饋連接可能會進(jìn)入局部單元輸入,、隱藏狀態(tài)或輸出。(b)ConvRNN 搜索結(jié)果,。每個藍(lán)色的點都表示一個模型,,采樣自訓(xùn)練了 5 個 epoch 的超參數(shù)空間。橙色的線是最后 50 個模型的平均性能,。紅色的線表示搜索過程中該點表現(xiàn)最好的模型,。

微信圖片_20180730225032.jpg


圖 4:最優(yōu)的局部循環(huán)單元和全局反饋連接。(a)搜索過程中表現(xiàn)最好的模型的 RNN 單元架構(gòu),。紅色的線表示每個最好的獨特模型(3b 中的紅線)所選擇的超參數(shù)(連接和與濾波器大?。*K 表示卷積,,dsK*K 表示卷積核大小為 K*K 的深度可分離卷積,。(b)搜索中的遠(yuǎn)程反饋連接。(頂部)每條軌跡表示 100 個樣本窗口中有特定反饋連接的模型的比例,。(底部)每一個條表示具備給定反饋的模型與不具備該反饋的模型之間的性能中值差異,。顏色與上面圖中相同的反饋顏色一致。(c)在 128px 大小的 ImageNet 上完整訓(xùn)練的模型的性能,。我們比較了 ResNet-18,、18 層前饋基礎(chǔ)模型(basenet)、搜索中有或沒有全局反饋連接的中位模型,,以及它的最小展開控制(T=12)的性能,。「Random Model」是從模型搜索的初始隨機(jī)階段隨機(jī)選取的,。每個長條上方顯示的是參數(shù)數(shù)量(單位:百萬),。ResNet 模型的訓(xùn)練方法與 [He 等人,,2016] 相同,但與 ConvRNN 相比,,ResNet 是用 128px 大小的圖像訓(xùn)練的,。

微信圖片_20180730225055.jpg

圖 5:用 ConvRNN 對靈長類動物腹側(cè)流神經(jīng)動態(tài)進(jìn)行建模。(a)用于擬合神經(jīng)動態(tài)的 ConvRNN 模型在 4 到 10 層具備局部循環(huán)單元和遠(yuǎn)程反饋(紅色箭頭),。(b)與大腦的腹側(cè)層次一致,,V4 的大多數(shù)單元都與第 6 層的特征最佳匹配;pIT 匹配第 7 層,;cIT/aIT 匹配第 8/9 層,。(c)與神經(jīng)動態(tài)擬合的模型特征與這些響應(yīng)的噪聲上限很接近。y 軸表示在 held-out 圖像上預(yù)測值和真實的響應(yīng)值之間相關(guān)單元的中值,。


論文:Task-Driven Convolutional Recurrent Models of the Visual System


微信圖片_20180730225121.jpg


論文地址:https://arxiv.org/pdf/1807.00053.pdf


摘要:前饋卷積神經(jīng)網(wǎng)絡(luò)(CNN)是針對像 ImageNet 這樣的目標(biāo)分類任務(wù)的當(dāng)前最佳模型,。此外,它們是靈長類動物大腦視覺系統(tǒng)中神經(jīng)元平均時間響應(yīng)的精準(zhǔn)量化模型,。但是生物的視覺系統(tǒng)有兩個獨一無二的,、普通 CNN 沒有的結(jié)構(gòu)特征:皮質(zhì)區(qū)域內(nèi)的局部循環(huán)和從下游區(qū)域到上游區(qū)域的遠(yuǎn)程反饋。我們在此探索了循環(huán)在改善分類表現(xiàn)中所扮演的角色,。我們發(fā)現(xiàn)深度 CNN 中標(biāo)準(zhǔn)形式的循環(huán)結(jié)構(gòu)(標(biāo)準(zhǔn) RNN 和 LSTM)在 ImageNet 任務(wù)中表現(xiàn)得不是很好,。相比之下,包含兩個架構(gòu)特征(旁路和門控)的自定義單元能大大提高任務(wù)的準(zhǔn)確率,。我們將這些設(shè)計原理擴(kuò)展到自動架構(gòu)搜索中,,即在數(shù)千個模型架構(gòu)中識別有利于目標(biāo)識別的新型局部循環(huán)單元和遠(yuǎn)程反饋連接。此外,,基于任務(wù)優(yōu)化的 ConvRNN 比前饋網(wǎng)絡(luò)更好地解釋了靈長類動物視覺系統(tǒng)中神經(jīng)激活的動態(tài),,這說明在執(zhí)行不同復(fù)雜視覺行為時大腦的循環(huán)連接扮演著重要角色。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章,、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者,。如涉及作品內(nèi)容,、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,,以便迅速采取適當(dāng)措施,,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118,;郵箱:[email protected],。