《電子技術應用》
您所在的位置:首頁 > 可編程邏輯 > 業(yè)界動態(tài) > 學界 | 北京大學研究者提出注意力通信模型ATOC,助力多智能體協(xié)作

學界 | 北京大學研究者提出注意力通信模型ATOC,,助力多智能體協(xié)作

2018-05-29

近日,,來自北京大學的研究者在 arXiv 上發(fā)布論文,提出一種新型注意力通信模型 ATOC,,使智能體在大型多智能體強化學習的部分可觀測分布式環(huán)境下能夠進行高效的通信,,幫助智能體開發(fā)出更協(xié)調復雜的策略。


從生物學角度來看,,通信與合作關系密切,,并可能起源于合作。例如,,長尾黑顎猴可以發(fā)出不同的聲音來警示群體中的其他成員有不同的捕食者 [2],。類似地,,在多智能體強化學習(multi-agent reinforcement learning,MARL)中,,通信對于合作尤為重要,,特別是在大量智能體協(xié)同工作的場景下,諸如自動車輛規(guī)劃 [1],、智能電網(wǎng)控制 [20] 和多機器人控制 [14]。


深度強化學習(RL)在一系列具有挑戰(zhàn)性的問題中取得了顯著成功,,如游戲 [16] [22] [8] 和機器人 [12] [11] [5],。我們可以把 MARL 看作是獨立的 RL,其中每個學習器都將其他智能體看成是環(huán)境的一部分,。然而,,隨著訓練進行,其他智能體的策略是會變動的,,所以從任意單個智能體的角度來看,,環(huán)境變得不穩(wěn)定,智能體間難以合作,。此外,,使用獨立 RL 學習到的策略很容易與其他智能體的策略產(chǎn)生過擬合 [9]。


本論文研究者認為解決該問題的關鍵在于通信,,這可以增強策略間的協(xié)調,。MARL 中有一些學習通信的方法,包括 DIAL [3],、CommNet [23],、BiCNet [18] 和 master-slave [7]。然而,,現(xiàn)有方法所采用的智能體之間共享的信息或是預定義的通信架構是有問題的,。當存在大量智能體時,智能體很難從全局共享的信息中區(qū)分出有助于協(xié)同決策的有價值的信息,,因此通信幾乎毫無幫助甚至可能危及協(xié)同學習,。此外,在實際應用中,,由于接收大量信息需要大量的帶寬從而引起長時間的延遲和高計算復雜度,,因此所有智能體之間彼此的通信是十分昂貴的。像 master-slave [7] 這樣的預定義通信架構可能有所幫助,,但是它們限定特定智能體之間的通信,,因而限制了潛在的合作可能性。


為了解決這些困難,,本論文提出了一種名為 ATOC 的注意力通信模型,,使智能體在大型 MARL 的部分可觀測分布式環(huán)境下學習高效的通信,。受視覺注意力循環(huán)模型的啟發(fā),研究者設計了一種注意力單元,,它可以接收編碼局部觀測結果和某個智能體的行動意圖,,并決定該智能體是否要與其他智能體進行通信并在可觀測區(qū)域內合作。如果智能體選擇合作,,則稱其為發(fā)起者,,它會為了協(xié)調策略選擇協(xié)作者來組成一個通信組。通信組進行動態(tài)變化,,僅在必要時保持不變,。研究者利用雙向 LSTM 單元作為信道來連接通信組內的所有智能體。LSTM 單元將內部狀態(tài)(即編碼局部觀測結果和行動意圖)作為輸入并返回指導智能體進行協(xié)調策略的指令,。與 CommNet 和 BiCNet 分別計算內部狀態(tài)的算術平均值和加權平均值不同,,LSTM 單元有選擇地輸出用于協(xié)作決策的重要信息,這使得智能體能夠在動態(tài)通信環(huán)境中學習協(xié)調策略,。


研究者將 ATOC 實現(xiàn)為端到端訓練的 actor-critic 模型的擴展,。在測試階段,所有智能體共享策略網(wǎng)絡,、注意力單元和信道,,因此 ATOC 在大量智能體的情況下具備很好的擴展性。研究者在三個場景中通過實驗展示了 ATOC 的成功,,分別對應于局部獎勵,、共享全局獎勵和競爭性獎勵下的智能體協(xié)作。與現(xiàn)有的方法相比,,ATOC 智能體被證明能夠開發(fā)出更協(xié)調復雜的策略,,并具備更好的可擴展性(即在測試階段添加更多智能體)。據(jù)研究者所知,,這是注意力通信首次成功地應用于 MARL,。

微信圖片_20180529225448.jpg

圖 1:ATOC 架構。

微信圖片_20180529225510.jpg

圖 2:實驗場景圖示:協(xié)作導航(左),、協(xié)作推球(中),、捕食者-獵物(右)。

微信圖片_20180529225534.jpg

圖 3:在協(xié)作導航訓練期間,,ATOC 獎勵與基線獎勵的對比,。

微信圖片_20180529225551.jpg

表 1:協(xié)作導航。

微信圖片_20180529225610.jpg

圖 4:ATOC 智能體之間關于協(xié)作導航的通信可視化,。最右邊的圖片說明在有無通信時,,一組智能體采取的行動。

微信圖片_20180529225632.jpg

圖 5:在協(xié)作推球訓練期間,,ATOC 獎勵與基線獎勵的對比,。

微信圖片_20180529225654.jpg

表 2:協(xié)作推球,。

微信圖片_20180529225714.jpg

圖 6:在捕食者-獵物中,ATOC 和基線的捕食者得分的交叉對比,。

微信圖片_20180529225736.jpg

ATOC 算法,。


論文:Learning Attentional Communication for Multi-Agent Cooperation 

微信圖片_20180529225800.jpg


論文鏈接:https://arxiv.org/pdf/1805.07733.pdf


摘要:通信可能是多智能體協(xié)作的一個有效途徑。然而,,現(xiàn)有方法所采用的智能體之間共享的信息或是預定義的通信架構存在問題,。當存在大量智能體時,智能體很難從全局共享的信息中區(qū)分出有助于協(xié)同決策的有用信息,。因此通信幾乎毫無幫助甚至可能危及多智能體間的協(xié)同學習,。另一方面,預定義的通信架構限定特定智能體之間的通信,,因而限制了潛在的合作可能性,。為了解決這些困難,,本論文提出了一種注意力通信模型,,它學習何時需要通信以及如何整合共享信息以進行合作決策。我們的模型給大型的多智能體協(xié)作帶來了有效且高效的通信,。從實驗上看,,我們證明了該模型在不同協(xié)作場景中的有效性,使得智能體可以開發(fā)出比現(xiàn)有方法更協(xié)調復雜的策略,。


本站內容除特別聲明的原創(chuàng)文章之外,,轉載內容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點,。轉載的所有的文章,、圖片、音/視頻文件等資料的版權歸版權所有權人所有,。本站采用的非本站原創(chuàng)文章及圖片等內容無法一一聯(lián)系確認版權者,。如涉及作品內容、版權和其它問題,,請及時通過電子郵件或電話通知我們,,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected]