近日,,來(lái)自北京大學(xué)的研究者在 arXiv 上發(fā)布論文,,提出一種新型注意力通信模型 ATOC,使智能體在大型多智能體強(qiáng)化學(xué)習(xí)的部分可觀測(cè)分布式環(huán)境下能夠進(jìn)行高效的通信,,幫助智能體開(kāi)發(fā)出更協(xié)調(diào)復(fù)雜的策略,。
從生物學(xué)角度來(lái)看,通信與合作關(guān)系密切,,并可能起源于合作,。例如,長(zhǎng)尾黑顎猴可以發(fā)出不同的聲音來(lái)警示群體中的其他成員有不同的捕食者 [2],。類似地,,在多智能體強(qiáng)化學(xué)習(xí)(multi-agent reinforcement learning,MARL)中,,通信對(duì)于合作尤為重要,,特別是在大量智能體協(xié)同工作的場(chǎng)景下,,諸如自動(dòng)車輛規(guī)劃 [1]、智能電網(wǎng)控制 [20] 和多機(jī)器人控制 [14],。
深度強(qiáng)化學(xué)習(xí)(RL)在一系列具有挑戰(zhàn)性的問(wèn)題中取得了顯著成功,,如游戲 [16] [22] [8] 和機(jī)器人 [12] [11] [5]。我們可以把 MARL 看作是獨(dú)立的 RL,,其中每個(gè)學(xué)習(xí)器都將其他智能體看成是環(huán)境的一部分,。然而,隨著訓(xùn)練進(jìn)行,,其他智能體的策略是會(huì)變動(dòng)的,,所以從任意單個(gè)智能體的角度來(lái)看,環(huán)境變得不穩(wěn)定,,智能體間難以合作,。此外,使用獨(dú)立 RL 學(xué)習(xí)到的策略很容易與其他智能體的策略產(chǎn)生過(guò)擬合 [9],。
本論文研究者認(rèn)為解決該問(wèn)題的關(guān)鍵在于通信,這可以增強(qiáng)策略間的協(xié)調(diào),。MARL 中有一些學(xué)習(xí)通信的方法,,包括 DIAL [3]、CommNet [23],、BiCNet [18] 和 master-slave [7],。然而,現(xiàn)有方法所采用的智能體之間共享的信息或是預(yù)定義的通信架構(gòu)是有問(wèn)題的,。當(dāng)存在大量智能體時(shí),,智能體很難從全局共享的信息中區(qū)分出有助于協(xié)同決策的有價(jià)值的信息,因此通信幾乎毫無(wú)幫助甚至可能危及協(xié)同學(xué)習(xí),。此外,,在實(shí)際應(yīng)用中,由于接收大量信息需要大量的帶寬從而引起長(zhǎng)時(shí)間的延遲和高計(jì)算復(fù)雜度,,因此所有智能體之間彼此的通信是十分昂貴的,。像 master-slave [7] 這樣的預(yù)定義通信架構(gòu)可能有所幫助,但是它們限定特定智能體之間的通信,,因而限制了潛在的合作可能性,。
為了解決這些困難,本論文提出了一種名為 ATOC 的注意力通信模型,,使智能體在大型 MARL 的部分可觀測(cè)分布式環(huán)境下學(xué)習(xí)高效的通信,。受視覺(jué)注意力循環(huán)模型的啟發(fā),研究者設(shè)計(jì)了一種注意力單元,,它可以接收編碼局部觀測(cè)結(jié)果和某個(gè)智能體的行動(dòng)意圖,,并決定該智能體是否要與其他智能體進(jìn)行通信并在可觀測(cè)區(qū)域內(nèi)合作,。如果智能體選擇合作,則稱其為發(fā)起者,,它會(huì)為了協(xié)調(diào)策略選擇協(xié)作者來(lái)組成一個(gè)通信組,。通信組進(jìn)行動(dòng)態(tài)變化,僅在必要時(shí)保持不變,。研究者利用雙向 LSTM 單元作為信道來(lái)連接通信組內(nèi)的所有智能體,。LSTM 單元將內(nèi)部狀態(tài)(即編碼局部觀測(cè)結(jié)果和行動(dòng)意圖)作為輸入并返回指導(dǎo)智能體進(jìn)行協(xié)調(diào)策略的指令。與 CommNet 和 BiCNet 分別計(jì)算內(nèi)部狀態(tài)的算術(shù)平均值和加權(quán)平均值不同,,LSTM 單元有選擇地輸出用于協(xié)作決策的重要信息,,這使得智能體能夠在動(dòng)態(tài)通信環(huán)境中學(xué)習(xí)協(xié)調(diào)策略。
研究者將 ATOC 實(shí)現(xiàn)為端到端訓(xùn)練的 actor-critic 模型的擴(kuò)展,。在測(cè)試階段,,所有智能體共享策略網(wǎng)絡(luò)、注意力單元和信道,,因此 ATOC 在大量智能體的情況下具備很好的擴(kuò)展性,。研究者在三個(gè)場(chǎng)景中通過(guò)實(shí)驗(yàn)展示了 ATOC 的成功,分別對(duì)應(yīng)于局部獎(jiǎng)勵(lì),、共享全局獎(jiǎng)勵(lì)和競(jìng)爭(zhēng)性獎(jiǎng)勵(lì)下的智能體協(xié)作,。與現(xiàn)有的方法相比,ATOC 智能體被證明能夠開(kāi)發(fā)出更協(xié)調(diào)復(fù)雜的策略,,并具備更好的可擴(kuò)展性(即在測(cè)試階段添加更多智能體),。據(jù)研究者所知,這是注意力通信首次成功地應(yīng)用于 MARL,。
圖 1:ATOC 架構(gòu),。
圖 2:實(shí)驗(yàn)場(chǎng)景圖示:協(xié)作導(dǎo)航(左)、協(xié)作推球(中),、捕食者-獵物(右),。
圖 3:在協(xié)作導(dǎo)航訓(xùn)練期間,ATOC 獎(jiǎng)勵(lì)與基線獎(jiǎng)勵(lì)的對(duì)比,。
表 1:協(xié)作導(dǎo)航,。
圖 4:ATOC 智能體之間關(guān)于協(xié)作導(dǎo)航的通信可視化。最右邊的圖片說(shuō)明在有無(wú)通信時(shí),,一組智能體采取的行動(dòng),。
圖 5:在協(xié)作推球訓(xùn)練期間,ATOC 獎(jiǎng)勵(lì)與基線獎(jiǎng)勵(lì)的對(duì)比,。
表 2:協(xié)作推球,。
圖 6:在捕食者-獵物中,ATOC 和基線的捕食者得分的交叉對(duì)比,。
ATOC 算法,。
論文:Learning Attentional Communication for Multi-Agent Cooperation
論文鏈接:https://arxiv.org/pdf/1805.07733.pdf
摘要:通信可能是多智能體協(xié)作的一個(gè)有效途徑,。然而,現(xiàn)有方法所采用的智能體之間共享的信息或是預(yù)定義的通信架構(gòu)存在問(wèn)題,。當(dāng)存在大量智能體時(shí),,智能體很難從全局共享的信息中區(qū)分出有助于協(xié)同決策的有用信息。因此通信幾乎毫無(wú)幫助甚至可能危及多智能體間的協(xié)同學(xué)習(xí),。另一方面,,預(yù)定義的通信架構(gòu)限定特定智能體之間的通信,因而限制了潛在的合作可能性,。為了解決這些困難,,本論文提出了一種注意力通信模型,它學(xué)習(xí)何時(shí)需要通信以及如何整合共享信息以進(jìn)行合作決策,。我們的模型給大型的多智能體協(xié)作帶來(lái)了有效且高效的通信,。從實(shí)驗(yàn)上看,我們證明了該模型在不同協(xié)作場(chǎng)景中的有效性,,使得智能體可以開(kāi)發(fā)出比現(xiàn)有方法更協(xié)調(diào)復(fù)雜的策略,。