基于多智能體深度強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)集群自主決策-AET-電子技術(shù)應(yīng)用

基于多智能體深度強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)集群自主決策

信息技術(shù)與網(wǎng)絡(luò)安全 5期

劉志飛，曹雷，賴(lài) 俊，陳希亮

(陸軍工程大學(xué) 指揮控制工程學(xué)院，江蘇南京210007)

摘要： 由于傳統(tǒng)的無(wú)人機(jī)由人工進(jìn)行操控，無(wú)人機(jī)群在強(qiáng)電磁干擾和復(fù)雜多變的戰(zhàn)場(chǎng)環(huán)境中表現(xiàn)較為呆板。在這項(xiàng)研究中，開(kāi)發(fā)了一種靈活智能的無(wú)人機(jī)控制器。通過(guò)使用一個(gè)經(jīng)過(guò)多智能體深度強(qiáng)化學(xué)習(xí)技術(shù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)，無(wú)人機(jī)可以在飛行中控制自己的行為，從戰(zhàn)場(chǎng)環(huán)境中獲取狀態(tài)信息，自主決策，并且和其他無(wú)人機(jī)形成有效戰(zhàn)斗隊(duì)形，靈活協(xié)調(diào)和配合，并產(chǎn)生了最優(yōu)的動(dòng)作。

關(guān)鍵詞： 無(wú)人機(jī) 強(qiáng)化學(xué)習(xí) 多智能體自主決策

中圖分類(lèi)號(hào)： TP181
文獻(xiàn)標(biāo)識(shí)碼： A
DOI： 10.19358/j.issn.2096-5133.2022.05.012
引用格式：劉志飛，曹雷，賴(lài)俊，等. 基于多智能體深度強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)集群自主決策[J].信息技術(shù)與網(wǎng)絡(luò)安全，2022，41(5)：77-81.

Utonomous decision making of UAV cluster with multi-agent deep reinforcement learning

Li Zhifei，Cao Lei，Lai Jun,Chen Xiliang

(College of Command and Control Engineering，Army Engineering University，Nanjing 210007，China)

Abstract： Because the traditional UAV is controlled manually, UAV cluster is more rigid in the strong electromagnetic interference and complex and changeable battlefield environment. In the study, a flexible and intelligent UAV controller is developed. With a neural network trained by multi-agent deep reinforcement learning technology,UAV can control his behavior in flight. At the same time,UAV obtains state information from the battlefield environment, makes independent decisions, forms an effective combat formation with other UAVs, flexibly coordinates and cooperates with each other, and produces the optimal action.

Key words : unmanned aerial vehicle；reinforcement learning；multi agent；autonomous decisio

0 引言

對(duì)人工操縱無(wú)人機(jī)來(lái)說(shuō)，同時(shí)操控多架無(wú)人機(jī)完成多項(xiàng)任務(wù)且無(wú)人機(jī)之間形成有效配合是相當(dāng)困難的，注意力分散或者操控失誤都會(huì)造成較大的安全風(fēng)險(xiǎn)。無(wú)人機(jī)的操控還受到電磁干擾和遠(yuǎn)程控制距離的限制，因此，無(wú)人機(jī)靈活自主決策能力顯得尤為重要。近年來(lái)，多智能體深度強(qiáng)化學(xué)習(xí)(Multi-Agent Deep Reinforcement Learning，MADRL)在復(fù)雜游戲中取得完勝人類(lèi)專(zhuān)家水平的勝利，表明多智能體深度強(qiáng)化學(xué)習(xí)在解決復(fù)雜序貫問(wèn)題上取得重要突破。強(qiáng)化學(xué)習(xí)技術(shù)應(yīng)用到無(wú)人機(jī)群可以提高無(wú)人機(jī)群的靈活智能性。本文以一個(gè)由6架無(wú)人機(jī)組成的無(wú)人機(jī)群為例，使用墨子AI仿真實(shí)驗(yàn)平臺(tái)，無(wú)人機(jī)群組成一個(gè)巨大的動(dòng)作空間，時(shí)間步內(nèi)有200多個(gè)組合的動(dòng)作空間，為每架無(wú)人機(jī)在每一步行為的機(jī)動(dòng)方向、航線(xiàn)或向目標(biāo)發(fā)出攻擊都有提供了上千種選擇。使用深度神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)每個(gè)無(wú)人機(jī)在每個(gè)時(shí)間步的最優(yōu)動(dòng)作，并根據(jù)每個(gè)無(wú)人機(jī)的局部觀察產(chǎn)生自主決策。MADRL方法生成無(wú)人機(jī)群作戰(zhàn)決策對(duì)無(wú)人機(jī)作戰(zhàn)研究具有重要的參考價(jià)值，是未來(lái)人工智能應(yīng)用在軍事領(lǐng)域的重要方向。

本文詳細(xì)內(nèi)容請(qǐng)下載：http://forexkbc.com/resource/share/2000004251

作者信息：

劉志飛，曹雷，賴(lài) 俊，陳希亮

(陸軍工程大學(xué) 指揮控制工程學(xué)院，江蘇南京210007)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容