《電子技術應用》
您所在的位置:首頁 > 其他 > 設計應用 > 聯(lián)合隨機性策略的深度強化學習探索方法
聯(lián)合隨機性策略的深度強化學習探索方法
信息技術與網(wǎng)絡安全
楊尚彤,,王子磊
(中國科學技術大學 網(wǎng)絡空間安全學院,,安徽 合肥230027)
摘要: 目前深度強化學習算法已經(jīng)可以解決許多復雜的任務,,然而如何平衡探索和利用的關系仍然是強化學習領域的一個基本的難題,為此提出一種聯(lián)合隨機性策略的深度強化學習探索方法,。該方法利用隨機性策略具有探索能力的特點,用隨機性策略生成的經(jīng)驗樣本訓練確定性策略,,鼓勵確定性策略在保持自身優(yōu)勢的前提下學會探索,。通過結合確定性策略算法DDPG和提出的探索方法,得到基于隨機性策略指導的確定性策略梯度算法(SGDPG),。在多個復雜環(huán)境下的實驗表明,,面對探索問題,SGDPG的探索效率和樣本利用率要優(yōu)于DDPG算法,。
中圖分類號: TP18
文獻標識碼: A
DOI: 10.19358/j.issn.2096-5133.2021.06.008
引用格式: 楊尚彤,,王子磊. 聯(lián)合隨機性策略的深度強化學習探索方法[J].信息技術與網(wǎng)絡安全,2021,40(6):43-49.
Efficient exploration with stochastic policy for deep reinforcement learning
Yang Shangtong,,Wang Zilei
(School of Cyberspace Security,,University of Science and Technology of China,Hefei 230027,,China)
Abstract: At present, deep reinforcement learning algorithms have been shown to solve many complex tasks, but how to balance the relationship between exploration and exploitation is still a basic problem. Thus, this paper proposes an efficient exploration strategy combined with stochastic policy for deep reinforcement learning. The main contribution is to use the experience generated by stochastic policies to train deterministic policies, which encourages deterministic strategies to learn to explore while maintaining their own advantages. This takes advantage of the exploration ability of stochastic policies. By combining DDPG(Deep Deterministic Policy Gradient) and the proposed exploration method, the algorithm called stochastic guidance for deterministic policy gradient(SGDPG) is obtained. Finally, the results of the experiment in several complex environments show that SGDPG has higher exploration and sample efficiency than DDPG when faced with deep exploration problems.
Key words : reinforcement learning,;deep reinforcement learning;exploration-exploitation dilemma

 0 引言

目前,,強化學習(reinforcement learning)作為機器學習領域的一個研究熱點,,已經(jīng)在序列決策問題中取得了巨大的進步,廣泛應用于游戲博弈[1],、機器人控制[2],、工業(yè)應用[3]等領域。近年來,,許多強化學習方法利用神經(jīng)網(wǎng)絡來提高其性能,,于是有了一個新的研究領域,被稱為深度強化學習(Deep Reinfor-

cement Learning,,DRL)[4],。但是強化學習仍然面臨一個主要的問題:探索利用困境(exploration-exploitation dilemma)。在智能體學習過程中,,探索(exploration)意味著智能體嘗試之前沒有做過的動作,,有可能獲得更高的利益,而利用(exploitation)是指智能體根據(jù)之前的經(jīng)驗選擇當前最優(yōu)的動作,。目前,,深度強化學習方法的研究主要集中在結合深度學習提高強化學習算法的泛化能力,如何有效地探索狀態(tài)空間仍然是一個關鍵的挑戰(zhàn),。




本文詳細內容請下載:http://forexkbc.com/resource/share/2000003599




作者信息:

楊尚彤,,王子磊

(中國科學技術大學 網(wǎng)絡空間安全學院,安徽 合肥230027)


此內容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權禁止轉載,。