聯(lián)合隨機(jī)性策略的深度強(qiáng)化學(xué)習(xí)探索方法
所屬分類:技術(shù)論文
上傳者:zhoubin333
文檔大?。?span>679 K
標(biāo)簽: 強(qiáng)化學(xué)習(xí) 深度強(qiáng)化學(xué)習(xí) 探索利用困境
所需積分:0分積分不夠怎么辦,?
文檔介紹: 目前深度強(qiáng)化學(xué)習(xí)算法已經(jīng)可以解決許多復(fù)雜的任務(wù),然而如何平衡探索和利用的關(guān)系仍然是強(qiáng)化學(xué)習(xí)領(lǐng)域的一個基本的難題,為此提出一種聯(lián)合隨機(jī)性策略的深度強(qiáng)化學(xué)習(xí)探索方法,。該方法利用隨機(jī)性策略具有探索能力的特點,用隨機(jī)性策略生成的經(jīng)驗樣本訓(xùn)練確定性策略,,鼓勵確定性策略在保持自身優(yōu)勢的前提下學(xué)會探索,。通過結(jié)合確定性策略算法DDPG和提出的探索方法,得到基于隨機(jī)性策略指導(dǎo)的確定性策略梯度算法(SGDPG),。在多個復(fù)雜環(huán)境下的實驗表明,,面對探索問題,SGDPG的探索效率和樣本利用率要優(yōu)于DDPG算法,。
現(xiàn)在下載
VIP會員,,AET專家下載不扣分;重復(fù)下載不扣分,,本人上傳資源不扣分,。