聯(lián)合隨機(jī)性策略的深度強(qiáng)化學(xué)習(xí)探索方法 | |
所屬分類:技術(shù)論文 | |
上傳者:zhoubin333 | |
文檔大?。?span>679 K | |
標(biāo)簽: 強(qiáng)化學(xué)習(xí) 深度強(qiáng)化學(xué)習(xí) 探索利用困境 | |
所需積分:0分積分不夠怎么辦,? | |
文檔介紹: 目前深度強(qiáng)化學(xué)習(xí)算法已經(jīng)可以解決許多復(fù)雜的任務(wù),,然而如何平衡探索和利用的關(guān)系仍然是強(qiáng)化學(xué)習(xí)領(lǐng)域的一個(gè)基本的難題,,為此提出一種聯(lián)合隨機(jī)性策略的深度強(qiáng)化學(xué)習(xí)探索方法,。該方法利用隨機(jī)性策略具有探索能力的特點(diǎn),,用隨機(jī)性策略生成的經(jīng)驗(yàn)樣本訓(xùn)練確定性策略,,鼓勵(lì)確定性策略在保持自身優(yōu)勢(shì)的前提下學(xué)會(huì)探索,。通過結(jié)合確定性策略算法DDPG和提出的探索方法,,得到基于隨機(jī)性策略指導(dǎo)的確定性策略梯度算法(SGDPG)。在多個(gè)復(fù)雜環(huán)境下的實(shí)驗(yàn)表明,,面對(duì)探索問題,,SGDPG的探索效率和樣本利用率要優(yōu)于DDPG算法。 | |
現(xiàn)在下載 | |
VIP會(huì)員,,AET專家下載不扣分,;重復(fù)下載不扣分,,本人上傳資源不扣分。 |
Copyright ? 2005-2024 華北計(jì)算機(jī)系統(tǒng)工程研究所版權(quán)所有 京ICP備10017138號(hào)-2