聯(lián)合隨機(jī)性策略的深度強(qiáng)化學(xué)習(xí)探索方法AET-電子技術(shù)應(yīng)用-最豐富的電子設(shè)計(jì)資源平臺(tái)

聯(lián)合隨機(jī)性策略的深度強(qiáng)化學(xué)習(xí)探索方法
所屬分類：技術(shù)論文
上傳者：zhoubin333
文檔大小：679 K
標(biāo)簽：強(qiáng)化學(xué)習(xí) 深度強(qiáng)化學(xué)習(xí) 探索利用困境
所需積分：0分積分不夠怎么辦？
文檔介紹：目前深度強(qiáng)化學(xué)習(xí)算法已經(jīng)可以解決許多復(fù)雜的任務(wù)，然而如何平衡探索和利用的關(guān)系仍然是強(qiáng)化學(xué)習(xí)領(lǐng)域的一個(gè)基本的難題，為此提出一種聯(lián)合隨機(jī)性策略的深度強(qiáng)化學(xué)習(xí)探索方法。該方法利用隨機(jī)性策略具有探索能力的特點(diǎn)，用隨機(jī)性策略生成的經(jīng)驗(yàn)樣本訓(xùn)練確定性策略，鼓勵(lì)確定性策略在保持自身優(yōu)勢(shì)的前提下學(xué)會(huì)探索。通過結(jié)合確定性策略算法DDPG和提出的探索方法，得到基于隨機(jī)性策略指導(dǎo)的確定性策略梯度算法(SGDPG)。在多個(gè)復(fù)雜環(huán)境下的實(shí)驗(yàn)表明，面對(duì)探索問題，SGDPG的探索效率和樣本利用率要優(yōu)于DDPG算法。
現(xiàn)在下載
VIP會(huì)員，AET專家下載不扣分；重復(fù)下載不扣分，本人上傳資源不扣分。

活動(dòng)