9 月 9 日-14 日,,Deep Learning Indaba 2018 大會在南非斯泰倫博斯舉行,。會上,DeepMind 強(qiáng)化學(xué)習(xí)研究小組負(fù)責(zé)人,、首席研究員,、AlphaGo 項(xiàng)目負(fù)責(zé)人 David Silver 發(fā)表演講,介紹了強(qiáng)化學(xué)習(xí)的十大原則,。機(jī)器之心對該演講進(jìn)行了介紹,。
演講課件地址:http://www.deeplearningindaba.com/uploads/1/0/2/6/102657286/principles_of_deep_rl.pdf
原則一:評估方法驅(qū)動研究進(jìn)展
David Silver 指出,客觀,、量化的評估方法是強(qiáng)化學(xué)習(xí)進(jìn)展的重要驅(qū)動力:
評估指標(biāo)的選擇決定了研究進(jìn)展的方向,;
這可以說是強(qiáng)化學(xué)習(xí)項(xiàng)目中最重要的一個(gè)決定。
David Silver 介紹了兩種評估方法:
排行榜驅(qū)動的研究
確保評估指標(biāo)緊密對應(yīng)最終目標(biāo),;
避免主觀評估(如人類評估),。
假設(shè)驅(qū)動的研究
形成一個(gè)假設(shè):Double-Q 學(xué)習(xí)優(yōu)于 Q 學(xué)習(xí),,因?yàn)榍罢邷p少了向上偏誤(upward bias);
在寬泛的條件下驗(yàn)證該假設(shè),;
對比同類方法,,而不是只與當(dāng)前最優(yōu)方法進(jìn)行對比;
尋求理解,,而不是排行榜表現(xiàn),。
原則二:可擴(kuò)展性是成功的關(guān)鍵
David Silver 認(rèn)為可擴(kuò)展性是強(qiáng)化學(xué)習(xí)研究成功的關(guān)鍵。
算法的可擴(kuò)展性指與資源相關(guān)的算法的性能變化,;
資源包括計(jì)算量,、內(nèi)存或數(shù)據(jù);
算法的可擴(kuò)展性最終決定算法成功與否,;
可擴(kuò)展性比研究的起點(diǎn)更加重要,;
優(yōu)秀的算法在給定有限資源的條件下是最優(yōu)的。
原則三:通用性(Generality)支持算法的長遠(yuǎn)有效性
算法的通用性指它在不同強(qiáng)化學(xué)習(xí)環(huán)境中的性能,。研究者在訓(xùn)練時(shí)要避免在當(dāng)前任務(wù)上的過擬合,,并尋求可以泛化至未來未知環(huán)境的算法。
我們無法預(yù)測未來,,但是未來任務(wù)的復(fù)雜度可能至少和當(dāng)前任務(wù)持平;在當(dāng)前任務(wù)上遇到的困難在未來則很有可能增加,。
因此,,要想使算法可以泛化至未來的不同強(qiáng)化學(xué)習(xí)環(huán)境,研究者必須在多樣化且真實(shí)的強(qiáng)化學(xué)習(xí)環(huán)境集合上測試算法,。
原則四:信任智能體的經(jīng)驗(yàn)
David Silver 指出經(jīng)驗(yàn)(觀察,、動作和獎(jiǎng)勵(lì))是強(qiáng)化學(xué)習(xí)的數(shù)據(jù),公式可以寫作:
h_t=o_1,r_1,a_2,o_2,r_2,...,a_t,o_t,r_t
經(jīng)驗(yàn)流隨智能體在環(huán)境中學(xué)習(xí)時(shí)間的延長而累積,。
他告誡我們,,要把智能體的經(jīng)驗(yàn)作為知識的唯一來源。人們在智能體學(xué)習(xí)遇到問題時(shí)傾向于添加人類的專業(yè)知識(人類數(shù)據(jù),、特征,、啟發(fā)式方法、約束,、抽象,、域操控)。
他認(rèn)為,,完全從經(jīng)驗(yàn)中學(xué)習(xí)看起來似乎不可能,。也就是說,強(qiáng)化學(xué)習(xí)的核心問題非常棘手,。但這是 AI 的核心問題,,也值得我們付出努力,。從長遠(yuǎn)來看,從經(jīng)驗(yàn)中學(xué)習(xí)一直是正確的選擇,。
原則五:狀態(tài)是主觀的
David Silver 指出:
智能體應(yīng)該從它們的經(jīng)驗(yàn)中構(gòu)建屬于自己的狀態(tài),,即:s_t=f(h_t)
智能體狀態(tài)是前一個(gè)狀態(tài)和新觀察的函數(shù):s_t=f(s_t-1,a_t-1,o_t,r_t)
如下圖所示:
它是循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏狀態(tài)。
永遠(yuǎn)不要根據(jù)環(huán)境的「真實(shí)」?fàn)顟B(tài)來定義狀態(tài)(智能體應(yīng)該是一個(gè)部分可觀察馬爾可夫鏈模型),。
原則六:控制數(shù)據(jù)流
智能體存在于豐富的感覺運(yùn)動(sensorimotor)數(shù)據(jù)流中:
觀測結(jié)果的數(shù)據(jù)流輸入到智能體中,;
智能體輸出動作流。
智能體的動作會影響數(shù)據(jù)流:
特征控制 => 數(shù)據(jù)流控制
數(shù)據(jù)流控制 => 控制未來
控制未來 => 可以最大化任意獎(jiǎng)勵(lì)
原則七:用價(jià)值函數(shù)對環(huán)境建模
David Silver 首先給出了使用價(jià)值函數(shù)的三個(gè)原因:
高效地對未來進(jìn)行總結(jié)/緩存,;
將規(guī)劃過程簡化為固定時(shí)間的查找,,而不是進(jìn)行指數(shù)時(shí)間量級的預(yù)測;
獨(dú)立于時(shí)間步跨度進(jìn)行計(jì)算和學(xué)習(xí),。
他指出,,學(xué)習(xí)多個(gè)價(jià)值函數(shù)可以高效地建模環(huán)境的多個(gè)方面(控制狀態(tài)流),包括隨后的狀態(tài)變量,;還能在多個(gè)時(shí)間尺度上學(xué)習(xí),。他還提醒我們避免在過于簡化的時(shí)間步上建模環(huán)境。
原則八:規(guī)劃:從想象的經(jīng)驗(yàn)中學(xué)習(xí)
David Silver 提出了一種有效的規(guī)劃方法,,并將其分為兩步,。首先想象下一步會發(fā)生什么,從模型中采樣狀態(tài)的軌跡,;然后利用我們在真實(shí)經(jīng)驗(yàn)中用過的 RL 算法從想象的經(jīng)驗(yàn)中學(xué)習(xí),。他提醒我們從現(xiàn)在開始關(guān)注價(jià)值函數(shù)逼近。
原則九:使用函數(shù)近似器
David Silver 認(rèn)為,,可微網(wǎng)絡(luò)架構(gòu)是一種強(qiáng)大的工具,,可以豐富狀態(tài)表示,同時(shí)使可微記憶,、可微規(guī)劃以及分層控制更加便利,。他提出將算法復(fù)雜度引入網(wǎng)絡(luò)架構(gòu),以減少算法復(fù)雜度(指參數(shù)的更新方式),,增加架構(gòu)的表達(dá)性(指參數(shù)的作用),。
原則十:學(xué)會學(xué)習(xí)
AI 史是一個(gè)進(jìn)步史:
第一代:舊式的 AI
手動預(yù)測:此時(shí)的人工智能只能執(zhí)行手動預(yù)測
什么也學(xué)不會
第二代:淺層學(xué)習(xí)
手動構(gòu)建特征:研究人員需要耗費(fèi)大量時(shí)間、精力手動構(gòu)建特征
學(xué)習(xí)預(yù)測
第三代:深度學(xué)習(xí)
手動構(gòu)建的算法(優(yōu)化器,、目標(biāo),、架構(gòu)……)
端到端學(xué)習(xí)特征和預(yù)測
第四代:元學(xué)習(xí)
無需手工
端到端學(xué)習(xí)算法和特征以及預(yù)測