「AlphaGo 之父」David Silver最新演講，傳授強(qiáng)化學(xué)習(xí)的十大原則-AET-電子技術(shù)應(yīng)用

「AlphaGo 之父」David Silver最新演講，傳授強(qiáng)化學(xué)習(xí)的十大原則

日期： 2018-09-17

關(guān)鍵詞： 強(qiáng)化學(xué)習(xí) Double-Q學(xué)習(xí) 智能體

9 月 9 日-14 日，Deep Learning Indaba 2018 大會(huì)在南非斯泰倫博斯舉行。會(huì)上，DeepMind 強(qiáng)化學(xué)習(xí)研究小組負(fù)責(zé)人、首席研究員、AlphaGo 項(xiàng)目負(fù)責(zé)人 David Silver 發(fā)表演講，介紹了強(qiáng)化學(xué)習(xí)的十大原則。機(jī)器之心對(duì)該演講進(jìn)行了介紹。

演講課件地址：http://www.deeplearningindaba.com/uploads/1/0/2/6/102657286/principles_of_deep_rl.pdf

微信圖片_20180917215347.jpg

原則一：評(píng)估方法驅(qū)動(dòng)研究進(jìn)展

David Silver 指出，客觀、量化的評(píng)估方法是強(qiáng)化學(xué)習(xí)進(jìn)展的重要驅(qū)動(dòng)力：

評(píng)估指標(biāo)的選擇決定了研究進(jìn)展的方向；

這可以說是強(qiáng)化學(xué)習(xí)項(xiàng)目中最重要的一個(gè)決定。

David Silver 介紹了兩種評(píng)估方法：

排行榜驅(qū)動(dòng)的研究

確保評(píng)估指標(biāo)緊密對(duì)應(yīng)最終目標(biāo)；

避免主觀評(píng)估（如人類評(píng)估）。

假設(shè)驅(qū)動(dòng)的研究

形成一個(gè)假設(shè)：Double-Q 學(xué)習(xí)優(yōu)于 Q 學(xué)習(xí)，因?yàn)榍罢邷p少了向上偏誤（upward bias）；

在寬泛的條件下驗(yàn)證該假設(shè)；

對(duì)比同類方法，而不是只與當(dāng)前最優(yōu)方法進(jìn)行對(duì)比；

尋求理解，而不是排行榜表現(xiàn)。

微信圖片_20180917215411.jpg

原則二：可擴(kuò)展性是成功的關(guān)鍵

David Silver 認(rèn)為可擴(kuò)展性是強(qiáng)化學(xué)習(xí)研究成功的關(guān)鍵。

算法的可擴(kuò)展性指與資源相關(guān)的算法的性能變化；

資源包括計(jì)算量、內(nèi)存或數(shù)據(jù)；

算法的可擴(kuò)展性最終決定算法成功與否；

可擴(kuò)展性比研究的起點(diǎn)更加重要；

優(yōu)秀的算法在給定有限資源的條件下是最優(yōu)的。

微信圖片_20180917215439.jpg

原則三：通用性（Generality）支持算法的長(zhǎng)遠(yuǎn)有效性

算法的通用性指它在不同強(qiáng)化學(xué)習(xí)環(huán)境中的性能。研究者在訓(xùn)練時(shí)要避免在當(dāng)前任務(wù)上的過擬合，并尋求可以泛化至未來未知環(huán)境的算法。

我們無法預(yù)測(cè)未來，但是未來任務(wù)的復(fù)雜度可能至少和當(dāng)前任務(wù)持平；在當(dāng)前任務(wù)上遇到的困難在未來則很有可能增加。

因此，要想使算法可以泛化至未來的不同強(qiáng)化學(xué)習(xí)環(huán)境，研究者必須在多樣化且真實(shí)的強(qiáng)化學(xué)習(xí)環(huán)境集合上測(cè)試算法。

微信圖片_20180917215508.jpg

原則四：信任智能體的經(jīng)驗(yàn)

David Silver 指出經(jīng)驗(yàn)（觀察、動(dòng)作和獎(jiǎng)勵(lì)）是強(qiáng)化學(xué)習(xí)的數(shù)據(jù)，公式可以寫作：

h_t=o_1,r_1,a_2,o_2,r_2,...,a_t,o_t,r_t

經(jīng)驗(yàn)流隨智能體在環(huán)境中學(xué)習(xí)時(shí)間的延長(zhǎng)而累積。

他告誡我們，要把智能體的經(jīng)驗(yàn)作為知識(shí)的唯一來源。人們?cè)谥悄荏w學(xué)習(xí)遇到問題時(shí)傾向于添加人類的專業(yè)知識(shí)（人類數(shù)據(jù)、特征、啟發(fā)式方法、約束、抽象、域操控）。

他認(rèn)為，完全從經(jīng)驗(yàn)中學(xué)習(xí)看起來似乎不可能。也就是說，強(qiáng)化學(xué)習(xí)的核心問題非常棘手。但這是 AI 的核心問題，也值得我們付出努力。從長(zhǎng)遠(yuǎn)來看，從經(jīng)驗(yàn)中學(xué)習(xí)一直是正確的選擇。

微信圖片_20180917215530.jpg

原則五：狀態(tài)是主觀的

David Silver 指出：

智能體應(yīng)該從它們的經(jīng)驗(yàn)中構(gòu)建屬于自己的狀態(tài)，即：s_t=f(h_t)

智能體狀態(tài)是前一個(gè)狀態(tài)和新觀察的函數(shù)：s_t=f(s_t-1,a_t-1,o_t,r_t)

如下圖所示：

微信圖片_20180917215557.jpg

它是循環(huán)神經(jīng)網(wǎng)絡(luò)的隱藏狀態(tài)。

永遠(yuǎn)不要根據(jù)環(huán)境的「真實(shí)」?fàn)顟B(tài)來定義狀態(tài)（智能體應(yīng)該是一個(gè)部分可觀察馬爾可夫鏈模型）。

微信圖片_20180917215712.jpg

原則六：控制數(shù)據(jù)流

智能體存在于豐富的感覺運(yùn)動(dòng)（sensorimotor）數(shù)據(jù)流中：

觀測(cè)結(jié)果的數(shù)據(jù)流輸入到智能體中；

智能體輸出動(dòng)作流。

智能體的動(dòng)作會(huì)影響數(shù)據(jù)流：

微信圖片_20180917215733.jpg

特征控制 => 數(shù)據(jù)流控制

數(shù)據(jù)流控制 => 控制未來

控制未來 => 可以最大化任意獎(jiǎng)勵(lì)

微信圖片_20180917215807.jpg

原則七：用價(jià)值函數(shù)對(duì)環(huán)境建模

David Silver 首先給出了使用價(jià)值函數(shù)的三個(gè)原因：

高效地對(duì)未來進(jìn)行總結(jié)/緩存；

將規(guī)劃過程簡(jiǎn)化為固定時(shí)間的查找，而不是進(jìn)行指數(shù)時(shí)間量級(jí)的預(yù)測(cè)；

獨(dú)立于時(shí)間步跨度進(jìn)行計(jì)算和學(xué)習(xí)。

他指出，學(xué)習(xí)多個(gè)價(jià)值函數(shù)可以高效地建模環(huán)境的多個(gè)方面（控制狀態(tài)流），包括隨后的狀態(tài)變量；還能在多個(gè)時(shí)間尺度上學(xué)習(xí)。他還提醒我們避免在過于簡(jiǎn)化的時(shí)間步上建模環(huán)境。

微信圖片_20180917215831.jpg

原則八：規(guī)劃：從想象的經(jīng)驗(yàn)中學(xué)習(xí)

David Silver 提出了一種有效的規(guī)劃方法，并將其分為兩步。首先想象下一步會(huì)發(fā)生什么，從模型中采樣狀態(tài)的軌跡；然后利用我們?cè)谡鎸?shí)經(jīng)驗(yàn)中用過的 RL 算法從想象的經(jīng)驗(yàn)中學(xué)習(xí)。他提醒我們從現(xiàn)在開始關(guān)注價(jià)值函數(shù)逼近。

微信圖片_20180917215904.jpg

原則九：使用函數(shù)近似器

David Silver 認(rèn)為，可微網(wǎng)絡(luò)架構(gòu)是一種強(qiáng)大的工具，可以豐富狀態(tài)表示，同時(shí)使可微記憶、可微規(guī)劃以及分層控制更加便利。他提出將算法復(fù)雜度引入網(wǎng)絡(luò)架構(gòu)，以減少算法復(fù)雜度（指參數(shù)的更新方式），增加架構(gòu)的表達(dá)性（指參數(shù)的作用）。

微信圖片_20180917215925.jpg

原則十：學(xué)會(huì)學(xué)習(xí)

AI 史是一個(gè)進(jìn)步史：

第一代：舊式的 AI

手動(dòng)預(yù)測(cè)：此時(shí)的人工智能只能執(zhí)行手動(dòng)預(yù)測(cè)

什么也學(xué)不會(huì)

第二代：淺層學(xué)習(xí)

手動(dòng)構(gòu)建特征：研究人員需要耗費(fèi)大量時(shí)間、精力手動(dòng)構(gòu)建特征

學(xué)習(xí)預(yù)測(cè)

第三代：深度學(xué)習(xí)

手動(dòng)構(gòu)建的算法（優(yōu)化器、目標(biāo)、架構(gòu)……）

端到端學(xué)習(xí)特征和預(yù)測(cè)

第四代：元學(xué)習(xí)

無需手工

端到端學(xué)習(xí)算法和特征以及預(yù)測(cè)

微信圖片_20180917215950.jpg

版權(quán)聲明：本站內(nèi)容除特別聲明的原創(chuàng)文章之外，轉(zhuǎn)載內(nèi)容只為傳遞更多信息，并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題，請(qǐng)及時(shí)通過電子郵件或電話通知我們，以便迅速采取適當(dāng)措施，避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話：010-82306118；郵箱：[email protected]。

「AlphaGo 之父」David Silver最新演講，傳授強(qiáng)化學(xué)習(xí)的十大原則

日期： 2018-09-17

相關(guān)內(nèi)容