《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 【ChatGPT專題】ChatGPT關(guān)鍵技術(shù)之RLHF簡介

【ChatGPT專題】ChatGPT關(guān)鍵技術(shù)之RLHF簡介

2023-02-15
來源:啟明星辰核心技術(shù)研究
關(guān)鍵詞: ChatGPT RLHF OpenAI

  帶有人類反饋的強化學習(RLHF)是一種訓練大型語言模型(LLM)的新技術(shù),,對OpenAIChatGPT模型、DeepMind的Sparrow,、Anthropic的Claude等都至關(guān)重要。不是僅僅訓練LLM來預(yù)測下一個單詞,而是訓練它們理解指令并產(chǎn)生有用的回應(yīng)。Surge AI的官方博客發(fā)表了一篇文章對RLHF技術(shù)進行了簡介,,文章首先給出一些例子對比了沒有使用RLHF技術(shù)訓練的LLM與使用了RLHF技術(shù)訓練的LLM的差異,然后簡要描述了RLHF技術(shù)的主要步驟,。

  RLHF使用與否的差異

  文章給出3個例子,,分別是讓LLM寫一封郵件,、做數(shù)學運算和生成代碼,。以下是RLHF使用與否的對比結(jié)果(左側(cè)未使用RLFH,右側(cè)使用),,很容易看出使用RLHF訓練的LLM輸出的結(jié)果明顯優(yōu)于未使用時的情形,。

  微信截圖_20230215172543.png

  RLHF的主要步驟

  RLHF技術(shù)主要分為如下4個步驟。

  01

  無監(jiān)督預(yù)訓練

  可以從一個預(yù)訓練好的語言模型開始,,比如GPT-3,。

  02

  有監(jiān)督的微調(diào)

  生成一組指令,以及對每個指令的人類寫的反應(yīng),。換句話說,,生成一個由<提示,理想生成>對組成的訓練數(shù)據(jù)集,。然后對預(yù)訓練的模型進行微調(diào),,以輸出這些人類反應(yīng)。

  03

  訓練一個“人類反饋”的獎勵模型

  這一步是建立一個獎勵模型,,對一個LLM的輸出對一個給定的反應(yīng)的好壞進行評分,。換句話說,獎勵模型是另一個模型(例如,,另一個砍掉了最后幾層的LLM),,它將提示和生成作為輸入,并輸出一個標量獎勵,。

  再生成一組新的指令,,然后生成一組機器生成的對這些指令的反應(yīng),并由人類對其質(zhì)量進行評分或排名,。使用這個數(shù)據(jù)集來訓練一個獎勵模型,,為任何<提示,生成>對輸出一個質(zhì)量分數(shù)。

  04

  訓練一個基于獎勵模型進行優(yōu)化的強化學習策略

  最后,,訓練一個基于獎勵模型進行優(yōu)化的強化學習策略(即,,試圖生成獎勵模型認為人類更喜歡的文本),它就是新的RLHF算法,!

  換句話說,,在強化學習模型中,從一個給定的狀態(tài)采取的行動將為策略提供一個獎勵,,它將努力使之最大化,。在本場景中,策略本質(zhì)上只是一個語言模型,,它的行動是生成文本,,而它的獎勵是獎勵模型給生成的文本的分數(shù)。

  所以要訓練這個RLHF模型:

  01

  首先,,將RL策略初始化為步驟2中的微調(diào)LLM,。然后重復(fù)以下操作。

  02

  取一個提示并使用RL策略生成一個輸出,。

  03

  使用獎勵模型來計算該輸出的獎勵,。

  04

  根據(jù)獎勵更新RL策略(即,該策略現(xiàn)在正在學習它是否產(chǎn)生了好的或壞的反應(yīng)),。

  簡評

  RLHF是訓練語言模型的新技術(shù),,是近期大火的ChatGPT及其競品所采用的關(guān)鍵技術(shù)之一,它使得LLM的輸出更符合人類的偏好,。OpenAI還發(fā)現(xiàn)RLHF模型的效率要高得多:1.3B參數(shù)的RLHF模型優(yōu)于1750B參數(shù)的非RLHF模型,,盡管參數(shù)少了100多倍。

  近期ChatGPT的相關(guān)信息席卷整個互聯(lián)網(wǎng),,受到大眾的關(guān)注,,一個重要原因就是其在多個領(lǐng)域背景下的問答對話相比于之前的LLM(如GPT-3)要有明顯的提升,從上文所列舉的3個簡單例子就可見一斑了,。從目前公開的相關(guān)技術(shù)信息來看,,ChatGPT構(gòu)建在GPT-3基礎(chǔ)上,模型的規(guī)模與參數(shù)量沒有增大,,采用了與InstructGPT相同代際的模型(被人稱為GPT-3.5),。而InstructGPT的核心改進正是本文所介紹的RLHF技術(shù),通過將帶人類反饋的強化學習引入以訓練語言模型來輸出人們更偏愛的結(jié)果,,使得對話更符合人類邏輯,。需要注意的是,ChatGPT依然還是一種LLM,,核心能力是完成各類自然語言處理及理解相關(guān)的各種任務(wù),,在準確性與專業(yè)性上,,還是會受限于其訓練數(shù)據(jù),距離通用人工智能(AGI)還有相當?shù)木嚯x,,其相比于GPT-3的改進還達不到所謂的“革命性”或“顛覆性”,,但是我們依然可以繼續(xù)期待未來的GPT-4及之后版本將會帶來什么樣的提升。


敬請關(guān)注電子技術(shù)應(yīng)用2023年2月22日==>>商業(yè)航天研討會<<


微信圖片_20230210170337.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章,、圖片,、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者,。如涉及作品內(nèi)容,、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,,以便迅速采取適當措施,,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118,;郵箱:[email protected],。