推薦大模型也可生成式,,并且首次在國產(chǎn)昇騰 NPU 上成功部署,!
在信息爆炸時代,,推薦系統(tǒng)已成為生活中不可或缺的一部分。Meta 率先提出了生成式推薦范式 HSTU,將推薦參數(shù)擴(kuò)展至萬億級別,取得顯著成果,。
近期,中科大與華為合作開發(fā)了推薦大模型部署方案,,可應(yīng)用于多個場景,。探索過程中還有哪些經(jīng)驗與發(fā)現(xiàn)?最新公開分享來了,。
報告亮點包括:
總結(jié)推薦范式發(fā)展歷程,,指出具備擴(kuò)展定律的生成式推薦范式是未來趨勢;
復(fù)現(xiàn)并研究不同架構(gòu)的生成式推薦模型及其擴(kuò)展定律,;通過消融實驗和參數(shù)分析,,解析 HSTU 的擴(kuò)展定律來源,并賦予 SASRec 以可擴(kuò)展性,;
驗證 HSTU 在復(fù)雜場景和排序任務(wù)中的表現(xiàn)及擴(kuò)展性,;
團(tuán)隊展望并總結(jié)未來研究方向。
具備擴(kuò)展定律的生成式推薦范式正在成為未來趨勢
如圖 1 所示,,推薦系統(tǒng)的發(fā)展趨勢是逐漸減少對手工設(shè)計特征工程和模型結(jié)構(gòu)的依賴。在深度學(xué)習(xí)興起之前,,受限于計算資源,,人們傾向于使用手工設(shè)計的特征和簡單模型(圖 1A)。
隨著深度學(xué)習(xí)的發(fā)展,,研究者專注于復(fù)雜模型的設(shè)計,,以更好地擬合用戶偏好,并提升對 GPU 并行計算的利用率(圖 1B),。
然而,,隨著深度學(xué)習(xí)能力的瓶頸,特征工程再次受到關(guān)注(圖 1C),。
如今,,大語言模型擴(kuò)展定律的成功啟發(fā)了推薦領(lǐng)域的研究者,。擴(kuò)展定律描述了模型性能與關(guān)鍵指標(biāo)(如參數(shù)規(guī)模、數(shù)據(jù)集規(guī)模和訓(xùn)練資源)之間的冪律關(guān)系,。通過增加模型深度和寬度,,并結(jié)合大量數(shù)據(jù),可以提升推薦效果(圖 1D),,這種方法被稱為推薦大模型,。
近期,HSTU 等生成式推薦框架在此方向取得了顯著成果,,驗證了推薦領(lǐng)域的擴(kuò)展定律,,引發(fā)了生成式推薦大模型研究的熱潮。團(tuán)隊認(rèn)為,,生成式推薦大模型正在成為顛覆當(dāng)前推薦系統(tǒng)的下一個新范式,。
在此背景下,探索哪些模型真正具備可擴(kuò)展性,,理解其成功應(yīng)用擴(kuò)展定律的原因,,以及如何利用這些規(guī)律提升推薦效果,已成為當(dāng)前推薦系統(tǒng)領(lǐng)域的熱門課題,。
基于不同架構(gòu)的生成式推薦大模型擴(kuò)展性分析
為了評估生成式推薦大模型在不同架構(gòu)下的擴(kuò)展性,,團(tuán)隊對比了 HSTU、Llama,、GPT 和 SASRec 四種基于 Transformer 的架構(gòu),。
在三個公開數(shù)據(jù)集上,通過不同注意力模塊數(shù)量下的性能表現(xiàn)進(jìn)行分析(見表 1),。結(jié)果顯示,,當(dāng)模型參數(shù)較小時,各架構(gòu)表現(xiàn)相似,,且最優(yōu)架構(gòu)因數(shù)據(jù)集而異,。
然而,隨著參數(shù)擴(kuò)展,,HSTU 和 Llama 的性能顯著提升,,而 GPT 和 SASRec 的擴(kuò)展性不足。盡管 GPT 在其他領(lǐng)域表現(xiàn)良好,,但在推薦任務(wù)上未達(dá)預(yù)期,。團(tuán)隊認(rèn)為,這是因為 GPT 和 SASRec 的架構(gòu)缺乏專為推薦任務(wù)設(shè)計的關(guān)鍵組件,,無法有效利用擴(kuò)展定律,。
生成式推薦模型的可擴(kuò)展性來源分析
為了探究 HSTU 等生成式推薦模型的可擴(kuò)展性來源,團(tuán)隊進(jìn)行了消融實驗,,分別去除了 HSTU 中的關(guān)鍵組件:相對注意力偏移(RAB),、SiLU 激活函數(shù),,以及特征交叉機(jī)制。
實驗結(jié)果(見表 2)顯示,,單一模塊的缺失并未顯著影響模型的擴(kuò)展性,,但 RAB 的移除導(dǎo)致性能明顯下降,表明其關(guān)鍵作用,。
為了進(jìn)一步分析賦予模型擴(kuò)展定律的因素,,團(tuán)隊比較了 SASRec 與擴(kuò)展性良好的 HSTU 和 Llama 的區(qū)別,發(fā)現(xiàn)主要差異在于 RAB 和注意力模塊內(nèi)的殘差連接方式,。
為驗證這些差異是否為擴(kuò)展性的關(guān)鍵,,團(tuán)隊為 SASRec 引入了 HSTU 的 RAB,并調(diào)整其注意力模塊的實現(xiàn)方式,。
實驗結(jié)果(見表 3)顯示,,單獨添加 RAB 或修改殘差連接并未顯著改善 SASRec 的擴(kuò)展性。然而,,當(dāng)同時修改兩個組件后,,SASRec 展現(xiàn)出良好的擴(kuò)展性。這表明,,殘差連接模式與 RAB 的結(jié)合,,為傳統(tǒng)推薦模型賦予了擴(kuò)展性,為未來推薦系統(tǒng)的擴(kuò)展性探索提供了重要啟示,。
生成式推薦模型在復(fù)雜場景和排序任務(wù)中的表現(xiàn)
復(fù)雜場景中的表現(xiàn)
HSTU 在多域,、多行為和輔助信息等復(fù)雜場景中表現(xiàn)出色。以多域為例,,HSTU 在 AMZ-MD 的四個域中始終優(yōu)于基線模型 SASRec 和 C2DSR(見表 4),。
與單域獨立訓(xùn)練的 HSTU-single 相比,多域聯(lián)合訓(xùn)練的 HSTU 表現(xiàn)更佳,,證明了多域聯(lián)合建模的優(yōu)勢,。表 5 顯示,HSTU 在多域行為數(shù)據(jù)上的擴(kuò)展性顯著,,尤其在規(guī)模較小的場景如 Digital Music 和 Video Games 上,。這表明 HSTU 在解決冷啟動問題上具有潛力。
未來方向和總結(jié)
在技術(shù)報告中,,團(tuán)隊指出了數(shù)據(jù)工程、Tokenizer,、訓(xùn)練推理效率等推薦大模型未來研究的潛力方向,,這些方向?qū)椭鉀Q當(dāng)前的挑戰(zhàn)并拓寬應(yīng)用場景。