網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

中科大華為發(fā)布生成式推薦大模型，昇騰NPU部署，背后認(rèn)知公開

2025-04-06 10:45:53　來源: 量子位

北京舉報(bào)

分享至

認(rèn)知智能全國重點(diǎn)實(shí)驗(yàn)室&華為諾亞方舟投稿
量子位 | 公眾號(hào) QbitAI

推薦大模型也可生成式，并且首次在國產(chǎn)昇騰NPU上成功部署！

在信息爆炸時(shí)代，推薦系統(tǒng)已成為生活中不可或缺的一部分。Meta率先提出了生成式推薦范式HSTU，將推薦參數(shù)擴(kuò)展至萬億級(jí)別，取得顯著成果。

近期，中科大與華為合作開發(fā)了推薦大模型部署方案，可應(yīng)用于多個(gè)場(chǎng)景。

探索過程中還有哪些經(jīng)驗(yàn)與發(fā)現(xiàn)？最新公開分享來了。

報(bào)告亮點(diǎn)包括：

總結(jié)推薦范式發(fā)展歷程，指出具備擴(kuò)展定律的生成式推薦范式是未來趨勢(shì)；
復(fù)現(xiàn)并研究不同架構(gòu)的生成式推薦模型及其擴(kuò)展定律；通過消融實(shí)驗(yàn)和參數(shù)分析，解析HSTU的擴(kuò)展定律來源，并賦予SASRec以可擴(kuò)展性；
驗(yàn)證HSTU在復(fù)雜場(chǎng)景和排序任務(wù)中的表現(xiàn)及擴(kuò)展性；
團(tuán)隊(duì)展望并總結(jié)未來研究方向。

具備擴(kuò)展定律的生成式推薦范式正在成為未來趨勢(shì)

如圖1所示，推薦系統(tǒng)的發(fā)展趨勢(shì)是逐漸減少對(duì)手工設(shè)計(jì)特征工程和模型結(jié)構(gòu)的依賴。在深度學(xué)習(xí)興起之前，受限于計(jì)算資源，人們傾向于使用手工設(shè)計(jì)的特征和簡(jiǎn)單模型（圖1A）。

隨著深度學(xué)習(xí)的發(fā)展，研究者專注于復(fù)雜模型的設(shè)計(jì)，以更好地?cái)M合用戶偏好，并提升對(duì)GPU并行計(jì)算的利用率（圖1B）。

然而，隨著深度學(xué)習(xí)能力的瓶頸，特征工程再次受到關(guān)注（圖1C）。

如今，大語言模型擴(kuò)展定律的成功啟發(fā)了推薦領(lǐng)域的研究者。擴(kuò)展定律描述了模型性能與關(guān)鍵指標(biāo)（如參數(shù)規(guī)模、數(shù)據(jù)集規(guī)模和訓(xùn)練資源）之間的冪律關(guān)系。通過增加模型深度和寬度，并結(jié)合大量數(shù)據(jù)，可以提升推薦效果（圖1D），這種方法被稱為推薦大模型。

近期，HSTU等生成式推薦框架在此方向取得了顯著成果，驗(yàn)證了推薦領(lǐng)域的擴(kuò)展定律，引發(fā)了生成式推薦大模型研究的熱潮。團(tuán)隊(duì)認(rèn)為，生成式推薦大模型正在成為顛覆當(dāng)前推薦系統(tǒng)的下一個(gè)新范式。

在此背景下，探索哪些模型真正具備可擴(kuò)展性，理解其成功應(yīng)用擴(kuò)展定律的原因，以及如何利用這些規(guī)律提升推薦效果，已成為當(dāng)前推薦系統(tǒng)領(lǐng)域的熱門課題。

基于不同架構(gòu)的生成式推薦大模型擴(kuò)展性分析

為了評(píng)估生成式推薦大模型在不同架構(gòu)下的擴(kuò)展性，團(tuán)隊(duì)對(duì)比了HSTU、Llama、GPT和SASRec四種基于Transformer的架構(gòu)。

在三個(gè)公開數(shù)據(jù)集上，通過不同注意力模塊數(shù)量下的性能表現(xiàn)進(jìn)行分析（見表1）。結(jié)果顯示，當(dāng)模型參數(shù)較小時(shí)，各架構(gòu)表現(xiàn)相似，且最優(yōu)架構(gòu)因數(shù)據(jù)集而異。

然而，隨著參數(shù)擴(kuò)展，HSTU和Llama的性能顯著提升，而GPT和SASRec的擴(kuò)展性不足。盡管GPT在其他領(lǐng)域表現(xiàn)良好，但在推薦任務(wù)上未達(dá)預(yù)期。團(tuán)隊(duì)認(rèn)為，這是因?yàn)镚PT和SASRec的架構(gòu)缺乏專為推薦任務(wù)設(shè)計(jì)的關(guān)鍵組件，無法有效利用擴(kuò)展定律。

生成式推薦模型的可擴(kuò)展性來源分析

為了探究HSTU等生成式推薦模型的可擴(kuò)展性來源，團(tuán)隊(duì)進(jìn)行了消融實(shí)驗(yàn)，分別去除了HSTU中的關(guān)鍵組件：相對(duì)注意力偏移（RAB）、SiLU激活函數(shù)，以及特征交叉機(jī)制。

實(shí)驗(yàn)結(jié)果（見表2）顯示，單一模塊的缺失并未顯著影響模型的擴(kuò)展性，但RAB的移除導(dǎo)致性能明顯下降，表明其關(guān)鍵作用。

為了進(jìn)一步分析賦予模型擴(kuò)展定律的因素，團(tuán)隊(duì)比較了SASRec與擴(kuò)展性良好的HSTU和Llama的區(qū)別，發(fā)現(xiàn)主要差異在于RAB和注意力模塊內(nèi)的殘差連接方式。

為驗(yàn)證這些差異是否為擴(kuò)展性的關(guān)鍵，團(tuán)隊(duì)為SASRec引入了HSTU的RAB，并調(diào)整其注意力模塊的實(shí)現(xiàn)方式。

實(shí)驗(yàn)結(jié)果（見表3）顯示，單獨(dú)添加RAB或修改殘差連接并未顯著改善SASRec的擴(kuò)展性。然而，當(dāng)同時(shí)修改兩個(gè)組件后，SASRec展現(xiàn)出良好的擴(kuò)展性。這表明，殘差連接模式與RAB的結(jié)合，為傳統(tǒng)推薦模型賦予了擴(kuò)展性，為未來推薦系統(tǒng)的擴(kuò)展性探索提供了重要啟示。

生成式推薦模型在復(fù)雜場(chǎng)景和排序任務(wù)中的表現(xiàn)

復(fù)雜場(chǎng)景中的表現(xiàn)

HSTU在多域、多行為和輔助信息等復(fù)雜場(chǎng)景中表現(xiàn)出色。以多域?yàn)槔琀STU在AMZ-MD的四個(gè)域中始終優(yōu)于基線模型SASRec和C2DSR（見表4）。

與單域獨(dú)立訓(xùn)練的HSTU-single相比，多域聯(lián)合訓(xùn)練的HSTU表現(xiàn)更佳，證明了多域聯(lián)合建模的優(yōu)勢(shì)。表5顯示，HSTU在多域行為數(shù)據(jù)上的擴(kuò)展性顯著，尤其在規(guī)模較小的場(chǎng)景如Digital Music和Video Games上。這表明HSTU在解決冷啟動(dòng)問題上具有潛力。

在排序任務(wù)中的表現(xiàn)

排序是推薦系統(tǒng)中重要的一環(huán)，團(tuán)隊(duì)深入探討了生成式推薦模型在排序任務(wù)中的有效性和擴(kuò)展性。正如表6所示，生成式推薦大模型在性能上顯著優(yōu)于DIN等傳統(tǒng)推薦模型。盡管在小規(guī)模模型下，Llama的表現(xiàn)優(yōu)于HSTU，但HSTU在擴(kuò)展性方面更具優(yōu)勢(shì)，而Llama在擴(kuò)展性上顯得不足。

團(tuán)隊(duì)還研究了負(fù)采樣率和評(píng)分網(wǎng)絡(luò)架構(gòu)對(duì)排序任務(wù)的影響，并進(jìn)行了全面分析。此外，還探討了縮減embedding維度對(duì)性能的影響。縮小embedding維度（表7）提升了小數(shù)據(jù)集ML-1M和AMZ-Books的性能，但在大數(shù)據(jù)集ML-20M上則有所下降。這表明，推薦大模型的擴(kuò)展定律不僅受垂直擴(kuò)展（注意力模塊數(shù)量）影響，也受水平規(guī)模（embedding維度）影響。

未來方向和總結(jié)

在技術(shù)報(bào)告中，團(tuán)隊(duì)指出了數(shù)據(jù)工程、Tokenizer、訓(xùn)練推理效率等推薦大模型未來研究的潛力方向，這些方向?qū)椭鉀Q當(dāng)前的挑戰(zhàn)并拓寬應(yīng)用場(chǎng)景。

論文鏈接:https://arxiv.org/abs/2412.00714
主頁鏈接: https://github.com/USTC-StarTeam/Awesome-Large-Recommendation-Models

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.