99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

爆火Block Diffusion引發LLM架構變革?自回歸+擴散模型完美結合 | ICLR 2025

0
分享至


新智元報道

編輯:LRS

【新智元導讀】塊離散去噪擴散語言模型(BD3-LMs)結合自回歸模型和擴散模型的優勢,解決了現有擴散模型生成長度受限、推理效率低和生成質量低的問題。通過塊狀擴散實現任意長度生成,利用鍵值緩存提升效率,并通過優化噪聲調度降低訓練方差,達到擴散模型中最高的預測準確性,同時生成效率和質量優于其他擴散模型。

擴散模型被廣泛應用于生成圖像和視頻,并且在生成離散數據(如文本或生物序列)任務上的效果也越來越好,與自回歸模型相比,擴散模型有望加速「生成過程」并提高模型輸出的「可控性」。

然而,離散擴散模型目前仍然有三個局限性

  1. 在聊天系統等應用中,模型需要生成任意長度的輸出序列(例如,對用戶問題的回答),但大多數現有的擴散架構只能生成固定長度的向量;

  1. 離散擴散在生成過程中使用雙向上下文,因此無法利用鍵值緩存(KV caching)復用之前的計算,使得推理效率較低。

  1. 從困惑度等標準指標來看,離散擴散模型的質量仍落后于自回歸方法,也進一步限制了其應用范圍。

為了克服這些局限性,康奈爾科技校區(Cornell Tech)、斯坦福大學的研究人員提出了「塊離散去噪擴散語言模型」(BD3-LMs,Block Discrete Denoising Diffusion Language Models),介于離散擴散模型和自回歸模型之間:塊擴散模型(也稱為半自回歸模型)在離散隨機變量的塊上定義了一個自回歸概率分布;給定前面的塊,當前塊的條件概率由離散去噪擴散模型指定。


論文鏈接:https://arxiv.org/pdf/2503.09573

代碼鏈接:https://github.com/kuleshov-group/bd3lms

想要開發出一個高效的BD3-LMs,仍然有兩大難題需要解決:

  1. 計算塊擴散模型的訓練目標無法通過神經網絡的標準前向傳播實現,需要開發專門的算法;

  2. 擴散目標的梯度方差較大,導致即使在塊大小為1(此時兩種模型理論上等價)時,BD3-LMs的表現仍不如自回歸模型。

研究人員通過推導梯度方差的估計器,發現了導致自回歸模型與擴散模型之間困惑度差距的關鍵因素,文中提出了定制的噪聲過程,以最小化梯度方差,并縮小了困惑度差距。


自回歸生成過程



擴散生成過程


塊擴散生成過程

研究人員在語言建模基準測試中評估了BD3-LMs,結果表明,該模型能夠生成任意長度的序列,包括超出其訓練上下文長度的序列,并且在離散擴散模型中達到了新的最低困惑度。

與在嵌入層上進行高斯擴散的其他半自回歸方法相比,文中提出的離散方法具有可處理的(tractable)似然估計,并且在生成步驟少了一個數量級的情況下,生成樣本的困惑度還更低。

Block Diffusion語言建模

自回歸語言模型vs擴散語言模型

語言建模任務就是從數據分布q(x)中獲得具有L個token的序列 ,目標是擬合出一個服從q分布的模型 。

自回歸模型(Autoregressive Models)將token的分布分解成一種逐步生成的形式,即根據前面的token來預測下一個token


但這種方法存在一個問題:由于token之間的順序依賴關系,自回歸模型在生成長序列時需要逐個token進行采樣,可能會導致生成速度變慢。

相比之下,擴散模型(Diffusion Models)通過獨立建模tokens實現了并行生成,其核心思想是通過「去噪」來逆轉預先設計的「加噪」過程,利用轉移矩陣(transition matrices)告訴模型如何從噪聲中恢復出清晰的token


然而,擴散模型也有局限性,其目標是最小化似然的一個上界,也就意味著在生成質量和預測準確性方面可能不如自回歸模型;并且擴散模型目前只能生成固定長度的序列,限制了其在生成任意長度輸出應用中的靈活性。


BD3-LMs

研究人員結合了自回歸模型在「生成質量」和「靈活長度生成」方面的優勢,以及擴散模型在「快速并行生成」方面的優點,提出了塊離散去噪擴散語言模型(Block Discrete Denoising Diffusion Language Models,BD3-LMs)。

塊擴散似然

研究人員提出了一種新的建模框架,將token分組成塊(block),并在每個塊內執行擴散操作。

具體來說,模型以自回歸的方式處理這些塊,同時在每個塊內部使用擴散模型進行生成,其似然函數可以分解為B個長度為L'的部分。


每個塊都通過離散擴散的變分下界(ELBO)來建模,覆蓋的塊尺寸為L'個token。

通過優化似然下界,可以得到一個合理的訓練目標:


研究人員采用一種簡單的離散擴散參數化方法來建模每個塊的似然,最終模型的目標函數變成了加權交叉熵項的總和。


高效訓練與采樣算法

通常情況下,需要循環B次操作來計算結果,研究人員提出了一種高效訓練方法,只需要進行兩次正向傳播即可完成計算。

第一次正向傳播會預先計算出整個序列的鍵(keys)和值(values);第二次正向傳播則利用這些預先計算好的鍵和值,同時為所有塊生成去噪后的預測結果。

在從塊離散去噪擴散語言模型(BD3-LMs)中采樣時,一次生成一個塊,并且這個塊的生成是基于之前已經生成的塊的條件。

生成一個塊后,像自回歸模型(AR)一樣將鍵和值緩存起來;在生成過程中,可以使用任意擴散采樣方法,從條件分布中生成樣本,并且每個塊的采樣步驟可以獨立進行。



擴散模型與自回歸模型之間的似然差距
單個token生成

塊擴散模型在理論上與自回歸模型的負對數似然(NLL)是等價的,尤其是在L'=1的極限情況下。

然而,研究人員發現,在LM1B數據集上訓練這兩種模型時,即使在塊大小為1的情況下,塊擴散模型與自回歸模型之間仍然存在2個點的困惑度差距。

經過分析,可以發現擴散模型的目標函數在訓練過程中具有較高的方差,是導致困惑度差距的主要原因。


在離散擴散模型的訓練中,使用變分下界(ELBO)時會遇到高方差的問題。

從直覺上來說,如果被遮蔽的部分太少,那么恢復原始內容就會很容易,這種情況下模型就得不到有效的學習信號;

反過來,如果把所有內容都遮蔽掉,那么最優的恢復方式就是簡單地根據數據分布中每個token的獨立概率來進行猜測,這種任務雖然容易完成,但也同樣沒有意義。

最終的目標是找到一種合適的噪聲調度(noise schedule),以減少由擴散目標引起的訓練過程中的波動,并進一步縮小模型在困惑度上的差距。

為了避免因遮蔽率(masking rates)過高而導致訓練過程中的大幅波動,研究人員在訓練塊離散去噪擴散語言模型(BD3-LMs)時,采用了「限制性」的遮蔽率:通過降低訓練過程中的波動,當在評估時使用均勻采樣的遮蔽率時,模型的預測準確性得到了提升。

由于最優的遮蔽率可能因塊的大小而有所不同,研究人員在訓練過程中自適應地學習這些遮蔽率,在每次驗證步驟中,每完成5000次梯度更新后,通過網格搜索來優化遮蔽率。

研究結果表明,針對每個塊大小優化噪聲調度可以減少損失估計器的方差,并在與其他噪聲時間表的比較中實現最佳的困惑度性能。


實驗結果

似然評估

BD3-LMs在擴散模型中達到了最先進的預測準確性(似然性),通過調整塊的長度,BD3-LMs能夠在擴散模型的似然性和自回歸模型的似然性之間實現平衡。



任意長度序列生成

許多現有的擴散語言模型有一個重大缺陷:無法生成比訓練時選擇的輸出上下文長度更長的完整文檔。

例如,OpenWebText數據集中包含的文檔最長可達13.1萬個tokens,但離散擴散模型SEDD只能生成最多1024個token的內容。


實驗結果展現了BD3-LMs能夠通過解碼任意數量的塊來生成長度可變的文檔,研究人員評估了BD3-LMs在生成長度可變的序列時的質量,并使用相同的生成步數(NFEs)來比較所有方法。

研究人員還測量了在GPT2-Large模型下采樣序列的生成困惑度,結果顯示BD3-LMs在所有之前的擴散方法中達到了最佳的生成困惑度。


研究人員還將其與半自回歸SSD-LM進行了比較,在詞嵌入上執行高斯擴散,但無法進行似然估計;相比之下,文中提出的離散方法在少一個數量級的生成步數下,生成的樣本具有更低的生成困惑度。

簡單來說,BD3-LMs不僅能夠生成任意長度的文檔,而且在生成效率和質量上都優于其他擴散模型。

參考資料:

https://arxiv.org/pdf/2503.09573

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
已立案!上海知名商場日料店,刺身制作讓人作嘔!有食客稱上吐下瀉

已立案!上海知名商場日料店,刺身制作讓人作嘔!有食客稱上吐下瀉

瀟湘晨報
2025-04-08 09:20:06
NBA周最佳出爐!戰神卡稱雄西部,字母單核四戰全勝問鼎東部!

NBA周最佳出爐!戰神卡稱雄西部,字母單核四戰全勝問鼎東部!

釘釘陌上花開
2025-04-08 06:45:54
見證歷史!特朗普要再征50%關稅,道指掉頭向下

見證歷史!特朗普要再征50%關稅,道指掉頭向下

勇士軍武閑談
2025-04-08 01:06:14
為抵御關稅沖擊,蘋果3天從印度向美國空運了5架飛機iPhone產品

為抵御關稅沖擊,蘋果3天從印度向美國空運了5架飛機iPhone產品

界面新聞
2025-04-08 09:51:11
全網最牛逼股神誕生!竟然是空倉過節!

全網最牛逼股神誕生!竟然是空倉過節!

小人物看盡人間百態
2025-04-07 23:08:36
小米3死事故后續:省公安廳表態,龍門架攝像頭或拍下關鍵細節

小米3死事故后續:省公安廳表態,龍門架攝像頭或拍下關鍵細節

書中自有顏如玉
2025-04-08 05:45:10
毛新宇攜家人清明回鄉祭祖,旁邊形影不離的二級上士是誰?

毛新宇攜家人清明回鄉祭祖,旁邊形影不離的二級上士是誰?

風云觀察者
2025-04-08 06:31:46
美國關稅戰的“狗頭軍師”,被噴慘了

美國關稅戰的“狗頭軍師”,被噴慘了

上觀新聞
2025-04-08 06:42:06
恭喜!48歲馬布里官宣與中國歌手汪妤凌結婚 自稱中國女婿

恭喜!48歲馬布里官宣與中國歌手汪妤凌結婚 自稱中國女婿

醉臥浮生
2025-04-07 19:48:42
小米3死事故最新后續,多條高速實行“一刀切”,關鍵細節被曝光

小米3死事故最新后續,多條高速實行“一刀切”,關鍵細節被曝光

楊哥歷史
2025-04-07 13:03:49
官方公告:王力宏,取消!

官方公告:王力宏,取消!

浙江之聲
2025-04-07 21:41:19
黃奇帆:中國如能做好零關稅、零補貼、零壁壘,等于第二次入世

黃奇帆:中國如能做好零關稅、零補貼、零壁壘,等于第二次入世

長平投研
2025-04-07 09:31:06
特朗普繼續對日本施壓:日本需要開放市場

特朗普繼續對日本施壓:日本需要開放市場

環球網資訊
2025-04-08 06:14:15
關稅再加50%,就是中美脫鉤之時,中方3大反制,收復臺灣最好時機

關稅再加50%,就是中美脫鉤之時,中方3大反制,收復臺灣最好時機

說天說地說實事
2025-04-08 06:07:54
瘋了?美國眾議院提案:全面禁止中國留學生赴美留學

瘋了?美國眾議院提案:全面禁止中國留學生赴美留學

現代春秋
2025-04-07 20:41:55
網傳特朗普總統競選時,手持的競選特制吉他,其實是貴州制造的!

網傳特朗普總統競選時,手持的競選特制吉他,其實是貴州制造的!

小星球探索
2025-04-07 14:30:29
網傳美國老牌支付公司上海團隊大裁員:整組員工被通知本周無需到崗

網傳美國老牌支付公司上海團隊大裁員:整組員工被通知本周無需到崗

互聯網大觀
2025-04-07 20:24:08
13年四川一男子強行霸占漂亮岳母,無意間一句話竟被岳母當場捅死

13年四川一男子強行霸占漂亮岳母,無意間一句話竟被岳母當場捅死

罪案洞察者
2025-04-07 14:37:42
掉粉近40萬!被央視打碼后本人道歉,相關理發店回應

掉粉近40萬!被央視打碼后本人道歉,相關理發店回應

大象新聞
2025-04-07 17:49:32
陳奕迅連發11個感嘆號!熱搜第一,真的不得了

陳奕迅連發11個感嘆號!熱搜第一,真的不得了

大象新聞
2025-04-07 07:53:05
2025-04-08 11:00:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12486文章數 66006關注度
往期回顧 全部

科技要聞

特朗普堅持征收關稅 周一美科技股劇烈震蕩

頭條要聞

美方威脅進一步對華加征50%關稅 商務部回應

頭條要聞

美方威脅進一步對華加征50%關稅 商務部回應

體育要聞

極限一穿四,他把韓國主場打到靜音

娛樂要聞

尷尬!甲亢哥想聯動大張偉,卻被迫錄節目

財經要聞

"中國版平準基金"橫空出世 央行表態

汽車要聞

途昂Pro的五套組合拳打完 看清油車的自我救贖

態度原創

健康
藝術
旅游
游戲
教育

在中國,到底哪些人在吃“偉哥”?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

《絲之歌》新實機截圖:"鴿王"當真要來了嗎?

教育要聞

布朗大學5.1億美元聯邦資助遭凍結,成第五所受罰高校!

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 清水河县| 大方县| 洱源县| 汝南县| 道孚县| 霸州市| 三台县| 安多县| 格尔木市| 凉城县| 绥中县| 金川县| 永仁县| 台东县| 秭归县| 永城市| 舞阳县| 寿光市| 福州市| 甘南县| 屏边| 桃园县| 柯坪县| 石阡县| 闵行区| 武川县| 新疆| 当雄县| 建始县| 松原市| 微博| 黔江区| 烟台市| 滦平县| 谢通门县| 清新县| 嘉定区| 宝兴县| 黄浦区| 明光市| 旬邑县|