99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

7B擴散LLM,居然能跟671B的DeepSeek V3掰手腕,誰才是未來?

0
分享至




機器之心報道

編輯:張倩

語言是離散的,所以適合用自回歸模型來生成;而圖像是連續的,所以適合用擴散模型來生成。在生成模型發展早期,這種刻板印象廣泛存在于很多研究者的腦海中。

但最近,這種印象正被打破。更多的研究者開始探索在圖像生成中引入自回歸(如 GPT-4o),在語言生成中引入擴散。

香港大學和華為諾亞方舟實驗室的一項研究就是其中之一。他們剛剛發布的擴散推理模型 Dream 7B 拿下了開源擴散語言模型的新 SOTA,在各方面都大幅超越現有的擴散語言模型。



在通用能力、數學推理和編程任務上,這個模型展現出了與同等規模頂尖自回歸模型(Qwen2.5 7B、LLaMA3 8B)相媲美的卓越性能,在某些情況下甚至優于最新的 Deepseek V3 671B(0324)。



同時,它還在規劃能力和推理靈活性方面表現出獨特優勢,彰顯了擴散建模在自然語言處理領域的廣闊前景。



各語言模型在通用、數學、編程和規劃任務上的比較。



語言模型在標準評估基準上的比較。* 表示 Dream 7B、LLaDA 8B、Qwen2.5 7B 和 LLaMA3 8B 在相同協議下評估。最佳結果以粗體顯示,次佳結果帶有下劃線。

這項工作的作者之一、香港大學助理教授孔令鵬表示,「Dream 7B 終于實現了我們從開始研究離散擴散模型以來一直夢想的通用語言模型能力」。



研究團隊將在幾天內發布基礎模型和指令模型的權重:

  • 基礎模型:https://huggingface.co/Dream-org/Dream-v0-Base-7B
  • SFT 模型:https://huggingface.co/Dream-org/Dream-v0-Instruct-7B
  • 代碼庫:https://github.com/HKUNLP/Dream

他們相信,雖然自回歸模型依然是文本生成領域的主流,但擴散模型在生成文本方面有其天然的優勢。而且隨著社區對擴散語言模型后訓練方案探索的不斷深入,這個方向還有很大的挖掘空間。

當然,在這個方向上,擴散模型究竟能走多遠,現在還很難判斷。但前 Stability AI 的研究總監 Tanishq Mathew Abraham 表示,「即使你不相信擴散模型是未來,我也不認為你可以完全忽略它們,它們至少可能會有一些有趣的特定應用。」





為什么用擴散模型生成文本?

目前,自回歸(AR)模型在文本生成領域占據主導地位,幾乎所有領先的 LLM(如 GPT-4、DeepSeek、Claude)都依賴于這種從左到右生成的架構。雖然這些模型表現出了卓越的能力,但一個基本問題浮現出來:什么樣的架構范式可能定義下一代 LLM?

隨著我們發現 AR 模型在規模化應用中顯現出一系列局限 —— 包括復雜推理能力不足、長期規劃困難以及難以在擴展上下文中保持連貫性等挑戰,這個問題變得愈發重要。這些限制對新興應用領域尤為關鍵,如具身 AI、自主智能體和長期決策系統,這些領域的成功依賴于持續有效的推理和深度的上下文理解。

離散擴散模型(DM)自被引入文本領域以來,作為序列生成的極具潛力的

替代方案備受矚目。與 AR 模型按順序逐個生成 token 不同,離散 DM 從完全噪聲狀態起步,同步動態優化整個序列。這種根本性的架構差異帶來了幾項顯著優勢:

  • 雙向上下文建模使信息能夠從兩個方向更豐富地整合,大大增強了生成文本的全局連貫性。
  • 通過迭代優化過程自然地獲得靈活的可控生成能力。
  • 通過新穎的架構和訓練目標,使噪聲能夠高效直接映射到數據,從而實現基礎采樣加速的潛力。

近期,一系列重大突破凸顯了擴散技術在語言任務中日益增長的潛力。DiffuLLaMA 和 LLaDA 成功將擴散語言模型擴展至 7B 參數規模,而作為商業實現的 Mercury Coder 則在代碼生成領域展示了卓越的推理效率。這種快速進展,結合擴散語言建模固有的架構優勢,使這些模型成為突破自回歸方法根本局限的極具前景的研究方向。

訓練過程

Dream 7B 立足于研究團隊在擴散語言模型領域的前期探索,融合了 RDM 的理論精髓與 DiffuLLaMA 的適配策略。作者采用掩碼擴散范式構建模型,其架構如下圖所示。訓練數據全面覆蓋文本、數學和代碼領域,主要來源于 Dolma v1.7、OpenCoder 和 DCLM-Baseline,并經過一系列精細的預處理和數據優化流程。遵循精心設計的訓練方案,作者用上述混合語料對 Dream 7B 進行預訓練,累計處理 5800 億個 token。預訓練在 96 臺 NVIDIA H800 GPU 上進行,總計耗時 256 小時。整個預訓練過程進展順利,雖偶有節點異常,但未出現不可恢復的損失突增情況。



自回歸建模和 Dream 擴散建模的比較。Dream 以移位方式預測所有掩碼 token,實現與 AR 模型的最大架構對齊和權重初始化。

在 1B 參數規模上,作者深入研究了各種設計選項,確立了多個關鍵組件,特別是來自 AR 模型(如 Qwen2.5 和 LLaMA3)的初始化權重以及上下文自適應的 token 級噪聲重排機制,這些創新為 Dream 7B 的高效訓練鋪平了道路。

AR 初始化

基于團隊此前在 DiffuLLaMA 上的研究成果,作者發現利用現有自回歸(AR)模型的權重為擴散語言模型提供重要初始化效果顯著。實踐證明,這種設計策略比從零開始訓練擴散語言模型更為高效,尤其在訓練初期階段,如下圖所示。



Dream 1B 模型上 200B token 的從零訓練與使用 LLaMA3.2 1B 進行 AR 初始化的損失對比。AR 初始化雖然在從因果注意力向全注意力轉變初期也會經歷損失上升,但在整個訓練周期中始終保持低于從零訓練的水平。

Dream 7B 最終選擇了 Qwen2.5 7B 的權重作為初始化基礎。在訓練過程中,作者發現學習率參數至關重要:設置過高會迅速沖淡初始權重中寶貴的從左到右知識,對擴散訓練幾無助益;設置過低則會束縛擴散訓練的進展。作者精心選擇了這個參數以及其他訓練參數。

借助 AR 模型中已有的從左到右知識結構,擴散模型的任意順序學習能力得到顯著增強,大幅減少了預訓練所需的 token 量和計算資源。

上下文自適應 token 級噪聲重排

序列中每個 token 的選擇深受其上下文環境影響,然而作者觀察到現有擴散訓練方法未能充分把握這一核心要素。具體而言,傳統離散擴散訓練中,系統首先采樣一個時間步 t 來確定句子級噪聲水平,隨后模型執行去噪操作。但由于實際學習最終在 token 級別進行,離散噪聲的應用導致各 token 的實際噪聲水平與 t 值并不完全對應。這一不匹配導致模型對擁有不同上下文信息豐富度的 token 學習效果參差不齊。



上下文自適應 token 級噪聲重排機制示意圖。Dream 通過精確測量上下文信息量,為每個掩碼 token 動態調整 token 級時間步 t。

針對這一挑戰,作者創新性地提出了上下文自適應 token 級噪聲重排機制,該機制能根據噪聲注入后的受損上下文智能調整各 token 的噪聲水平。這一精細化機制為每個 token 的學習過程提供了更為精準的層次化指導。

規劃能力

在此前的研究中,作者已證實文本擴散可以在小規模、特定任務場景下展現出色的規劃能力。然而,一個關鍵問題始終懸而未決:這種能力是否能擴展到通用、大規模擴散模型中?如今,憑借 Dream 7B 的問世,他們終于能夠給出更加確切的答案。

他們選擇了《Beyond Autoregression: Discrete Diffusion for Complex Reasoning and Planning》中的 Countdown 和數獨任務作為測試平臺,這些任務允許研究者精確調控規劃難度。評估對象包括 Dream 7B、LLaDA 8B、Qwen2.5 7B 和 LLaMA3 8B,并將最新的 Deepseek V3 671B(0324)作為參考基準。所有模型均在少樣本學習環境下進行測試,且未針對這些特定任務進行過專門訓練。



不同規劃難度下,不同模型在 Countdown 和數獨任務中的性能表現對比。

結果清晰顯示,Dream 在同等規模模型中表現卓越。特別值得一提的是,兩種擴散模型均顯著超越了同級別 AR 模型,在某些情況下甚至優于最新的 DeepSeek V3,盡管后者擁有數量級更龐大的參數規模。這一現象背后的核心洞見是:擴散語言模型在處理多重約束問題或實現特定目標任務時更有效。

以下為 Qwen 2.5 7B 與 Dream 7B 在三個規劃任務中的表現示例:



Qwen2.5 7B 與 Dream 7B 的生成結果對比。

推理靈活性

相較于 AR 模型,擴散模型在兩個核心維度上顯著增強了推理靈活性。

任意順序生成

擴散模型徹底打破了傳統從左到右生成的束縛,能夠按任意順序合成輸出內容 —— 這一特性為多樣化的用戶查詢提供了可能性。

1、Completion 任務



Dream-7B-instruct 執行補全任務的效果展示。

2、Infilling 任務



Dream-7B-instruct 執行指定結尾句填充任務的效果展示。

3、精細控制解碼行為

不同類型的查詢通常需要不同的響應生成順序。通過調整解碼超參數,我們可以精確控制模型的解碼行為,實現從類 AR 模型的嚴格從左到右生成,到完全自由的隨機順序生成的全譜系調控。



模擬 AR 模型的從左到右解碼模式。



在解碼順序中引入適度隨機性。



完全隨機化的解碼順序。

靈活的質量 - 速度權衡

在上述演示中,作者展示了每步生成單個 token 的情況。然而,每步生成的 token 數量(由擴散步驟控制)可以根據需求動態調整,從而在速度和質量之間提供可調的權衡:減少步驟可獲得更快但粗略的結果,增加步驟則以更高計算成本換取更優質的輸出。這一機制為推理時間 scaling 開辟了全新維度,不是替代而是補充了主流大型語言模型(如 o1 和 r1)中采用的長思維鏈推理等技術。這種靈活可調的計算 - 質量平衡機制,正是擴散模型相較傳統 AR 框架的獨特優勢所在。



Dream 7B 與 Qwen2.5 7B 在 Countdown 任務上的質量 - 速度性能對比。通過精準調整擴散時間步參數,Dream 能夠在速度優先與質量優先之間實現靈活切換。

有監督微調

作為擴散語言模型后訓練階段的關鍵一步,作者實施了有監督微調以增強 Dream 與用戶指令的對齊度。他們精心從 Tulu 3 和 SmolLM2 篩選并整合了 180 萬對高質量指令 - 響應數據,對 Dream 進行了三輪深度微調。實驗結果充分展現了 Dream 在性能表現上與頂尖自回歸模型比肩的潛力。展望未來,作者正積極探索為擴散語言模型量身定制更先進的后訓練優化方案。



有監督微調效果對比圖。

https://hkunlp.github.io/blog/2025/dream/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
“00后”職業打假人因涉嫌敲詐勒索被采取刑事措施,曾被地方市監局拉入“黑名單”

“00后”職業打假人因涉嫌敲詐勒索被采取刑事措施,曾被地方市監局拉入“黑名單”

紅星新聞
2025-04-08 15:32:11
萬萬沒想到,“隱退”3年回歸的孫儷,沖上熱搜的不是演技而是臉

萬萬沒想到,“隱退”3年回歸的孫儷,沖上熱搜的不是演技而是臉

同知
2025-04-06 18:55:35
“一絲不掛”新舞蹈?惹爭議,被摸下體更不害臊,金星質疑是對的

“一絲不掛”新舞蹈?惹爭議,被摸下體更不害臊,金星質疑是對的

吃魚思故淵
2024-05-16 21:48:21
上海3位廳干履新,1位跨區調整

上海3位廳干履新,1位跨區調整

魯中晨報
2025-04-08 20:35:08
山東G2輸北控遭淘汰,發布會邱彪與高詩巖說了啥?道歉并不滿外援

山東G2輸北控遭淘汰,發布會邱彪與高詩巖說了啥?道歉并不滿外援

籃球資訊達人
2025-04-09 02:29:13
2025年國家補貼進入倒計時?2025年國補結束時間確定了,截止時間是2025年12月31日

2025年國家補貼進入倒計時?2025年國補結束時間確定了,截止時間是2025年12月31日

周口廣電融媒
2025-04-08 20:33:08
江蘇一銀行凈虧損1500多萬,系十年來第三次報告虧損

江蘇一銀行凈虧損1500多萬,系十年來第三次報告虧損

湘財Plus
2025-04-08 07:35:03
王嘉爾直播翻車!漂發途中突爆粗關濾鏡,3200萬粉絲目睹“頂流真性情”

王嘉爾直播翻車!漂發途中突爆粗關濾鏡,3200萬粉絲目睹“頂流真性情”

鄉野小珥
2025-04-07 16:59:59
臺灣回歸后,第一任省長由誰擔任最合適?五人上榜,一人脫穎而出

臺灣回歸后,第一任省長由誰擔任最合適?五人上榜,一人脫穎而出

通文知史
2025-04-08 08:15:04
汪峰試探問:你跟幾個男人回過家?章子怡一句話,讓他瞬間紅了臉

汪峰試探問:你跟幾個男人回過家?章子怡一句話,讓他瞬間紅了臉

火之文
2025-02-04 13:22:59
CBA史詩一戰!上海加時逆轉廣東追至1-1,哈維33分+壓哨三分絕殺

CBA史詩一戰!上海加時逆轉廣東追至1-1,哈維33分+壓哨三分絕殺

環太平洋老正太
2025-04-08 22:15:22
美國貿易關稅加征 跨境電商轉向”第二市場“

美國貿易關稅加征 跨境電商轉向”第二市場“

財聯社
2025-04-08 23:04:08
難怪特朗普急著要退出北約,俄方情報揭露,美方想對中國鋌而走險

難怪特朗普急著要退出北約,俄方情報揭露,美方想對中國鋌而走險

劉振起觀點
2025-04-07 08:54:08
排管中心發表爭議言論,事關朱婷,竟然和郎平相同遭遇,球迷心寒

排管中心發表爭議言論,事關朱婷,竟然和郎平相同遭遇,球迷心寒

跑者排球視角
2025-04-08 23:42:45
孫儷新劇剛開播就被吐槽:顏值崩了,演的太猛,看個開頭就棄劇!

孫儷新劇剛開播就被吐槽:顏值崩了,演的太猛,看個開頭就棄劇!

娛樂x冰淇淋
2025-04-07 14:21:52
特朗普坐不住了,馬斯克萬萬沒料到

特朗普坐不住了,馬斯克萬萬沒料到

要塞陣地官方
2025-04-07 15:42:51
臺東30海里激烈對峙 山東艦亮殲15D電戰機,臺媒:前所未有的恥辱

臺東30海里激烈對峙 山東艦亮殲15D電戰機,臺媒:前所未有的恥辱

華人星光
2025-04-08 13:09:36
莫拉塔妻子:離婚是我們犯下的最大錯誤,我們都學到了很多

莫拉塔妻子:離婚是我們犯下的最大錯誤,我們都學到了很多

雷速體育
2025-04-08 12:37:12
標語含有歧視?熱門國產游戲道歉,網友:不買賬

標語含有歧視?熱門國產游戲道歉,網友:不買賬

上觀新聞
2025-04-08 10:57:09
95后的“奶瀟”,正在一點一點地,慢慢變大……

95后的“奶瀟”,正在一點一點地,慢慢變大……

印象逍遙子
2025-04-06 15:57:02
2025-04-09 07:23:01
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10332文章數 142286關注度
往期回顧 全部

科技要聞

馬斯克財富跌破3000億美元 怨特朗普?

頭條要聞

媒體:對美國"投降"的國家 在談判桌上只能被"收割"

頭條要聞

媒體:對美國"投降"的國家 在談判桌上只能被"收割"

體育要聞

100%當選狀元,但弗拉格不想進NBA?

娛樂要聞

金子涵正式宣布退圈,想回歸自己的生活

財經要聞

央地國資聯手護盤 國家隊領銜千億增持潮

汽車要聞

插混純電雙修 寶駿享境預售13.28萬起

態度原創

時尚
數碼
旅游
教育
軍事航空

可持續時裝的多維棱鏡

數碼要聞

中國特供 RTX 5090D游戲性能普遍強于5090,影馳HOF顯卡新品曝光

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

教育要聞

允許孩子小錯不斷,他才能大錯不犯

軍事要聞

特朗普對俄不滿 指責俄持續襲擊烏克蘭

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 汝城县| 瑞丽市| 钟祥市| 收藏| 简阳市| 莱西市| 广饶县| 衡山县| 同德县| 辉南县| 水城县| 龙岩市| 历史| 玉山县| 西贡区| 缙云县| 佛坪县| 方正县| 陆良县| 大石桥市| 额济纳旗| 安吉县| 张掖市| 临沂市| 万全县| 甘谷县| 丹寨县| 麟游县| 前郭尔| 石林| 米脂县| 自治县| 阜新| 叙永县| 余江县| 克山县| 福海县| 自治县| 康平县| 巴马| 灵宝市|