99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

200B參數(shù)擊敗滿血DeepSeek-R1,豆包推理模型Seed-Thinking-v1.5

0
分享至



機(jī)器之心報道

編輯:Panda、+0

字節(jié)跳動豆包團(tuán)隊(duì)今天發(fā)布了自家新推理模型Seed-Thinking-v1.5的技術(shù)報告。從報告中可以看到,這是一個擁有 200B 總參數(shù)的 MoE 模型,每次工作時會激活其中 20B 參數(shù)。其表現(xiàn)非常驚艷,在各個領(lǐng)域的基準(zhǔn)上都超過了擁有 671B 總參數(shù)的 DeepSeek-R1。有人猜測,這就是字節(jié)豆包目前正在使用的深度思考模型。



字節(jié)近期官宣的「2025 火山引擎 Force Link AI 創(chuàng)新巡展」活動推文中提到,4 月 17 日首發(fā)站杭州站時,豆包全新模型將重磅亮相,這會是 Seed-Thinking-v1.5 的正式發(fā)布嗎?



  • 報告標(biāo)題:Seed-Thinking-v1.5: Advancing Superb Reasoning Models with Reinforcement Learning
  • 項(xiàng)目地址:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5
  • 報告地址:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/blob/main/seed-thinking-v1.5.pdf

Seed-Thinking-v1.5 是一款通過深度思考提升推理能力的模型,在多個權(quán)威基準(zhǔn)測試中展現(xiàn)出卓越性能。在具體評測中,該模型在 AIME 2024 測試中獲得 86.7 分,Codeforces 評測達(dá)到 55.0 分,GPQA 測試達(dá)到 77.3 分,充分證明了其在 STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué))領(lǐng)域以及編程方面的出色推理能力。



除推理任務(wù)外,該方法在不同領(lǐng)域都表現(xiàn)出顯著的泛化能力。例如,在非推理任務(wù)中,其勝率比 DeepSeek R1 高出 8%,這表明了其更廣泛的應(yīng)用潛力。

從技術(shù)架構(gòu)看,Seed-Thinking-v1.5 采用了混合專家模型(Mixture-of-Experts,MoE)設(shè)計,總參數(shù)量為 200B,實(shí)際激活參數(shù)僅為 20B,相比同等性能的其他最先進(jìn)推理模型,規(guī)模相對緊湊高效。

為全面評估模型的泛化推理能力,團(tuán)隊(duì)開發(fā)了 BeyondAIME 和 Codeforces 兩個內(nèi)部基準(zhǔn)測試,這些測試工具將向公眾開放,以促進(jìn)相關(guān)領(lǐng)域的未來研究與發(fā)展。

先來看看其具體表現(xiàn)。



在數(shù)學(xué)推理方面,在 AIME 2024 基準(zhǔn)上,Seed-Thinking-v1.5 取得了 86.7 的高分,與高計算量的 o3-mini-high 差不多。

由于 AIME 2024 已經(jīng)不足以彰顯前沿模型的差異,豆包團(tuán)隊(duì)還使用了另一個更具挑戰(zhàn)性的評估基準(zhǔn) BeyondAIME,其中所有問題都是人類專家新整理編寫的。結(jié)果可以看到,雖然 Seed-Thinking-v1.5 的成績超過了 R1 和 o1,但相比于 o3 和 Gemini 2.5 pro 還有所差距。

在競賽編程方面,在 Codeforces 基準(zhǔn)上,該團(tuán)隊(duì)沒有采用之前的依賴 Elo 分?jǐn)?shù)的評估策略,而是采用了基于最新的 12 場 Codeforces 競賽的具體評估方案。

具體來說,他們報告的是 pass@1 和 pass@8 指標(biāo),其中 pass@k 表示模型能否在 k 次嘗試內(nèi)解決問題,即從 k 次生成的提交中選擇最佳結(jié)果。之所以選擇報告 pass@8,是因?yàn)槟芴峁└€(wěn)定的結(jié)果,并且更接近實(shí)際用戶提交模式。

結(jié)果來看,Seed-Thinking-v1.5 在這兩個指標(biāo)上均超過 DeepSeek-R1,不過與 o3 的差距仍舊比較明顯。該團(tuán)隊(duì)表示未來將公開發(fā)布這個評估集。

在科學(xué)問題上,Seed-Thinking-v1.5 在 GPQA 基準(zhǔn)上得分為 77.3,接近 o3 的表現(xiàn)。該團(tuán)隊(duì)表示,這一提升主要?dú)w功于數(shù)學(xué)訓(xùn)練帶來的泛化能力的提升,而非增加了特定領(lǐng)域的科學(xué)數(shù)據(jù)。

豆包也測試了 Seed-Thinking-v1.5 在非推理任務(wù)上的表現(xiàn)。這里他們使用的測試集盡力復(fù)現(xiàn)了真實(shí)的用戶需求。通過人類對 Seed-Thinking-v1.5 與 DeepSeek-R1 輸出結(jié)果的比較評估,結(jié)果發(fā)現(xiàn),Seed-Thinking-v1.5 獲得的用戶積極反饋總體高出 8.0%,凸顯了其在復(fù)雜用戶場景處理能力方面的能力。

下面我們就來簡單看看豆包是如何創(chuàng)造出 Seed-Thinking-v1.5 的。

開發(fā)高質(zhì)量推理模型有三大關(guān)鍵:數(shù)據(jù)、強(qiáng)化學(xué)習(xí)算法和基礎(chǔ)設(shè)施。為了打造出 Seed-Thinking-v1.5,該團(tuán)隊(duì)在這三個方面都進(jìn)行了創(chuàng)新。

數(shù)據(jù)

推理模型主要依賴思維鏈(CoT)數(shù)據(jù),這種數(shù)據(jù)展示逐步推理過程。該團(tuán)隊(duì)的初步研究表明,過多非思維鏈數(shù)據(jù)會削弱模型探索能力。

研究團(tuán)隊(duì)在強(qiáng)化學(xué)習(xí)訓(xùn)練中整合了 STEM 問題、代碼任務(wù)、邏輯推理和非推理數(shù)據(jù)。其中邏輯推理數(shù)據(jù)提升了 ARC-AGI 測試表現(xiàn)。而數(shù)學(xué)數(shù)據(jù)則展現(xiàn)除了優(yōu)秀的泛化能力。

另外,他們還構(gòu)建了一個新的高級數(shù)學(xué)基準(zhǔn)BeyondAIME,其中包含 100 道題,每道題的難度等于或高于 AIME 中最難的題目。與 AIME 類似,所有答案都保證為整數(shù)(不受特定數(shù)值范圍的限制),這能簡化并穩(wěn)定評估過程。

強(qiáng)化學(xué)習(xí)算法

推理模型的強(qiáng)化學(xué)習(xí)訓(xùn)練常出現(xiàn)不穩(wěn)定性,尤其對未經(jīng)監(jiān)督微調(diào)的模型。為解決這一問題,研究團(tuán)隊(duì)提出了 VAPO 和 DAPO 框架,分別針對基于價值和無價值的強(qiáng)化學(xué)習(xí)范式。兩種方法均能提供穩(wěn)健的訓(xùn)練軌跡,有效優(yōu)化推理模型。參閱機(jī)器之心報道《超越 DeepSeek GRPO 的關(guān)鍵 RL 算法,字節(jié)、清華 AIR 開源 DAPO》。

獎勵建模

獎勵建模是強(qiáng)化學(xué)習(xí)的關(guān)鍵,它確定了策略的目標(biāo)。良好的獎勵機(jī)制能在訓(xùn)練時提供準(zhǔn)確的信號。團(tuán)隊(duì)針對可驗(yàn)證和不可驗(yàn)證的問題使用不同的獎勵建模方法。

1、可驗(yàn)證問題

通過適當(dāng)?shù)脑瓌t和思維軌跡,團(tuán)隊(duì)利用 LLMs 來判斷各種場景下的可驗(yàn)證問題。這種方法提供了超越基于規(guī)則的獎勵系統(tǒng)局限性的更普遍解決方案。

團(tuán)隊(duì)設(shè)計了兩個遞進(jìn)式的獎勵建模方案:Seed-VerifierSeed-Thinking-Verifier

  • Seed-Verifier基于一套由人類制定的原則,利用大語言模型的能力評估由問題、參考答案和模型生成答案組成的三元組。如果參考答案與模型生成的答案本質(zhì)上等價,它返回「YES」;否則返回「NO」。這里的等價不要求逐字匹配,而是基于計算規(guī)則和數(shù)學(xué)原理進(jìn)行深層評估,確保獎勵信號準(zhǔn)確反映模型回答的本質(zhì)正確性。
  • Seed-Thinking-Verifier的靈感來自人類的判斷過程,通過細(xì)致思考和深入分析得出結(jié)論。為此,團(tuán)隊(duì)訓(xùn)練了一個能夠提供詳細(xì)推理路徑的驗(yàn)證器,將其視為可驗(yàn)證任務(wù),與其他數(shù)學(xué)推理任務(wù)一起優(yōu)化。該驗(yàn)證器能夠分析參考答案與模型生成答案之間的異同,提供精確的判斷結(jié)果。

Seed-Thinking-Verifier 顯著緩解了 Seed-Verifier 存在的三個主要問題:

  • 獎勵欺騙(Reward Hacking):非思考型模型可能利用漏洞獲取獎勵,而不真正理解問題。Seed-Thinking-Verifier 的詳細(xì)推理過程使這種欺騙變得更加困難。
  • 預(yù)測的不確定性:在參考答案與模型生成答案本質(zhì)相同但格式不同的情況下,Seed-Verifier 可能有時返回「YES」,有時返回「NO」。Seed-Thinking-Verifier 通過深入分析答案背后的推理過程,提供一致的結(jié)果。
  • 邊界情況處理失敗:Seed-Verifier 在處理某些邊界情況時表現(xiàn)不佳。Seed-Thinking-Verifier 提供詳細(xì)推理的能力使其能夠更好地應(yīng)對這些復(fù)雜場景。

表 1 展示了上述兩種驗(yàn)證器的性能。結(jié)果表明,Seed-Verifier 在處理某些特殊情況時效果欠佳,而 Seed-Thinking-Verifier 展現(xiàn)出提供準(zhǔn)確判斷的卓越能力。盡管后者的思維過程消耗了大量 GPU 資源,但其產(chǎn)生的精確且穩(wěn)健的獎勵結(jié)果對于賦予策略強(qiáng)大的推理能力至關(guān)重要。



2、不可驗(yàn)證問題

研究團(tuán)隊(duì)為不可驗(yàn)證問題訓(xùn)練了一個強(qiáng)化學(xué)習(xí)獎勵模型,使用與 Doubao 1.5 Pro 相同的人類偏好數(shù)據(jù),主要覆蓋創(chuàng)意寫作和摘要生成。

團(tuán)隊(duì)采用了成對生成式獎勵模型,通過直接比較兩個回答的優(yōu)劣并將「是 / 否」概率作為獎勵分?jǐn)?shù)。這種方法讓模型專注于回答間的實(shí)質(zhì)差異,避免關(guān)注無關(guān)細(xì)節(jié)。

實(shí)驗(yàn)表明,此方法提高了強(qiáng)化學(xué)習(xí)的穩(wěn)定性,尤其在混合訓(xùn)練場景中減少了不同獎勵模型間的沖突,主要是因?yàn)樗芙档彤惓7謹(jǐn)?shù)的生成,避免與驗(yàn)證器產(chǎn)生顯著的分?jǐn)?shù)分布差異。

基礎(chǔ)設(shè)施

大語言模型強(qiáng)化學(xué)習(xí)系統(tǒng)需要強(qiáng)大基礎(chǔ)設(shè)施支持。團(tuán)隊(duì)開發(fā)的流式推演架構(gòu)通過優(yōu)先級樣本池異步處理軌跡生成,使迭代速度提升 3 倍。系統(tǒng)還支持自動故障恢復(fù)的混合精度訓(xùn)練,確保大規(guī)模強(qiáng)化學(xué)習(xí)運(yùn)行的穩(wěn)定性。

框架

Seed-Thinking-v1.5 采用的訓(xùn)練框架是基于 HybridFlow 編程抽象構(gòu)建的。整個訓(xùn)練工作負(fù)載運(yùn)行在 Ray 集群之上。數(shù)據(jù)加載器和強(qiáng)化學(xué)習(xí)算法在單進(jìn)程 Ray Actor(單控制器)中實(shí)現(xiàn)。模型訓(xùn)練和響應(yīng)生成(rollout)在 Ray Worker Group 中實(shí)現(xiàn)。

流式 Rollout 系統(tǒng)

其 SRS 架構(gòu)引入了流式 Rollout,可將模型演化與運(yùn)行時執(zhí)行解耦,并通過參數(shù) α 動態(tài)調(diào)整在策略和離策略的樣本比例:

  • 將完成率(α ∈ [0, 1])定義為使用最新模型版本以在策略方式生成的樣本比例。
  • 將剩余的未完成片段(1- α)分配給來自版本化模型快照的離策略 rollout,并通過在獨(dú)立資源上異步延續(xù)部分生成來實(shí)現(xiàn)無縫集成。

此外,該團(tuán)隊(duì)還在環(huán)境交互階段實(shí)現(xiàn)了動態(tài)精度調(diào)度,通過后訓(xùn)練量化和誤差補(bǔ)償范圍縮放來部署 FP8 策略網(wǎng)絡(luò)。

為了解決 MoE 系統(tǒng)中 token 不平衡的問題,他們實(shí)現(xiàn)了一個三層并行架構(gòu),結(jié)合了用于分層計算的 TP(張量并行化)、具有動態(tài)專家分配的 EP(專家并行)和用于上下文分塊的 SP(序列并行)。這樣一來,其 kernel auto-tuner 就能根據(jù)實(shí)時負(fù)載監(jiān)控動態(tài)選擇最佳 CUDA 核配置。

訓(xùn)練系統(tǒng)

為了高效地大規(guī)模訓(xùn)練 Seed-Thinking-v1.5 模型,該團(tuán)隊(duì)設(shè)計了一個混合分布式訓(xùn)練框架,該框架集成了先進(jìn)的并行策略、動態(tài)工作負(fù)載平衡和內(nèi)存優(yōu)化。下面詳細(xì)介紹一下其中的核心技術(shù)創(chuàng)新:

  • 并行機(jī)制:該團(tuán)隊(duì) TP(張量并行)/EP(專家并行)/CP(上下文并行)與完全分片數(shù)據(jù)并行(FSDP)相結(jié)合,用于訓(xùn)練 Seed-Thinking-v1.5。具體而言,他們將 TP/CP 應(yīng)用于注意力層,將 EP 應(yīng)用于 MoE 層。
  • 序列長度平衡:有效序列長度可能在不同的 DP 等級上不平衡,從而導(dǎo)致計算負(fù)載不平衡和訓(xùn)練效率低下。為了應(yīng)對這一挑戰(zhàn),他們利用 KARP 算法重新排列了一個 mini-batch 內(nèi)的輸入序列,使它們在 mini-batch 之間保持平衡。
  • 內(nèi)存優(yōu)化:他們采用逐層重新計算、激活卸載和優(yōu)化器卸載來支持更大 micro-batch 的訓(xùn)練,以覆蓋 FSDP 造成的通信開銷。
  • 自動并行:為了實(shí)現(xiàn)最佳系統(tǒng)性能,他們開發(fā)了一個自動微調(diào)系統(tǒng),稱為 AutoTuner。具體來說,AutoTuner 可按照基于配置文件的解決方案對內(nèi)存使用情況進(jìn)行建模。然后,它會估算各種配置的性能和內(nèi)存使用情況,以獲得最佳配置。
  • 檢查點(diǎn):為了以最小的開銷從不同的分布式配置恢復(fù)檢查點(diǎn),該團(tuán)隊(duì)使用了 ByteCheckpoint。這能讓用戶彈性地訓(xùn)練任務(wù)以提高集群效率。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
澳門世界杯抽簽儀式:王楚欽坐錯位置出洋相,梁靖崑回答逗笑全場

澳門世界杯抽簽儀式:王楚欽坐錯位置出洋相,梁靖崑回答逗笑全場

十點(diǎn)街球體育
2025-04-14 01:25:03
多重因素導(dǎo)致煙價大幅下跌,煙草行業(yè)面臨調(diào)整!

多重因素導(dǎo)致煙價大幅下跌,煙草行業(yè)面臨調(diào)整!

錘不倒的拖油瓶
2025-04-08 06:01:49
知名女演員,復(fù)出!此前被舉報偷漏稅

知名女演員,復(fù)出!此前被舉報偷漏稅

魯中晨報
2025-04-13 10:55:10
形勢到底有多嚴(yán)峻?天呢!上海已經(jīng)刷新國人的認(rèn)知…

形勢到底有多嚴(yán)峻?天呢!上海已經(jīng)刷新國人的認(rèn)知…

慧翔百科
2024-11-21 12:03:47
蕭敬騰夫婦上海吃鐵板燒 林有慧素顏暗沉喝到微醺 穿衣尷尬但有料

蕭敬騰夫婦上海吃鐵板燒 林有慧素顏暗沉喝到微醺 穿衣尷尬但有料

玫瑰講娛
2025-04-13 16:31:11
神奇消失的發(fā)腮!邵美琪顏值回春,說她丑的人可能沒照過鏡子

神奇消失的發(fā)腮!邵美琪顏值回春,說她丑的人可能沒照過鏡子

小椰的奶奶
2025-04-13 12:07:51
F1巴林:皮亞斯特里順風(fēng)順?biāo)畩Z冠,勒克萊爾功虧1簣,加斯利黑馬

F1巴林:皮亞斯特里順風(fēng)順?biāo)畩Z冠,勒克萊爾功虧1簣,加斯利黑馬

體育妞世界
2025-04-14 01:17:56
中方反制有其效,美爆發(fā)突發(fā)事件,東西海岸淪陷,特朗普表態(tài)急了

中方反制有其效,美爆發(fā)突發(fā)事件,東西海岸淪陷,特朗普表態(tài)急了

紅色鑒史官
2025-04-12 23:00:03
“征服”女人,在這3個時候“用力”,往往很容易搞定

“征服”女人,在這3個時候“用力”,往往很容易搞定

蓮子說情感
2024-12-16 09:54:00
世錦賽驚天逆轉(zhuǎn)!呂昊天爆冷失利,邢子豪韋克林對決成焦點(diǎn)!

世錦賽驚天逆轉(zhuǎn)!呂昊天爆冷失利,邢子豪韋克林對決成焦點(diǎn)!

小毅說事
2025-04-13 21:19:41
如果打響戰(zhàn)爭,多少人愿意為國而戰(zhàn)?美國59%日德10%,中國多少?

如果打響戰(zhàn)爭,多少人愿意為國而戰(zhàn)?美國59%日德10%,中國多少?

一姐說軍史
2025-03-21 11:34:24
突發(fā),GitHub 疑似屏蔽所有中國 IP訪問

突發(fā),GitHub 疑似屏蔽所有中國 IP訪問

機(jī)器學(xué)習(xí)與Python社區(qū)
2025-04-13 18:22:32
反常現(xiàn)象開始出現(xiàn),美媒:這是特朗普的不祥之兆……

反常現(xiàn)象開始出現(xiàn),美媒:這是特朗普的不祥之兆……

中國日報
2025-04-13 11:46:27
廟為何叫廟?寺為何叫寺?寺和廟到底有什么區(qū)別?

廟為何叫廟?寺為何叫寺?寺和廟到底有什么區(qū)別?

長風(fēng)文史
2025-03-15 15:21:34
提醒:肺癌早期不是咳嗽,而是身上出現(xiàn)這6大異常,你一定要注意

提醒:肺癌早期不是咳嗽,而是身上出現(xiàn)這6大異常,你一定要注意

男女那點(diǎn)事兒兒
2025-04-12 11:02:38
決勝局贏4分!3冠王創(chuàng)紀(jì)錄,1-7落后10-9翻盤,中國又1人進(jìn)正賽!

決勝局贏4分!3冠王創(chuàng)紀(jì)錄,1-7落后10-9翻盤,中國又1人進(jìn)正賽!

劉姚堯的文字城堡
2025-04-13 07:32:22
反轉(zhuǎn)?三河整改有問題招牌,“綠招牌”是建議,有些還是城管出錢

反轉(zhuǎn)?三河整改有問題招牌,“綠招牌”是建議,有些還是城管出錢

古希臘掌管松餅的神
2025-04-12 22:46:29
美團(tuán)高管犀利評價京東做外賣,劉強(qiáng)東隔空回應(yīng),即時零售市場“戰(zhàn)火”升級

美團(tuán)高管犀利評價京東做外賣,劉強(qiáng)東隔空回應(yīng),即時零售市場“戰(zhàn)火”升級

紅星新聞
2025-04-13 17:04:12
給2025開年后“演技最好10位女演員”排個名,孫儷第8,第1無爭議

給2025開年后“演技最好10位女演員”排個名,孫儷第8,第1無爭議

頭號劇委會
2025-04-13 06:20:03
淚目!廣東帥哥謝家振去世,僅33歲,妻子去世4個月思念成疾輕生

淚目!廣東帥哥謝家振去世,僅33歲,妻子去世4個月思念成疾輕生

歸史
2025-04-13 23:00:41
2025-04-14 03:19:00
機(jī)器之心Pro incentive-icons
機(jī)器之心Pro
專業(yè)的人工智能媒體
10353文章數(shù) 142294關(guān)注度
往期回顧 全部

科技要聞

特朗普政府豁免消費(fèi)電子等產(chǎn)品的對等關(guān)稅

頭條要聞

特朗普"180度大轉(zhuǎn)彎" 首次"對中國商品實(shí)施重大豁免"

頭條要聞

特朗普"180度大轉(zhuǎn)彎" 首次"對中國商品實(shí)施重大豁免"

體育要聞

那個抱起全紅嬋的英國女孩

娛樂要聞

倪虹潔給陳德容上了一課,贏得漂亮!

財經(jīng)要聞

美方豁免部分產(chǎn)品對等關(guān)稅 商務(wù)部回應(yīng)

汽車要聞

審美和深層次豪華 阿維塔06都辦到了

態(tài)度原創(chuàng)

時尚
手機(jī)
本地
游戲
公開課

今年春夏最實(shí)用的穿衣法則,照著搭就很時髦!

手機(jī)要聞

小米 15 Pro 手機(jī)徠卡水印不支持后期關(guān)閉問題已優(yōu)化

本地新聞

華北將迎“歷史罕見”大風(fēng)

《黑神話》制作人馮驥發(fā)文薦書!玩家猜測DLC!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 嘉义市| 库伦旗| 酒泉市| 会泽县| 奉节县| 漠河县| 望江县| 平度市| 文昌市| 鄂托克旗| 城口县| 台江县| 读书| 马鞍山市| 新津县| 金堂县| 利川市| 德保县| 华坪县| 武安市| 辽阳县| 金乡县| 江口县| 班玛县| 霍城县| 五原县| 玉溪市| 修武县| 湖北省| 衡南县| 恩平市| 德庆县| 辽源市| 高陵县| 鹤庆县| 定南县| 林口县| 赫章县| 葫芦岛市| 拜泉县| 永安市|