99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

清華耶魯推理模型新范式:動態(tài)推理實現(xiàn)高效測試時擴展

0
分享至

Z1團隊 投稿
量子位 | 公眾號 QbitAI

推理性能提升的同時,還大大減少Token消耗!

清華、耶魯團隊提出推理模型新范式:動態(tài)推理實現(xiàn)高效測試時擴展



測試時擴展(test-time scaling)技術加速推動了大語言模型在復雜推理領域的突破。

以OpenAI的o1系列、DeepSeek-R1等模型為代表,這些系統(tǒng)通過強化學習和大規(guī)模思維鏈(CoT)軌跡訓練,在數(shù)學證明、編程競賽等任務中展現(xiàn)出接近人類專家的水平。

例如,DeepSeek R1在MATH500數(shù)學基準上達到97.3%的準確率,其核心在于允許模型在推理時動態(tài)擴展計算資源——生成更長的思維軌跡意味著更高的解題成功率。

然而,這種“以計算換性能”的策略帶來了顯著的效率代價。

現(xiàn)有方法通常強制分割上下文窗口:模型必須在前半段完成完整推理(如R1采用…分隔符),即使面對簡單問題也需消耗很大一部分的思考tokens(thinking tokens)。

更嚴重的是,部分模型在復雜問題上會出現(xiàn)“過度思考”(overthinking)現(xiàn)象:生成冗余的循環(huán)推理步驟卻無法提升準確率。論文中揭示,直接截斷超過4096 tokens的思考過程可能導致DeepSeek-R1性能下降12.7%,這暴露了當前方法在效率與效果間的根本矛盾。



△(a) 與傳統(tǒng)長思考模型相比,Z1的動態(tài)思考窗口可以節(jié)省大量思考token,達到高效推理性能(b)

針對這一挑戰(zhàn),來自清華、耶魯團隊基于純代碼數(shù)據(jù)訓練了一個高效思考模型,其具有天然的動態(tài)推理能力,可根據(jù)問題難度高低生成不同長度的推理軌跡,同時搭配可調節(jié)的思考窗口,使得模型可以在預先設定的推理預算下實現(xiàn)高效的推理思考。

Z1:動態(tài)推理實現(xiàn)高效測試時擴展

本文的主要創(chuàng)新在于兩個層面:

1、數(shù)據(jù)層面:構建Z1-Code-Reasoning-107K數(shù)據(jù)集

作者創(chuàng)建了一個包含10.7萬條編程問題及其長短思維軌跡的數(shù)據(jù)集Z1-Code-Reasoning-107K。通過QwQ-32B模型生成原始軌跡后,逐步提高推理等級,使其保留從“直接求解”到“多步推導”的連續(xù)復雜度分布。這種數(shù)據(jù)設計確保了模型在訓練過程中能夠接觸不同復雜度的推理軌跡,從而提升其在實際任務中的適應能力。在此數(shù)據(jù)集上訓練得到的Z1模型具備天然的動態(tài)推理能力,并且可遷移至數(shù)學等代碼以外的推理任務。

2、機制層面:設計動態(tài)思考窗口(Shifted Thinking Window)

作者拋棄了硬性分隔符約束,設計了Shifted Thinking Window機制。對于簡單問題(如BigCodeBench-Hard中的基礎函數(shù)實現(xiàn)),模型自動觸發(fā)弱推理模式,可直接輸出答案;當遇到GPQA鉆石級難題時,則自動啟用強推理模式,在max thinking tokens閾值內自由推導并給出結果,如果思考超限則自動追加提示短語引導輸出答案。

二者結合,使Z1模型具備動態(tài)思考能力和預算調整能力,在使用較少thinking tokens的同時,保持較高的基準準確率,實現(xiàn)高效動態(tài)的推理。



△Z1方法的數(shù)據(jù)構建、訓練與動態(tài)思考范式

實驗結果

多個benchmark上的實驗結果



實驗證明,該方法在效率-效果平衡上實現(xiàn)顯著提升。

在包含880道競賽編程題的LiveCodeBench v5測試中,Z1-7B以35.3%準確率明顯超過其他開源7B思考模型,且平均思考token大大降低(R1-Distill-Qwen-7B需要四倍以上思考token才能達到相同性能)。

此外,僅使用代碼軌跡訓練也使模型在數(shù)學推理任務上的性能提升,例如在GPQA鉆石級科學難題上,Z1-7B以47.5%準確率超越原始Qwen2.5-Coder-7B(37.4%)10.1個百分點,同時減少28%的tokens消耗,揭示了此高效推理能力的泛化性。

Test-Time Scaling Evaluation




在三個推理benchmark上的測試時擴展實驗可以看到,僅在代碼的推理數(shù)據(jù)上微調后的Z1-7B在代碼之外的任務上也實現(xiàn)了Test-time scaling的能力。

同時,相較于R1-Distill-Qwen-7B,Z1-7B的都能以更短的平均思考長度獲得更高的分數(shù),體現(xiàn)其高效的測試時擴展能力。

這項研究證明,通過多樣性思考軌跡的混合訓練和動態(tài)計算資源分配,大模型能夠突破”暴力計算”的局限,自適應地在不同難度的任務中使用不同級別的推理時計算資源;同時這個模型也將非推理模型與長推理模型進行統(tǒng)一,為大型推理模型在高效思考方面的發(fā)展提供了重要的貢獻。

論文鏈接:https://arxiv.org/abs/2504.00810
代碼鏈接:https://github.com/efficientscaling/Z1
模型鏈接:https://huggingface.co/efficientscaling/Z1-7B
數(shù)據(jù)鏈接:https://huggingface.co/datasets/efficientscaling/Z1-Code-Reasoning-107K

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
受權發(fā)布|中共中央 國務院印發(fā)《加快建設農業(yè)強國規(guī)劃(2024-2035年)》

受權發(fā)布|中共中央 國務院印發(fā)《加快建設農業(yè)強國規(guī)劃(2024-2035年)》

新華社
2025-04-07 17:22:05
剛剛,002549,罕見“地天板”!

剛剛,002549,罕見“地天板”!

數(shù)據(jù)寶
2025-04-07 10:20:43
小S搬出大S希望她工作 吳珊儒高情商回答 網友給滿分 怪不得小S急

小S搬出大S希望她工作 吳珊儒高情商回答 網友給滿分 怪不得小S急

鄭丁嘉話
2025-04-07 10:08:53
4月9日起,深圳多路段交通管制,涉及東門步行街、仙湖植物園、羅湖口岸......

4月9日起,深圳多路段交通管制,涉及東門步行街、仙湖植物園、羅湖口岸......

深圳本地寶
2025-04-07 22:07:28
越來越多的人查出腸癌!醫(yī)生含淚苦勸:冰箱久置的3物,或是幫兇

越來越多的人查出腸癌!醫(yī)生含淚苦勸:冰箱久置的3物,或是幫兇

今日養(yǎng)生之道
2025-03-24 17:19:21
歐盟提議與美國進行零關稅談判,特朗普要求歐盟付錢之后又再談判

歐盟提議與美國進行零關稅談判,特朗普要求歐盟付錢之后又再談判

山河路口
2025-04-07 23:28:07
網傳成都連鎖超市爆雷!李博衣世界跑了,商家損失預估有5000萬…

網傳成都連鎖超市爆雷!李博衣世界跑了,商家損失預估有5000萬…

火山詩話
2025-04-07 07:42:00
36歲女人嫁退休金過萬的大爺,新婚夜見到他從浴室出來,頓時懵了

36歲女人嫁退休金過萬的大爺,新婚夜見到他從浴室出來,頓時懵了

黃家湖的憂傷
2025-04-02 17:41:19
大跳水!暴跌76%!南昌也降了!

大跳水!暴跌76%!南昌也降了!

魯中晨報
2025-04-06 15:03:12
ESPN追蹤梅羅進球數(shù)據(jù):C羅931球174個點球,梅西856球109個點球

ESPN追蹤梅羅進球數(shù)據(jù):C羅931球174個點球,梅西856球109個點球

直播吧
2025-04-07 09:20:30
埃爾多安這會要翻車?土局勢迅速惡化,700萬人倒戈,美國要插手了!

埃爾多安這會要翻車?土局勢迅速惡化,700萬人倒戈,美國要插手了!

占豪
2025-04-08 00:52:12
醫(yī)生告誡:最能加速腦出血的行為,不是運動!而是頻繁去做這4事

醫(yī)生告誡:最能加速腦出血的行為,不是運動!而是頻繁去做這4事

小宇宙雙色球
2025-04-02 13:14:18
河南省政府駐滬辦主任胡加彬擬任省轄市委副書記

河南省政府駐滬辦主任胡加彬擬任省轄市委副書記

澎湃新聞
2025-04-07 09:30:27
特殊人物抵達北京,為特朗普來訪鋪路?最后一個月,真的坐不住了

特殊人物抵達北京,為特朗普來訪鋪路?最后一個月,真的坐不住了

排頭機庫
2025-04-06 14:15:05
臺媒體人郭正亮:中國大陸對中重稀土相關物項出口管制卡到美國脖子,F(xiàn)-35戰(zhàn)機恐受影響

臺媒體人郭正亮:中國大陸對中重稀土相關物項出口管制卡到美國脖子,F(xiàn)-35戰(zhàn)機恐受影響

環(huán)球網資訊
2025-04-07 09:09:22
美軍司令當著全世界的面,向中方喊出一句話,現(xiàn)場美記者徹底懵了

美軍司令當著全世界的面,向中方喊出一句話,現(xiàn)場美記者徹底懵了

紅色前哨
2025-03-28 16:51:37
“好兄弟”一夜倒了?萬沒料到,莫迪突然露出獠牙,與美聯(lián)手了?

“好兄弟”一夜倒了?萬沒料到,莫迪突然露出獠牙,與美聯(lián)手了?

傲氣經說
2025-04-07 09:32:10
光刻機巨頭阿斯麥急了,中國給予最后一擊,美歐籌碼已耗盡!

光刻機巨頭阿斯麥急了,中國給予最后一擊,美歐籌碼已耗盡!

小蘑菇壹號
2025-04-07 15:06:20
郭臺銘的 “變臉”鬧劇:從大陸紅利受益者到瘋狂 “臺獨”叫囂者

郭臺銘的 “變臉”鬧劇:從大陸紅利受益者到瘋狂 “臺獨”叫囂者

第四思維
2025-04-07 18:28:08
對等反制,中韓圍棋走到了懸崖邊上,北海杯卞相壹能來嗎?

對等反制,中韓圍棋走到了懸崖邊上,北海杯卞相壹能來嗎?

月滿大江流
2025-04-07 16:31:51
2025-04-08 01:43:00
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10283文章數(shù) 176086關注度
往期回顧 全部

科技要聞

Llama 4發(fā)布36小時差評如潮!匿名員工爆料

頭條要聞

外媒稱中方實際未對美方征收67%的關稅 外交部回應

頭條要聞

外媒稱中方實際未對美方征收67%的關稅 外交部回應

體育要聞

刷屏中文互聯(lián)網,甲亢哥是怎么火的?

娛樂要聞

汪小菲身旁的朋友,對馬筱梅的評價

財經要聞

美股巨震!特朗普關稅,又有新變化?

汽車要聞

途昂Pro的五套組合拳打完 看清油車的自我救贖

態(tài)度原創(chuàng)

家居
健康
旅游
時尚
軍事航空

家居要聞

通透開放 富有人文關懷

在中國,到底哪些人在吃“偉哥”?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

這條裙子太好看了,可以從20歲穿到60歲

軍事要聞

特朗普關稅名單上沒俄羅斯 白宮:為了不影響俄烏和談

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 卓资县| 舞钢市| 保亭| 大港区| 嵊州市| 南和县| 平利县| 甘泉县| 威海市| 邵东县| 宜良县| 伊春市| 五大连池市| 板桥市| 广灵县| 宜章县| 伊宁市| 沙河市| 湘西| 吴桥县| 康保县| 定兴县| 北碚区| 盐边县| 南开区| 安龙县| 绥江县| 永川市| 博野县| 桂平市| 仙游县| 建昌县| 阿勒泰市| 区。| 龙州县| 阜南县| 彰武县| 共和县| 梧州市| 安溪县| 黔东|