網易首頁 > 網易號 > 正文申請入駐

采樣越多越聰明？隱式擴展顛覆認知，采樣搜索如何挑出完美解

2025-04-21 12:45:35　來源: 新智元

北京舉報

分享至

新智元報道

編輯：英智

【新智元導讀】采樣多就一定準嗎？研究人員用實驗告訴你：是的，而且超乎想象！基于采樣的搜索不僅能在并行處理中大展身手，還通過隱式擴展讓驗證更精準。

先讓模型生成多個候選答案，再通過自我驗證挑出「真金」。

基于采樣的搜索在許多推理任務中表現優異，可關于它的擴展趨勢，還有許多未解之謎。

隨著采樣數量的增加，模型的推理性能能否繼續提升？這種簡單的搜索范式能在多大程度上擴展？

來自谷歌和伯克利的華人研究員發現，隨著采樣數量和驗證強度的增加，模型的推理性能有顯著的提升。

論文鏈接：https://arxiv.org/abs/2502.01839

增加測試時計算的方法有很多。有些是通過強化學習，隱式地鼓勵模型生成更長、更詳細的回答；還有些是通過巧妙的提示，讓模型更準確地思考。

在眾多方法中，基于采樣的搜索策略顯得格外突出，生成多個候選答案，再從中挑選出最佳的那個。

這種方法可以和其他策略搭配使用，還特別適合并行處理。

通過有效的自我驗證，簡單地擴展基于采樣的搜索就足以在推理和數學基準測試，以及伯克利數學數據集上獲得最先進的性能。

表中展示了Gemini v1.5 Pro模型在每個問題僅嘗試一個解決方案（Pass@1）、嘗試200個解決方案并選擇最常見的最終答案（Consistency@200）以及在基于采樣的搜索中嘗試200個解決方案，并根據正確性評分選擇得分最高的答案（Verification@200）時的準確性。

在基于采樣的搜索（Verification@200）中，Gemini v1.5超越了o1-Preview。

基于采樣的搜索

基于采樣的搜索是怎么運作的呢？

簡單來說，就是模型先通過隨機采樣的方式，生成一堆候選答案。

然后，模型再對這些候選答案進行自我驗證，判斷哪個答案最靠譜。

具體的實現過程可以分為幾個關鍵步驟。首先是生成候選答案階段，LLM會根據給定的問題，按照一定的溫度參數（=1.5），并行生成個候選答案。

這個溫度參數就像是調節模型創造力的旋鈕，數值越大，生成的答案就越多樣化，但也可能更偏離正確答案。

數值越小，答案就越保守，可能會錯過一些有創意的解法。

接下來是驗證候選答案階段。模型會為每個候選答案生成個二進制的驗證分數，以此來判斷答案的正確性。

在這個過程中，模型會把答案改寫為定理、引理和證明的形式，就像我們在數學證明中那樣，一步一步嚴謹地檢查答案是否合理。

要是遇到幾個候選答案得分很接近的情況，模型會把這些答案兩兩比較，每次比較都會重復多次（=100次），最后選出獲勝次數最多的答案作為最終輸出。

擴展趨勢

研究人員在探索基于采樣的搜索的擴展趨勢時，發現了一些有趣的現象。

他們通過實驗，觀察隨著搜索，也就是采樣的數量和驗證次數這兩個關鍵因素的變化，模型的推理性能會發生什么變化。

從實驗結果的熱圖中可以看出，當搜索和驗證同時擴展時，模型的性能提升最為明顯。

在一些基準測試中，比如AIME，即使測試時計算擴展到了自一致性方法性能飽和的程度，基于采樣的搜索的推理性能仍然在持續提高。

在AIME基準測試中，基于采樣的搜索的擴展趨勢最為顯著。

隨著采樣數量的增加，模型就能更大概率地找到正確答案。

而且，即使一致性方法（Consistency@k ）在處理這些難題時已經達到了極限，基于采樣的搜索（Verification@k ）仍然能通過不斷擴展驗證能力，挖掘出那些隱藏在長尾中的正確答案。

研究人員還發現了一個很神奇的現象：隱式擴展。

按照常規想法，采樣的答案越多，驗證器要處理的信息就越多，驗證的準確性應該會下降。但實際情況卻恰恰相反！

當模型生成的答案數量增加時，驗證的準確性也跟著提高了。這是為什么呢？

原來，寫得好的答案更容易被驗證，而增加采樣數量就像是擴大了答案的「海選范圍」，讓更多高質量的答案有機會被選出來。

在下圖中，將驗證嘗試次數固定為50后，Verification@k的擴展超越了Consistency@k的飽和點。

在AIME基準測試里，Consistency@k趨于平穩，Verification@k卻呈冪律擴展。在AIME上，Consistency@50和 Consistency@10,000準確率相同。

2024年AIME考試第二場第11題，Gemini v1.5模型從200個隨機采樣解決方案中，難以選定正確答案。

Consistency返回錯誤答案1，且該答案在超一半的響應中出現，而Verification成功從響應分布長尾中識別出正確答案601，并對1和601分別給出了≤36%和98%的分數。

擴展驗證能力是推動搜索改進的關鍵，可以區分不同置信度的答案。

驗證能有效利用模型響應分布長尾，表明Pass@k應是搜索應用的關鍵性能指標，而現有針對Pass@1優化的訓練后技術（如RLHF），可能犧牲Pass@k，抑制搜索能力。

有效自我驗證：提升推理的法寶

研究人員還總結出了兩個提升LLM自我驗證能力的重要原則。

第一個原則是對比答案以定位錯誤。

LLM在識別錯誤和幻覺方面一直不太擅長，就像一個視力不太好的人，很難發現遠處的小錯誤。但是，如果把不同的候選答案放在一起比較，模型就能更容易地發現錯誤的位置。

這種比較的方法，其實也是隱式擴展的一種體現，通過提供更多的對比信息，幫助模型更好地判斷答案的正確性。

第二個原則是根據輸出風格適用性改寫答案。不同的任務需要不同風格的答案。

在生成答案時，思維鏈的方式很有效，它能幫助模型理清思路，找到正確的方向。

但這種方式生成的答案往往比較冗長復雜，驗證起來難度較大。

相反，嚴謹、分層和模塊化的寫作風格雖然在生成答案時可能不太靈活，但在驗證時卻更容易被模型理解和判斷。

所以，研究人員建議在驗證答案時，先把答案改寫成更規范的形式，比如像數學證明一樣，有定理、引理和證明過程，這樣模型就能更輕松地檢查答案是否正確了。

為了驗證這兩個原則的有效性，研究人員還進行了消融研究。他們分別去掉比較答案和改寫答案這兩個操作，看看會對模型的性能產生什么影響。

結果發現，去掉比較答案的操作后，模型在一些基準測試中的性能明顯下降。去掉改寫答案的操作后，驗證的準確性也受到了很大影響。

這充分說明了這兩個原則對于提升模型自我驗證能力的重要性。

額外實驗，探索更多可能

研究人員還進行了一些額外的實驗，為我們揭示了更多有趣的發現。

在對較小模型的研究中，他們發現基于采樣的搜索同樣能為這些「小個子」模型帶來顯著的性能提升。

以Gemini v1.5 Flash模型為例，它的推理成本比Gemini v1.5 Pro低很多，但通過基于采樣的搜索，它的性能得到了大幅提升。

即使是用Flash模型來輔助Pro模型進行驗證（Pro+Flash），也能取得不錯的效果，甚至在某些情況下，Pro+Flash Verification@200的性能超過了Pro Consistency@200。

研究人員還對LiveBench基準測試中的不同子任務進行了分析。

他們發現，基于采樣的搜索在不同子任務上的表現各有差異。

在AIME 2024、Web-of-Lies、Competition和Zebra Puzzle等任務上，Verification的提升效果非常明顯；但在LiveBench Math的Olympiad任務上，卻沒有看到明顯的提升。

這是因為Olympiad任務的問題設計比較特殊，它要求填寫預寫證明中的表達式選項，輸出特定的索引序列。

衡量模型的新驗證基準

前沿LLM雖然在解決問題方面表現得很厲害，但它們的開箱即用驗證能力卻有點拖后腿。

為了更準確地衡量這個問題，研究人員創建了一個新的驗證基準。

這個基準里包含了很多具有挑戰性的推理問題，每個問題都有一個正確答案和一個錯誤答案。

基準測試主要關注兩個任務：評分任務和比較任務。

在評分任務中，模型要判斷給定答案是否正確；在比較任務中，模型要從兩個答案中找出正確的那個。

這就好比讓模型當小老師，批改作業和比較不同學生的答案。

研究人員用這個基準測試了一些當前的模型，結果發現表現參差不齊。

有些模型在驗證方面的表現甚至比隨機猜測好不了多少，這說明它們在識別錯誤答案和判斷答案正確性方面還有很大的提升空間。

基于采樣的搜索展現出了巨大的潛力。

它不僅簡單有效，而且具有很強的擴展性，能在各種推理任務中發揮重要作用。

參考資料：

https://x.com/ericzhao28/status/1901704344506192365

https://techcrunch.com/2025/03/19/researchers-say-theyve-discovered-a-new-method-of-scaling-up-ai-but-theres-reason-to-be-skeptical/

https://eric-zhao.com/blog/sampling

https://arxiv.org/abs/2502.01839

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

任務向量做模型編輯為何有效？ICLR 2025 Oral論文給出了理論分析

機器之心Pro 2025-04-21 19:15:13
1 跟貼 1
DeepSeek用的GRPO占用大量內存？有人給出了些破解方法

機器之心Pro 2025-02-07 14:49:06
1 跟貼 1

微軟開源“原生1bit”三進制LLM：2B參數，0.4GB內存/單CPU就能跑

量子位 2025-04-21 12:23:35
4 跟貼 4

瑞士信息與通信科技公司FLOWIT開發AI人才測評軟件，實現人力資源管理智能化 | 瑞士創新100強

鈦媒體APP 2025-04-22 12:11:09
0 跟貼 0
人對力量要有基本敬畏，沒爪牙有力量形同虛設！ #硬核深度計劃 #內容啟發搜索 #奶牛 #爪牙

叫我金主編 2025-04-18 18:49:39
28 跟貼 28

理科生通過實驗，實現畫中的女孩為愛轉身，網友：第一次直觀的感受到理科生的浪漫

鶴壁焦點 2025-04-21 16:12:24
1 跟貼 1

大哥用一個實驗，瞬間看到了男女差異，男生就不會這樣做

素說笑 2025-04-20 13:22:46
1 跟貼 1
「拉馬努金圖」概率賭局，被黃驕陽等三位數學家用物理方法終結

機器之心Pro 2025-04-20 22:41:55
0 跟貼 0

網友在家做實驗，沒想到這么順利，一下就成功了

沙雕小分隊 2025-04-21 16:59:11
1 跟貼 1
一個實驗讓你愛上化學

青廣品運 2025-04-17 19:22:40
0 跟貼 0
師傅用電鉆調公里數，竟試圖把上百萬數值歸零，這就是二手車套路

涂涂搞笑說 2025-04-18 10:28:08
16 跟貼 16
最長可休11天假！五一拼假攻略火了！160000+人即將抵達長沙

瀟湘晨報 2025-04-21 13:47:31
4726 跟貼 4726
桂林旅游虧損10億！網友：桂林山水就像一美女穿著一件破舊衣裳

火山詩話 2025-04-21 06:25:09
3246 跟貼 3246
關于新數論理論體系一些問題的說明002

古城孤魂 2025-04-21 09:50:46
0 跟貼 0
尿酸多高才要吃藥？記住兩個數值，聊聊尿酸升高的四個階段

鶴立煙雨 2025-04-18 16:37:12
5 跟貼 5
婆婆連生8個女兒才生的小兒子，35歲的兒子吃個飯都是滿臉寵溺看著

青島文藝廣播 2025-04-21 15:22:17
1319 跟貼 1319
不會做物理題？趕緊多做做實驗，瞬間明白原理！

物理一百分 2025-04-21 22:16:44
0 跟貼 0
物理難點總讓人犯懵！公式定理繞、現象透，學懂咋就這么難！

馬路江湖 2025-04-20 14:02:57
0 跟貼 0
宇樹宣布參加人形機器人格斗大賽，央視全網直播，呼叫胡一菲!

AI變革 2025-04-21 21:10:15
1464 跟貼 1464
盟軍為渡過萊茵河，與德軍展開逐橋爭奪戰二戰內容啟發搜索

留在X的世界 2025-04-21 12:29:42
0 跟貼 0
速看，5 大畢業神刊，幾乎不退稿

生物學霸 2025-04-21 18:54:49
0 跟貼 0
假搜索真整肅“辦藍不辦綠”？王鴻薇靈魂拷問，法部負責人秒慫

新時光點滴 2025-04-22 08:07:49
0 跟貼 0
甘肅多個服務區內免費熱水裝圍欄，運營商：不會撤掉，希望更多人喝到水

星視頻 2025-04-22 00:17:58
3195 跟貼 3195
青浦消防開展新能源汽車動力電池火災測試實驗

綠色青浦 2025-04-21 18:51:12
0 跟貼 0
探尋科技奧秘引領創新夢想│區圖書館開展“有趣的平衡”科技專題講座

江都旅游局 2025-04-21 20:11:15
0 跟貼 0
o3并非獨門秘技，谷歌已發背后關鍵機制，方法更簡單、成本更低

量子位 2024-12-23 14:42:33
0 跟貼 0
紅軍序列缺紅三方面軍？彭德懷一番話，讓番號規劃生變

讓你大開眼界 2025-04-21 10:41:33
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
獵犬配合主人撒網搜索獵物，兩者十分默契

小美探世界 2025-04-20 23:18:16
0 跟貼 0
8卡32B模型超越o1預覽版、DeepSeek V3等提出層次化RL推理新范式

機器之心Pro 2025-02-12 11:21:55
0 跟貼 0
擴散LLM推理用類GRPO學習！優于單獨SFT，UCLA、Meta新框架d1開源

機器之心Pro 2025-04-21 18:16:15
0 跟貼 0
200萬的越野車沖坡沖不上去車主氣得當場把車子砸了

動態新聞 2025-04-21 17:31:52
1709 跟貼 1709
首個融合重建-預測-規劃的生成式世界模型AETHER開源

機器之心Pro 2025-04-21 18:26:16
2 跟貼 2
第137屆廣交會一期到會境外采購商同比增長20.2%

投資快報 2025-04-21 16:13:12
1852 跟貼 1852
百頁專業報告直出！Jürgen團隊開源框架WriteHERE，AI寫作天花板

機器之心Pro 2025-04-21 19:02:22
0 跟貼 0
男子超市買三個青椒價格1682元男子直呼：太狠了付不起金椒啊

爆料視頻 2025-04-22 08:35:46
1021 跟貼 1021
電接點壓力表控制水泵低啟高停接線 #電工知識 #電接點壓力表 #內容啟發搜索

電工學徒小王 2025-04-21 18:26:18
0 跟貼 0
女子橋上留下包和手機一躍而下，手機還開著錄像，生死未卜！

爆料視頻 2025-04-22 09:43:33
1147 跟貼 1147
1天摧毀312輛摩托車的背后！“新星”號兇手上戰場，望烏軍全殲之

鷹眼Defence 2025-04-21 17:06:36
1625 跟貼 1625
炸雷了！一夜之間又有5家公司發布退市風險，超20萬股東集體踩雷

八百者也 2025-04-22 05:10:04
484 跟貼 484

新智元

AI產業主平臺領航智能+時代

12570文章數 66019關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

房產

數碼

旅游

藝術

手機 / 數碼

房產 / 家居

采樣越多越聰明？隱式擴展顛覆認知，采樣搜索如何挑出完美解

未脫離困境，分析師稱蘋果股價或再跌近30%

88歲羅馬教皇方濟各突然去世 遺囑內容對外公布

88歲羅馬教皇方濟各突然去世 遺囑內容對外公布

當今足壇最瘋的門將，能有多離譜？

關曉彤分手風波后首現身！甜美狀態好

沐邦高科危險信號：多筆交易存蹊蹺

捷途山海T2加長版/山海L9等 捷途新車展前亮相

態度原創

專訪騰訊陳侃：想給老朋友們一個“再聚首”的契機

涉及6.7萬畝！多個片區規劃曝光！三亞，又將巨變！

Govee 推出 Gaming Pixel Light 像素燈：兩種尺寸可選，支持 AI

熱聞|清明假期將至，熱門目的地有哪些?

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

采樣越多越聰明？隱式擴展顛覆認知，采樣搜索如何挑出完美解

未脫離困境，分析師稱蘋果股價或再跌近30%

88歲羅馬教皇方濟各突然去世遺囑內容對外公布

88歲羅馬教皇方濟各突然去世遺囑內容對外公布

當今足壇最瘋的門將，能有多離譜？

關曉彤分手風波后首現身！甜美狀態好

捷途山海T2加長版/山海L9等捷途新車展前亮相

涉及6.7萬畝！多個片區規劃曝光！三亞，又將巨變！

Govee 推出 Gaming Pixel Light 像素燈：兩種尺寸可選，支持 AI

熱聞|清明假期將至，熱門目的地有哪些?

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法