99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

o3并非獨門秘技,谷歌已發(fā)背后關鍵機制,方法更簡單、成本更低

0
分享至

小交 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

o1/o3帶火的推理計算Scaling,原來谷歌早在今年8月就曾探討過。



當時,來自斯坦福、牛津以及谷歌DeepMind的團隊提出通過重復采樣來擴展推理計算量——

結果在編碼任務中將性能最多提高40%。

他們發(fā)現(xiàn)小模型通過生成多種答案/樣本,其任務表現(xiàn)可能比一些大型模型單次嘗試還要好。

比如,DeepSeek-Coder通過重復采集5個樣本,性能優(yōu)于GPT-4o,而成本卻僅為后者的三分之一。

這篇論文講了什么?

這篇論文取名Monkey,靈感來自于無限猴子定理。

一只猴子在打字機鍵盤上隨機敲擊鍵盤無限長的時間,幾乎肯定會打出任何給定的文本。



而在大模型的語境下,只要采的樣夠多,那么大模型總能找到正確解。

本文遵循的重復采樣程序,首先通過大模型中采樣,為給定的問題生成許多候選解。

其次再選擇特定領域的驗證器Verifier(比如代碼的unittests),從生成的樣本中選擇最終答案。

重復采樣的有效性取決于兩個關鍵特性。

  • 覆蓋率,隨著樣本數(shù)量的增加,我們可以利用生成的任何樣本解決多少問題。
  • 精確度,在從生成的樣本集合中選擇最終答案的情況下,我們能否識別出正確的樣本?

他們關注的是yes or no的任務,在這些任務中,答案可以直接被打分為對或者錯,主要指標是成功率——即能夠解決問題的比例。

通過重復采樣,考慮這樣一種設置,即模型在嘗試解決問題時可以生成許多候選解。

因此,成功率既受到為許多問題生成正確樣本的能力(即覆蓋率)的影響,也受到識別這些正確樣本的能力(即精確度)的影響。

基于此,確定了五種數(shù)學和編程任務:GSM8K、MATH、MiniF2F-MATH、CodeContests、SWE-benchLite。

結果顯示,在多個任務和模型中,覆蓋率隨樣本數(shù)量增加而提升,在某些情況下,重復采樣可使較弱模型超越單樣本性能更好的強模型,且成本效益更高

比如在使用Gemma-2B解決CodeContests編程問題時。隨著樣本數(shù)量的增加,覆蓋率提高了300倍以上,從一次嘗試的0.02%提高到10000次嘗試的7.1%。解決來自GSM8K和MATH的數(shù)學單詞問題時,Llama-3模型的覆蓋率在10,000個樣本的情況下增長到95%以上。

有趣的是,log(覆蓋率)與樣本數(shù)之間的關系往往遵循近似的冪律。

在Llama-3和Gemma模型中,可以觀察到覆蓋率與樣本數(shù)呈近似對數(shù)線性增長,超過幾個數(shù)量級。



在不同參數(shù)量、不同模型以及后訓練水平(基礎模型和微調模型)下,都顯示通過重復采樣Scaling推理時間計算,覆蓋率都有一致的提升。



此外,他們還證明了這種Scaling還能降本增效,以FLOPs作為成本指標,以LIama-3為例。

計算公式如下:



比較 Llama-3-8B-Instruct 和 Llama3-70B-Instruct 的成本(以推理 FLOPs 數(shù)量衡量)和覆蓋率。當FLOPs預算固定時,在 MiniF2F、GSM8K和 MATH 上,Llama-3-8B-Instruct的覆蓋率總是高于更大(更貴)的 70B 模型。然而,在 CodeContests 中,70B 模型幾乎總是更具成本效益。



對比API成本,當采樣較多時,開源 DeepSeek-Coder-V2-Instruct 模型可以達到與閉源模型GPT-4o相同的問題解決率,而價格僅為后者的三分之一。



有趣的是,他們發(fā)現(xiàn)對于大多數(shù)任務和模型,覆蓋率與樣本數(shù)之間的關系可以用指數(shù)冪律來模擬。



因此總結,這篇文章以重復采樣為軸心,在推理時擴展計算量,從而提高模型性能。

在一系列模型和任務中,重復采樣可以顯著提高使用任何生成樣本解決問題的比例(即覆蓋率)。當可以識別出正確的解決方案時(通過自動驗證工具或其他驗證算法),重復采樣可以在推理過程中放大模型的能力。

與使用較強、較昂貴的模型進行較少的嘗試相比,這種放大作用可使較弱的模型與大量樣本的組合更具性能和成本效益。

來自斯坦福牛津谷歌

這篇論文是來自斯坦福、牛津大學以及谷歌DeepMind團隊。TogetherAI提供計算支持。

其中可以看到有谷歌杰出科學家Quoc V. Le。



有網(wǎng)友表示,這有點像更簡單的靜態(tài)版o3。



o3在評價器的指導下,通過回溯動態(tài)搜索程序空間,而這種方法則依賴于靜態(tài)采樣和事后評價(投票、獎勵模型等)。兩者都能擴展推理計算,但O3的適應性更強。
o3會反復探索解決方案,不斷完善路徑,而重復采樣會并行生成輸出,沒有反饋回路。如何取舍?o3的計算密集度更高,但在需要結構化推理的任務中表現(xiàn)出色。這種方法在編碼/數(shù)學方面更具成本效益。

不過也有網(wǎng)友指出了背后的局限性。



我們不能一味地增加采樣數(shù)量來提高性能。在某些時候,模型會出現(xiàn)停滯,生成的樣本也會開始重復。
無論成本如何,都有一個極限,一個模型無法超越的最大思維水平。

參考鏈接:
[1]https://arxiv.org/abs/2407.21787
[2]https://x.com/_philschmid/status/1870396154241843312
[3]https://x.com/rohanpaul_ai/status/1834446350810849510

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
上海車展劇透:豐田刷新豐田!

上海車展劇透:豐田刷新豐田!

功夫AUTO
2025-04-14 15:57:42
字母哥和哈登當選常規(guī)賽最后一周周最佳球員,后者四年來首次獲得該獎

字母哥和哈登當選常規(guī)賽最后一周周最佳球員,后者四年來首次獲得該獎

雷速體育
2025-04-15 07:40:12
《最后生還者2》太火爆!首播集觀眾數(shù)再創(chuàng)新高

《最后生還者2》太火爆!首播集觀眾數(shù)再創(chuàng)新高

游民星空
2025-04-15 10:03:12
國米、那不勒斯剩余賽程:國米將戰(zhàn)羅馬&拉齊奧 那不勒斯無強對手

國米、那不勒斯剩余賽程:國米將戰(zhàn)羅馬&拉齊奧 那不勒斯無強對手

直播吧
2025-04-15 07:40:52
“第二個深圳”誕生?馬云砸240億,東哥砸320億,華為也在此落戶

“第二個深圳”誕生?馬云砸240億,東哥砸320億,華為也在此落戶

溫讀史
2025-04-09 18:33:34
馬頔做了全網(wǎng)都無法接受的事,《五哈5》剛開播就徹底被打臉

馬頔做了全網(wǎng)都無法接受的事,《五哈5》剛開播就徹底被打臉

杰哥娛天下
2025-04-14 21:30:43
5中1,正負值-34隊內最低!廣東大將怒砍2分 杜鋒用人被狂噴

5中1,正負值-34隊內最低!廣東大將怒砍2分 杜鋒用人被狂噴

胖子噴球
2025-04-15 09:43:29
鄭州市副市長胡軍擬任省轄市委副書記

鄭州市副市長胡軍擬任省轄市委副書記

觀察者網(wǎng)
2025-04-14 10:41:24
41歲韓庚節(jié)目中忘戴假發(fā),頭頂禿了一大片,斷崖式衰老引熱議

41歲韓庚節(jié)目中忘戴假發(fā),頭頂禿了一大片,斷崖式衰老引熱議

玫瑰講娛
2025-03-31 19:08:16
美財政部長訪阿根廷期間惡意污蔑抹黑中國同其他國家開展正常合作,我使館嚴正聲明

美財政部長訪阿根廷期間惡意污蔑抹黑中國同其他國家開展正常合作,我使館嚴正聲明

環(huán)球網(wǎng)資訊
2025-04-15 10:20:15
賈阿倫實現(xiàn)賽季雙70 達成歷史唯一成就

賈阿倫實現(xiàn)賽季雙70 達成歷史唯一成就

北青網(wǎng)-北京青年報
2025-04-14 17:30:02
《我的后半生》老茍把房子留給小田田當作她的嫁妝,他的格局好大

《我的后半生》老茍把房子留給小田田當作她的嫁妝,他的格局好大

墨印齋
2025-04-14 22:27:48
港星鄭希怡曬女兒生日照,10歲浸浸高又壯,疑不適應重返香港生活

港星鄭希怡曬女兒生日照,10歲浸浸高又壯,疑不適應重返香港生活

清游說娛
2025-04-14 17:31:10
成都歡樂迪KTV全線下架美國酒水,國產酒水普降34%力挺國貨消費

成都歡樂迪KTV全線下架美國酒水,國產酒水普降34%力挺國貨消費

新浪財經(jīng)
2025-04-12 20:07:03
網(wǎng)傳中國政法大學博導因學生論文抄襲事件被氣到住院?教授本人回應

網(wǎng)傳中國政法大學博導因學生論文抄襲事件被氣到住院?教授本人回應

雙一流高校
2025-04-15 06:51:15
東契奇成史上首位球衣銷量第一國際球員,打破庫里與詹姆斯11年“壟斷”

東契奇成史上首位球衣銷量第一國際球員,打破庫里與詹姆斯11年“壟斷”

雷速體育
2025-04-15 08:22:11
我調任老家上任縣長,去參加同學聚會,卻被初戀的局長老公看不起

我調任老家上任縣長,去參加同學聚會,卻被初戀的局長老公看不起

紅豆講堂
2025-04-14 10:55:47
該來的還是來了!當比亞迪騰勢Z9GT在米蘭發(fā)布后,歐洲車企亂套了

該來的還是來了!當比亞迪騰勢Z9GT在米蘭發(fā)布后,歐洲車企亂套了

科技數(shù)碼隨時答
2025-04-14 05:31:46
47歲的劉濤被偶遇,真實顏值就這樣,沒有網(wǎng)上說的那么漂亮

47歲的劉濤被偶遇,真實顏值就這樣,沒有網(wǎng)上說的那么漂亮

草莓解說體育
2025-04-13 13:05:26
NBA周最佳出爐!哈登強勢當選,字母哥稱雄東部,二人并列歷史第4

NBA周最佳出爐!哈登強勢當選,字母哥稱雄東部,二人并列歷史第4

釘釘陌上花開
2025-04-15 06:03:36
2025-04-15 10:40:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10313文章數(shù) 176099關注度
往期回顧 全部

科技要聞

OpenAI放大招!GPT-4.1上線,編程戰(zhàn)力全開

頭條要聞

女子攜海量內部文件叛逃前被抓:高中開始接觸反動思想

頭條要聞

女子攜海量內部文件叛逃前被抓:高中開始接觸反動思想

體育要聞

他演過周星馳電影,62歲還要拿世界冠軍

娛樂要聞

專訪 | 王安宇:角色是為觀眾服務的

財經(jīng)要聞

特朗普為何攪亂貿易?謎題即將解開

汽車要聞

售22.48萬/23.99萬 全新電動MINI JCW雙車上市

態(tài)度原創(chuàng)

本地
親子
游戲
公開課
軍事航空

本地新聞

云游湖北|相約安陸,解鎖限定版粉色春天

親子要聞

家長曬出孩子日常,熟練的甩鍋動作,網(wǎng)友:重生之我只擁有前世的技能!

Switch2卡帶缺少一個角!為了防呆還是另有目的?

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

美軍駐格陵蘭島太空基地指揮官遭解職

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 延寿县| 石台县| 天津市| 盐津县| 银川市| 白山市| 苗栗县| 萨迦县| 海淀区| 阳高县| 盐池县| 嵊州市| 东宁县| 泸定县| 古蔺县| 博爱县| 城固县| 宁明县| 德州市| 肇源县| 临漳县| 尼勒克县| 贵南县| 奉节县| 久治县| 安塞县| 曲水县| 清涧县| 崇左市| 论坛| 两当县| 平南县| 明光市| 静海县| 镇坪县| 历史| 海门市| 明星| 元阳县| 万年县| 库尔勒市|