99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

李飛飛等出手,媲美DeepSeek的AI模型來了!

0
分享至

不到50美元!媲美DeepSeek的AI模型出現(xiàn)

據(jù)《科創(chuàng)板日報》消息,李飛飛等斯坦福大學(xué)和華盛頓大學(xué)研究人員近日以不到50美元的云計算費用訓(xùn)練了一個名叫s1的人工智能推理模型。

該模型在數(shù)學(xué)和編碼能力測試中的表現(xiàn)與OpenAI的o1和DeepSeek的R1等尖端推理模型類似。研究人員表示,s1是通過蒸餾法由谷歌推理模型Gemini 2.0 Flash Thinking Experimental提煉出來的。

公開資料顯示,李飛飛1976年生于北京的一個高級知識分子家庭,16歲時赴美求學(xué)。從2000年進(jìn)入加州理工學(xué)院攻讀研究生起,李飛飛一直從事人工智能研究,并于2005年獲得電子工程博士學(xué)位。她在33歲時就成為斯坦福計算機系終身教授,44歲成為美國國家工程院院士。在計算機視覺這一領(lǐng)域還相當(dāng)冷門的早期,李飛飛就選擇了這個方向并持續(xù)耕耘,創(chuàng)立了ImageNet——一個擁有1500萬張圖片的數(shù)據(jù)庫,成為人工智能計算機視覺研究的奠基之作。

據(jù)《證券時報》報道,李飛飛于2024年4月創(chuàng)辦了World Labs(空間智能),正式從學(xué)者轉(zhuǎn)型成為一名創(chuàng)業(yè)者。創(chuàng)辦僅幾個月,空間智能已在7月的一輪融資中籌集到了約1億美元資金,估值突破10億美元,晉升為又一AI獨角獸。

據(jù)澎湃新聞報道,李飛飛曾在采訪中提到,現(xiàn)在的AI比人類差遠(yuǎn)了,能耗高、體積龐大,而且尚未具備情感,但人類智慧可以啟發(fā)下一代AI做得更好。

來源:科創(chuàng)板日報、證券時報、澎湃新聞

16張H100訓(xùn)26分鐘,超越o1-preview!

李飛飛等用1K樣本,揭秘測試時Scaling

OpenAI o系列模型為何性能如此強大?

OpenAI將他們的方法描述為使用大規(guī)模強化學(xué)習(xí)(RL),暗示使用了大量的數(shù)據(jù)。

最近大火的DeepSeek-R1模型也通過使用數(shù)百萬個樣本和多個訓(xùn)練階段使用強化學(xué)習(xí)的方式,成功地達(dá)到了o1級別的性能。

然而,至今為止沒有人公開成功復(fù)現(xiàn)清晰的測試時擴展行為。

那么問題來了,實現(xiàn)測試時擴展和強推理性能的最簡單方法是什么?

近日,來自斯坦福大學(xué)、華盛頓大學(xué)、Ai2等機構(gòu)的研究人員發(fā)表了一篇題為「s1: Simple test-time scaling」的論文,回答了上述問題。


論文地址:https://arxiv.org/pdf/2501.19393

團隊證明,僅使用1000個樣本進(jìn)行下一個token的預(yù)測訓(xùn)練,并在測試時通過一種簡單的預(yù)算強制(budget forcing)技術(shù)來控制思維持續(xù)時間,就能獲得一個強大的推理模型,其性能隨著測試計算量的增加而提升。

預(yù)算強制(budget forcing)可以簡單理解為通過強制提前結(jié)束模型的思考過程,或通過重復(fù)添加「Wait」來延長思考時間,從而影響模型的推理深度和最終答案。

這種方法可以引導(dǎo)模型進(jìn)行自我檢查,并修正推理過程中的錯誤,從而提高推理性能。

具體來說,他們構(gòu)建了一個叫做「s1K」的數(shù)據(jù)集,由1000個精心篩選的問題組成,每個問題都配有推理軌跡(reasoning traces)和從Gemini Thinking Experimental蒸餾而來的答案。

接著團隊在一個預(yù)訓(xùn)練模型上進(jìn)行監(jiān)督微調(diào)(SFT),僅使用16張H100 GPU訓(xùn)練26分鐘。

訓(xùn)練完成后,使用預(yù)算強制(budget forcing)方法來控制模型在測試時的計算量:

  1. 若模型生成的推理token超過設(shè)定的上限,則強制結(jié)束推理過程,并附加思維結(jié)束(end-of-thinking)token,促使模型進(jìn)入答案生成階段。

  2. 若希望模型在問題上投入更多測試時計算資源,則抑制思維結(jié)束token的生成,并在推理軌跡中追加 「Wait」,鼓勵模型進(jìn)行更深入的推理探索。

基于這個簡單的方法,并在1000個樣本上進(jìn)行SFT訓(xùn)練 + 測試時的預(yù)算強制(budget forcing)后,團隊提出的s1-32B展現(xiàn)出了測試時擴展(test-time scaling)的能力。


此外,s1-32B也是目前最具樣本效率(sample-efficient)的推理模型,在推理能力上超越了OpenAI的o1-preview等閉源模型。


如何創(chuàng)建s1K數(shù)據(jù)集

s1K數(shù)據(jù)集是一個包含1000個高質(zhì)量推理問題的精選數(shù)據(jù)集。

團隊創(chuàng)建過程主要分為兩個階段。

初始階段,研究人員從16個不同的來源收集了59029個問題,并遵循三個指導(dǎo)原則:質(zhì)量、難度和多樣性。

這些來源包括現(xiàn)有的數(shù)學(xué)問題數(shù)據(jù)集(如 NuminaMATH、AIME、OmniMath 和 AGIEval),以及研究人員自己創(chuàng)建的概率問題集 (s1-prob) 和腦筋急轉(zhuǎn)彎問題集 (s1-teasers)。

為了確保質(zhì)量,研究人員檢查了所有樣本,并忽略了格式不佳的數(shù)據(jù)集。為了增加難度,他們選擇需要大量推理努力的問題。為了確保多樣性,他們涵蓋了不同的領(lǐng)域和推理任務(wù).

第二階段,最終篩選1K樣本。研究人員通過三個階段的過濾,從59K樣本中篩選出1000個樣本,并繼續(xù)依賴質(zhì)量、難度和多樣性這三個原則。

通過這些過程,研究人員創(chuàng)建了s1K數(shù)據(jù)集,該數(shù)據(jù)集包含50個不同領(lǐng)域的1000個高質(zhì)量、多樣化和高難度的問題,并附帶推理過程。

這個數(shù)據(jù)集對于訓(xùn)練s1-32B模型至關(guān)重要。

測試時擴展方法

其核心思想是通過在測試時增加計算量來提高語言模型的性能。

論文將測試時擴展方法分為兩類:順序(Sequential)和并行(Parallel)。

順序擴展是指后面的計算依賴于前面的計算,例如長的推理過程;并行擴展是指計算是獨立運行的,例如多數(shù)投票。

論文主要關(guān)注順序擴展,因為作者認(rèn)為它可以更好地利用中間結(jié)果進(jìn)行更深入的推理和迭代改進(jìn)。

預(yù)算強制(Budget Forcing):通過限制模型在測試時使用的最大和/或最小思考token數(shù)量來控制計算量。

論文通過實驗證明了,這種簡單的方法能夠引導(dǎo)模型修正答案。

下圖這個例子中,模型最初在回答一個關(guān)于「raspberry」中 「r」的數(shù)量的問題時給出了錯誤的答案 「2」。

然而,通過抑制結(jié)束思考的token生成,并追加「Wait」來強制模型繼續(xù)推理,模型最終意識到自己快速閱讀導(dǎo)致了錯誤,并最終給出了正確的答案「3」。


測試時擴展方法

如下圖所示,s1-32B模型在使用預(yù)算強制技術(shù)后,其性能會隨著測試時計算量的增加而提高。


具體來說,通過增加模型思考的token數(shù)量(例如,通過追加「Wait」),模型在 AIME24 基準(zhǔn)測試上的表現(xiàn)得到了提升。

然而,這種提升最終會趨于平緩,過度抑制結(jié)束思考的token會導(dǎo)致模型進(jìn)入重復(fù)循環(huán)。

結(jié)果表明,s1-32B模型是目前樣本效率最高的開源推理模型。盡管只使用了1000個樣本進(jìn)行微調(diào),s1-32B的性能仍明顯優(yōu)于其基礎(chǔ)模型Qwen2.5-32B-Instruct。


同時,雖然DeepSeek r1-32B模型性能更強,但其使用了800倍的訓(xùn)練樣本。

此外,s1-32B模型在AIME24上的表現(xiàn)幾乎與Gemini 2.0 Thinking API持平,表明其蒸餾過程是有效的。


總之,實驗結(jié)果證明了s1-32B模型在測試時擴展、樣本效率和推理能力方面的優(yōu)勢,并驗證了預(yù)算強制技術(shù)的有效性。

消融實驗

數(shù)據(jù)消融實驗:研究人員通過以下對比實驗,驗證了高質(zhì)量、多樣性、和難度這三個數(shù)據(jù)選擇標(biāo)準(zhǔn)的重要性:

  • 僅質(zhì)量 (1K-random):隨機選取1000個高質(zhì)量樣本,性能明顯低于s1K,表明難度和多樣性過濾的重要性。

  • 僅多樣性 (1K-diverse):均勻選取各個領(lǐng)域樣本,性能也遠(yuǎn)不如s1K,表明只關(guān)注多樣性是不夠的。

  • 僅難度 (1K-longest):選擇推理軌跡最長的1000個樣本,在GPQA上有提升,但整體不如s1K,表明難度只是一個方面。

  • 最大化數(shù)據(jù)量 (59K-full):使用所有59K樣本訓(xùn)練,雖然性能略有提升,但訓(xùn)練資源消耗巨大,且提升幅度有限,說明精心挑選的少量數(shù)據(jù)比大量數(shù)據(jù)更高效。

結(jié)果表明,將質(zhì)量、難度和多樣性相結(jié)合是實現(xiàn)樣本高效推理訓(xùn)練的關(guān)鍵。


測試時擴展方法消融實驗:研究人員通過比較不同的測試時擴展方法,驗證了預(yù)算強制的優(yōu)越性:

  • Token/步驟/類別 條件控制 (TCC/SCC/CCC):這些方法都無法有效控制計算量或獲得良好的擴展效果,表明僅在提示中告知模型計算量或步驟是不足的。

  • 拒絕采樣 (RS):使用拒絕采樣會導(dǎo)致性能隨著計算量的增加而下降,因為更短的生成往往是模型一開始就走在正確軌道上的結(jié)果。

  • 預(yù)算強制 (BF):實驗表明,預(yù)算強制在控制性、擴展性和性能方面都優(yōu)于其他方法。

  • 在預(yù)算強制中,追加「Wait」能夠鼓勵模型進(jìn)行額外的思考,從而提高性能。


下圖展示了在AIME24數(shù)據(jù)集上使用s1-32B模型進(jìn)行拒絕采樣(rejection sampling)的實驗結(jié)果,結(jié)果表明,隨著平均思考時間(以token數(shù)量衡量)的增加,模型的準(zhǔn)確率反而下降,呈現(xiàn)出反向擴展趨勢。


更長的推理過程并不一定意味著更好的性能。 這一結(jié)果也反襯了論文提出的預(yù)算強制方法(budget forcing)的優(yōu)越性,因為預(yù)算強制可以更有效地控制測試時的計算量,并促使模型進(jìn)行更有目的性的思考。

實驗結(jié)果表明,預(yù)算強制是測試時擴展的最佳方法。

總結(jié)

盡管很多模型,例如DeepSeek-r1和k1.5,通過強化學(xué)習(xí)或使用數(shù)萬個蒸餾樣本來構(gòu)建強大的推理模型。

但該研究表明,僅需在1000個樣本上進(jìn)行監(jiān)督微調(diào) (SFT) 就足以構(gòu)建一個具有競爭力的推理模型,該模型可以與 OpenAI的o1-preview相媲美。

李飛飛團隊研究人員認(rèn)為,預(yù)訓(xùn)練階段模型已經(jīng)接觸了大量的推理數(shù)據(jù),因此微調(diào)階段只需少量樣本就能激活模型的推理能力,這與LIMA論文中提出的表面「對齊假說」類似。

論文提出的預(yù)算強制 (budget forcing) 是一種簡單有效的順序擴展方法,它通過控制模型思考的token數(shù)量來提高性能,并首次復(fù)現(xiàn)了OpenAI的測試時擴展曲線。

盡管預(yù)算強制有其局限性,例如最終會趨于平緩和受上下文窗口的限制,但它證明了測試時擴展的潛力,并為未來的研究提供了明確的指標(biāo):可控性、擴展性和性能。

為了克服順序擴展的局限性,論文還探討了并行擴展方法,如多數(shù)投票和基于REBASE的樹搜索(下圖)。實驗結(jié)果表明,將順序擴展與并行擴展方法相結(jié)合,還可以進(jìn)一步擴展測試時的計算量。


未來方向

論文強調(diào),未來的研究可以探索如何進(jìn)一步改進(jìn)預(yù)算強制,例如輪換使用不同的字符串或結(jié)合頻率懲罰。

一個有前景的方向是將預(yù)算強制應(yīng)用于通過強化學(xué)習(xí)訓(xùn)練的推理模型,并研究新的測試時擴展方法。

此外,可以研究如何進(jìn)一步擴展測試時的計算量,以克服現(xiàn)有語言模型上下文窗口的限制。

參考資料:

https://arxiv.org/pdf/2501.19393

來源:新智元

為偉大思想而生!

AI+時代,互聯(lián)網(wǎng)思想(wanging0123),

第一必讀自媒體

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
數(shù)學(xué)天才任偉拒絕美國千萬年薪執(zhí)意回國,卻在回國前夕離奇死亡…

數(shù)學(xué)天才任偉拒絕美國千萬年薪執(zhí)意回國,卻在回國前夕離奇死亡…

百態(tài)人間
2025-04-03 16:24:45
隨著湖人1-2落后森林狼,快船2-1掘金,雷霆3-0,西部4強基本出爐

隨著湖人1-2落后森林狼,快船2-1掘金,雷霆3-0,西部4強基本出爐

球場沒跑道
2025-04-26 12:58:14
服務(wù)差?賬目亂?上海一別墅業(yè)委會硬剛物業(yè),追討近3000萬!

服務(wù)差?賬目亂?上海一別墅業(yè)委會硬剛物業(yè),追討近3000萬!

瀟湘晨報
2025-04-26 17:08:59
憤怒的韓國人,這次韓國棋院坐在了火山口上

憤怒的韓國人,這次韓國棋院坐在了火山口上

月滿大江流
2025-04-26 11:58:00
2-1!中超黑馬太神了:連續(xù)7輪不敗+追平申花,升超第4年有望奪冠

2-1!中超黑馬太神了:連續(xù)7輪不敗+追平申花,升超第4年有望奪冠

小火箭愛體育
2025-04-26 17:45:39
人到中年,要遠(yuǎn)離抽“小摳煙”的人,什么是“小摳煙”?建議了解

人到中年,要遠(yuǎn)離抽“小摳煙”的人,什么是“小摳煙”?建議了解

神牛
2025-04-26 15:46:24
哪些八卦聽到后讓你三觀盡毀?網(wǎng)友:發(fā)現(xiàn)兩人時,身體還連著呢

哪些八卦聽到后讓你三觀盡毀?網(wǎng)友:發(fā)現(xiàn)兩人時,身體還連著呢

特約前排觀眾
2025-04-25 00:05:26
被開除軍籍、持國外綠卡、騙財騙色,蔣大為竟是這樣的人嗎?

被開除軍籍、持國外綠卡、騙財騙色,蔣大為竟是這樣的人嗎?

娛樂白名單
2025-04-23 23:22:36
這就是周立波被封殺的真正的原因……

這就是周立波被封殺的真正的原因……

深度報
2025-04-25 23:36:53
600萬網(wǎng)紅在杭州被開黃腔辱罵,官方賬號淪陷,網(wǎng)友:本地人都這樣

600萬網(wǎng)紅在杭州被開黃腔辱罵,官方賬號淪陷,網(wǎng)友:本地人都這樣

小噎論事
2025-04-22 10:34:12
聞泰科技:營收狂飆735億,半導(dǎo)體業(yè)務(wù)殺瘋了

聞泰科技:營收狂飆735億,半導(dǎo)體業(yè)務(wù)殺瘋了

芯榜
2025-04-26 21:20:53
59歲資深女星空降《新聞女王2》劇組,將與“Man姐”佘詩曼上演連番惡斗

59歲資深女星空降《新聞女王2》劇組,將與“Man姐”佘詩曼上演連番惡斗

TVB劇評社
2025-04-26 22:49:40
劉嘉玲調(diào)侃王菲:謝霆鋒演唱會門票怎么這么貴?王菲回復(fù)笑翻全場

劉嘉玲調(diào)侃王菲:謝霆鋒演唱會門票怎么這么貴?王菲回復(fù)笑翻全場

娛最資訊
2025-04-26 07:41:55
中央發(fā)布重磅《意見》,破解全球化困局,開辟國際貿(mào)易新航道!

中央發(fā)布重磅《意見》,破解全球化困局,開辟國際貿(mào)易新航道!

中科財經(jīng)
2025-04-26 10:32:36
汪峰試探問:你跟幾個男人回過家?章子怡一句話,讓他瞬間紅了臉

汪峰試探問:你跟幾個男人回過家?章子怡一句話,讓他瞬間紅了臉

火之文
2025-02-04 13:22:59
郴州市政府副秘書長黃卿被查

郴州市政府副秘書長黃卿被查

魯中晨報
2025-04-26 11:04:14
上海一即將臨盆藍(lán)貓四肢被砍斷,搶救無效死亡。派出所: 正在調(diào)查

上海一即將臨盆藍(lán)貓四肢被砍斷,搶救無效死亡。派出所: 正在調(diào)查

封面新聞
2025-04-26 23:07:17
特朗普承認(rèn):我“開玩笑的”

特朗普承認(rèn):我“開玩笑的”

大象新聞
2025-04-26 14:14:04
1場13-12后,第3席8強新鮮出爐!肖國棟決勝局惜敗,75雙雄會師!

1場13-12后,第3席8強新鮮出爐!肖國棟決勝局惜敗,75雙雄會師!

劉姚堯的文字城堡
2025-04-27 05:42:48
李多慧嫵媚撐桌扣子解開現(xiàn)陰影,粉絲急喊:衣服穿好!

李多慧嫵媚撐桌扣子解開現(xiàn)陰影,粉絲急喊:衣服穿好!

葫蘆哥愛吐槽
2025-04-26 12:35:38
2025-04-27 06:55:00
互聯(lián)網(wǎng)思想 incentive-icons
互聯(lián)網(wǎng)思想
AI時代,互聯(lián)網(wǎng)思想觀察
2269文章數(shù) 16854關(guān)注度
往期回顧 全部

科技要聞

百度心響實測:“能用版Manus”開了個好頭

頭條要聞

伊朗港口爆炸致14死700多傷:大火延燒 調(diào)查困難

頭條要聞

伊朗港口爆炸致14死700多傷:大火延燒 調(diào)查困難

體育要聞

SGA38+5+6雷霆險勝灰熊4-0橫掃晉級,莫蘭特傷停皮蓬30+11+4

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經(jīng)要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續(xù)航100公里 探訪華為兆瓦超充站

態(tài)度原創(chuàng)

教育
房產(chǎn)
游戲
手機
軍事航空

教育要聞

市重點招生題目,有的同學(xué)說計算量很大

房產(chǎn)要聞

教育理念再進(jìn)階!解碼新世界星輝如何構(gòu)筑「家校社成長生態(tài)圈」!

夢幻西游:出了雙固傷玉魄卻難過,口袋版成刷80級環(huán)裝首選

手機要聞

vivo大折疊屏新機曝光,三季度登場

軍事要聞

白宮爭吵后特朗普與澤連斯基"首度"碰面

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 阿拉善左旗| 太仆寺旗| 吉林省| 新田县| 南康市| 龙陵县| 昌宁县| 沿河| 紫金县| 弋阳县| 高州市| 荣昌县| 桦川县| 青田县| 溧水县| 黑河市| 瑞昌市| 芦溪县| 新津县| 武汉市| 呈贡县| 顺昌县| 巴南区| 广州市| 唐河县| 沛县| 清流县| 朔州市| 策勒县| 托克逊县| 拜泉县| 苍溪县| 邵东县| 大厂| 普格县| 菏泽市| 天台县| 崇州市| 海宁市| 大田县| 汉阴县|