99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI也要007?Letta、伯克利提出「睡眠時間計算」效率翻倍不加錢

0
分享至

機器之心報道

編輯:+0、陳陳

AI 也要 007 工作制了!

近日,AI 初創公司 Letta 和 UC 伯克利的研究人員提出了一種擴展人工智能能力的新方式 —— 睡眠時間計算(Sleep-time Compute),讓模型在空閑時間「思考」,旨在提高大型語言模型(LLM)的推理效率,降低推理成本,同時保持或提升準確性。



睡眠時間計算的核心理念在于:智能體即使在「睡眠」(即用戶未提出查詢時的閑置狀態)時段,也應持續運行,利用這些非交互期重組信息、提前完成推理。當前許多智能體都運行于存在持久化上下文的環境中。例如,代碼智能體可以在編程請求到來前預先研習代碼庫;對話智能體則可反思用戶過往的交流記錄,在交互前重新整理信息。

在睡眠時段執行推理的過程將「原始上下文」(raw context)轉化為「學習到的上下文」(learned context)。與僅擁有原始上下文的智能體相比,具備預處理能力的智能體可在實際應答時減少即時推理計算的負擔,因為它們已經提前進行了思考。



  • 論文標題: Sleep-time Compute: Beyond Inference Scaling at Test-time
  • 論文地址:https://arxiv.org/pdf/2504.13171
  • 項目地址:https://github.com/letta-ai/sleep-time-compute

從測試時間擴展到睡眠時間擴展

在過去的一年里,我們見證了「推理模型」的崛起:這些模型在回答之前會進行「思考」。例如,OpenAI 的 o1、DeepSeek 的 R1 和 Anthropic 的 Claude 3.7 等最新模型,不再即時給出回復,而在返回最終回答前輸出一段詳細的推理過程。這種延遲輸出結構在數學、編程等特定應用領域中表現出顯著的智能提升。實踐證明,讓模型在測試時(test time)執行更長時間的推理計算(從幾秒至幾分鐘不等),能夠顯著提高模型的推理質量。

這種策略被稱為「測試時擴展」,它已被廣泛證實是推動基于大型語言模型(LLM)的 AI 系統邁向下一個智能層級的高效路徑 —— 測試時推理資源投入越多,系統表現往往越佳。

但這是否只是冰山一角?我們是否在嚴重低估當前 AI 系統的潛力?假如僅在用戶觸發交互時才啟用智能體的推理能力,那是否意味著這些模型的絕大部分時間都未被有效利用?

研究人員相信,AI 系統中存在著一種尚未被充分釋放的范式轉變:不僅在響應提示時被動地進行推理,而且在未被激活期間主動加深其對世界和任務的理解 —— 這正是他們所提出的「睡眠時間」(sleep time)概念,即:AI 系統在不與用戶交互的漫長空閑期間,也能深入處理和組織信息。



于是他們在最新的研究論文中提出「睡眠時間計算」。它為具備狀態性的 AI 系統(stateful AI systems)提供了一個令人興奮的全新擴展路徑:通過在系統本應用于空閑的時段啟用深層思維,我們可以前所未有地拓展模型的理解能力與推理方式,從而突破僅靠交互時計算資源所能實現的能力上限。

睡眠時間計算

在標準的測試時間計算應用范式中,用戶向 LLM 輸入一個提示 p,然后 LLM 應用測試時間計算來幫助回答用戶的問題。

然而,提供給 LLM 的提示 p 通常可以分解為一個已存在的上下文 c(例如一個代碼庫)和一個用戶查詢 q(例如關于代碼庫的問題)。

當 LLM 沒有及時響應用戶時,它通常仍然可以訪問現有的上下文 c。在這段時間里,LLM 通常處于閑置狀態,錯過了離線思考 c 的機會:本文將這個過程稱為睡眠時間計算。



測試時間計算:在測試時間計算設置中,用戶提供 q 和一些上下文 c,模型輸出推理跟蹤,后面跟著最終答案 a。

這個過程可以表示為:T_B(q, c)→a,其中 T 是在預算 B 下測試時間計算的方法,包括擴展思維鏈或 best-of-N 等技術。

在實踐中,用戶可能對同一上下文有多個查詢 q_1, q_2…q_N。在此設置下,模型將對每個 q_i 進行獨立的推理過程,即使它們與相同的上下文有關。

此外,在許多情況下,上下文信息 c 可能非常復雜,需要執行大量的推理才能生成問題 q 的答案。由于傳統測試時計算范式 T (q, c)→a 假定 c 與 q 同時獲取,標準測試時計算會在用戶提交查詢后才啟動所有這些推理,導致用戶可能需要等待數分鐘才能獲得響應。然而在實際應用中,我們往往能夠提前獲取 c,并將大部分預處理工作前置完成。

睡眠時間計算:在睡眠時間,可以得到上下文 c 但沒有查詢 q。僅基于這個上下文 c,可以使用 LLM 推理可能的問題并推理上下文,最終產生一個更新的重新表示的上下文 c ′。研究者將這個過程表示為:S (c) → c ′,其中 S 可以是任何標準的測試時間擴展技術,用于在睡眠時間預處理上下文。

在這項工作中,S (c) 是通過提示模型進行推理并以可能在測試時有用的方式重寫 c 來實現的。在對上下文進行預處理之后,可以在測試時提供新的上下文 c ′ 代替 c 來生成對用戶查詢的最終答案:T_b (q, c ′) → a。由于在這種情況下,關于 c 的大部分推理已經提前完成,就可以使用小得多的測試時間預算 b << B。此外,c ′ 可以在關于相同上下文的不同查詢 q_i 之間共享,從而有效地攤銷在查詢之間得出 c ′ 所需的計算,從而節省總體成本。

實驗及結果

本文通過實驗來探究睡眠時計算的優勢,并重點回答了以下問題:

1. 睡眠時計算能否改變測試時計算與準確率之間的帕累托邊界?

2. 擴展睡眠時計算規模能否進一步優化該帕累托邊界?

3. 當單個上下文對應多個關聯問題時,分攤測試時計算與睡眠時計算能否帶來總體 token 效率提升?

4. 睡眠時計算在哪些場景中能帶來最顯著的性能提升?

對于問題 1:應用睡眠時間計算改變帕累托邊界

圖 3 表明準確率和測試時計算之間存在權衡,并且添加睡眠時間計算可以超越帕累托計算 - 準確率曲線。



圖 4 展示了不同模型在 Stateful AIME 數據集上的結果。我們看到,應用睡眠時間計算后,測試時間和準確率都發生了顯著的帕累托偏移,但 o1 除外,它的增益有限。



對于問題 2:擴展睡眠時間計算

接下來,作者想了解在睡眠時間內擴展計算量如何進一步影響帕累托轉變。

在圖 7 中,我們看到進一步擴展睡眠時間計算會使帕累托曲線外移,在相似的測試時間預算下,性能提升高達 13%。



在圖 26 中,作者進一步擴展了睡眠時間計算。我們看到了相同的結果,擴展睡眠時間計算通常會使帕累托曲線外移,性能提升高達 18%。



對于問題 3:在具有共享上下文的查詢之間分攤睡眠時間計算

作者還希望了解如何通過在每個上下文都有多個查詢的設置中應用睡眠時間計算來改善推理的總成本。我們看到,與單查詢基線相比,當每個上下文有 10 個查詢時,每個查詢的平均成本降低多達 2.5 倍。



對于問題 4:可預測查詢從睡眠時間計算中獲益更多

在圖 10 中,我們看到隨著問題從上下文中變得更加可預測,睡眠時間計算和標準測試時間計算之間的準確度差距不斷擴大,這證實了本文的假設,即當問題能夠通過上下文預測時,睡眠時計算最能發揮其優勢。



了解更多內容,請參考原論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
扎心!浙大學生想去廣東發展,希望年薪15萬,雙休,網友卻潑冷水

扎心!浙大學生想去廣東發展,希望年薪15萬,雙休,網友卻潑冷水

歸史
2025-04-22 17:30:03
小卡登全美第1熱搜:創7紀錄被贊重返巔峰 船記直言34歲不可思議

小卡登全美第1熱搜:創7紀錄被贊重返巔峰 船記直言34歲不可思議

顏小白的籃球夢
2025-04-22 13:21:23
妻子以性生活要挾,上海爺叔懵了!婚前協議這一項“威力”大到超出想象→

妻子以性生活要挾,上海爺叔懵了!婚前協議這一項“威力”大到超出想象→

大風新聞
2025-04-22 18:50:10
大S女兒在北京露面,玥兒戴手鏈,素顏特別像大S,可愛文靜的女孩

大S女兒在北京露面,玥兒戴手鏈,素顏特別像大S,可愛文靜的女孩

素素娛樂
2025-04-22 16:18:55
讀懂IPO|廣信科技業績高增長背后:超兩成未蓋章單據缺效力依據,收入真實性待考

讀懂IPO|廣信科技業績高增長背后:超兩成未蓋章單據缺效力依據,收入真實性待考

時代投研
2025-04-22 19:40:10
5月起,中國或將迎來“四大降價潮”!有人松口氣,卻有人更焦慮

5月起,中國或將迎來“四大降價潮”!有人松口氣,卻有人更焦慮

搬磚營Z
2025-04-22 01:33:32
解約金7500萬歐!都體:26歲奧斯梅恩與曼聯就個人條款達協議

解約金7500萬歐!都體:26歲奧斯梅恩與曼聯就個人條款達協議

直播吧
2025-04-22 18:20:07
如果事情屬實,那就不是“荒唐”的問題了

如果事情屬實,那就不是“荒唐”的問題了

末名先生
2025-04-22 16:07:52
新疆“虎”李鵬新受賄8.22億被判死緩,減為無期后終身監禁

新疆“虎”李鵬新受賄8.22億被判死緩,減為無期后終身監禁

界面新聞
2025-04-22 17:34:35
中方擔憂成真,萬斯訪印密談,不到24小時,莫迪政府對中國出手了

中方擔憂成真,萬斯訪印密談,不到24小時,莫迪政府對中國出手了

獵火照狼山
2025-04-22 20:29:59
不到24小時,特朗普又發狠話:如果中國再不妥協,別怪我挑戰下限

不到24小時,特朗普又發狠話:如果中國再不妥協,別怪我挑戰下限

趣味萌寵的日常
2025-04-22 17:58:54
巴西大豆短期內難以取代美國大豆:蛋白含量&出油量均低于美產,存在季節缺口

巴西大豆短期內難以取代美國大豆:蛋白含量&出油量均低于美產,存在季節缺口

三言四拍
2025-04-22 19:24:47
荷蘭科技專家:中國當初囤積了大量來自于ASML的進口光刻機,為的就是與美國在芯片技術上面打持久戰

荷蘭科技專家:中國當初囤積了大量來自于ASML的進口光刻機,為的就是與美國在芯片技術上面打持久戰

逍遙漠
2025-04-22 20:04:10
后續來了!高鐵攔門事件通報細節,女子身份被扒,處罰結果引爭議

后續來了!高鐵攔門事件通報細節,女子身份被扒,處罰結果引爭議

追風小狗
2025-04-21 22:24:05
教皇方濟各最震撼的一張照片

教皇方濟各最震撼的一張照片

菠蘿因子
2025-04-22 12:15:41
最高達3521%!美國關稅大棒砸向東南亞太陽能產業

最高達3521%!美國關稅大棒砸向東南亞太陽能產業

澎湃新聞
2025-04-22 17:02:27
日本首相:特朗普要求日本進口美國大米和牛肉 , 日本米價連漲15周 民眾抱怨“吃不起” , 有學校將減少供應次數

日本首相:特朗普要求日本進口美國大米和牛肉 , 日本米價連漲15周 民眾抱怨“吃不起” , 有學校將減少供應次數

每日經濟新聞
2025-04-22 20:45:30
全網看直播捉奸,原配對小三高喊:我老公18cm,爽死你了吧

全網看直播捉奸,原配對小三高喊:我老公18cm,爽死你了吧

社會醬
2025-04-21 17:47:38
被當作反面典型的原省長,再被公開點名!

被當作反面典型的原省長,再被公開點名!

上觀新聞
2025-04-22 11:52:03
中方取消美資格,特朗普情緒罕見失控

中方取消美資格,特朗普情緒罕見失控

書房評天下
2025-04-22 09:40:23
2025-04-23 01:00:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10390文章數 142296關注度
往期回顧 全部

科技要聞

美團騎手親述:京東外賣單子傭金高卻難搶

頭條要聞

越南總理定調與美關稅談判后 越南股市一度閃崩后反轉

頭條要聞

越南總理定調與美關稅談判后 越南股市一度閃崩后反轉

體育要聞

當今足壇最瘋的門將,能有多離譜?

娛樂要聞

大s兒女回京!張蘭氣場全開汪小菲談養老

財經要聞

宜賓銀行與五糧液集團頻繁關聯交易

汽車要聞

捷途山海T2加長版/山海L9等 捷途新車展前亮相

態度原創

游戲
健康
藝術
房產
手機

《上古卷軸4:復刻版》公布 2006原版和復刻版畫面對比

唇皰疹和口腔潰瘍是"同伙"嗎?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

60+樓盤狂拼特價,海口最新房價曝光!

手機要聞

蘋果推送iOS 18.5 Beta 3測試版更新,無顯著改動

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 洪湖市| 铁岭市| 新邵县| 广平县| 江门市| 盈江县| 汝州市| 渭南市| 舒城县| 芦溪县| 海阳市| 嵊州市| 桐乡市| 湛江市| 平潭县| 江油市| 灵宝市| 兴化市| 乌海市| 观塘区| 申扎县| 监利县| 泽州县| 新和县| 荣昌县| 夏津县| 长春市| 华阴市| 淄博市| 汽车| 尼玛县| 绥芬河市| 平山县| 壤塘县| 松溪县| 射洪县| 运城市| 桂平市| 化德县| 双牌县| 万全县|