99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

周伯文坐鎮!清華、上海AI Lab團隊提出“測試時強化學習”;首個LLM agent權限控制機制|今日熱門論文

0
分享至


速覽熱門論文

1. 周伯文坐鎮!清華、上海AI Lab團隊提出“測試時強化學習”

2. 復旦團隊推出多 agent 社會構建系統 BookWorld

3. 字節團隊提出并行隱藏解碼 Transformer

4. Progent:首個 LLM agent 權限控制機制

5. UC 伯克利團隊推出 AI 推理框架 APR

1. 周伯文坐鎮!清華、上海AI Lab團隊提出“測試時強化學習”

在這項工作中,清華大學教授、上海 AI Lab 實驗室主任兼首席科學家周伯文團隊,針對大語言模型(LLM)中的推理任務,研究了無明確標簽的強化學習(RL)。該問題的核心挑戰是在推理過程中,在無法獲得 ground-truth 信息的情況下進行獎勵估算。雖然這種設置似乎難以實現,但我們發現,測試時擴展(TTS)中的常見做法(如多數投票)能夠產生適合用于推動 RL 訓練的有效獎勵。

為此,他們提出了一種在無 token 數據上使用 RL 訓練 LLM 的新方法——測試時強化學習(TTRL),其利用預訓練模型中的先驗,實現了 LLM 的自我進化。


實驗證明,TTRL 可以持續提高各種任務和模型的性能。值得注意的是,TTRL 將 Qwen-2.5-Math-7B 在 AIME 2024(僅使用未標記測試數據)上的 pass@1 性能提高了約 159%。此外,盡管 TTRL 只受 Maj@N 指標的監督,但表現出的性能一直超過初始模型的上限,并接近直接在帶有 ground-truth 標簽的測試數據上訓練的模型的性能。實驗結果驗證了 TTRL 在各種任務中的普遍有效性,并凸顯了 TTRL 在更廣泛的任務和領域中的潛力。

論文鏈接:https://arxiv.org/abs/2504.16084

2. 復旦團隊推出多 agent 社會構建系統 BookWorld

大語言模型(LLM)的通用能力,使得通過多 agent 系統進行社會模擬成為可能。之前的研究主要集中在從零開始創建的 agent 社會,為 agent 分配新定義的角色。然而,盡管模擬已有的虛構世界和角色具有重要的實用價值,但在很大程度上仍未得到充分探索。

在這項工作中,復旦陽德青副教授團隊推出了一個用于構建和模擬基于書籍的多 agent 社會的綜合系統——BookWorld,其涵蓋了現實世界中的各種復雜情況,包括多樣化的動態角色、虛構的世界觀、地理限制和變化等,可以實現故事生成、互動游戲和社會模擬等多種應用,為擴展和探索虛構作品提供了新的途徑。


大量實驗證明,BookWorld 在保持忠實于原書籍的同時,還能生成富有創意的高質量故事,其勝率高達 75.36%,超過了以往方法。

論文鏈接:https://arxiv.org/abs/2504.14538

3. 字節團隊提出并行隱藏解碼 Transformer

大語言模型(LLM)的近期進展證明了(輸入序列)長度 scaling 在后訓練中的有效性,但其在預訓練中的潛力仍未得到充分挖掘。

在這項工作中,字節跳動團隊提出了并行隱藏解碼 Transformer(PHD-Transformer)框架,其可以在保持推理效率的同時,在預訓練期間實現高效的長度 scaling。PHD-Transformer 通過 KV 緩存管理策略實現了這一目標,該策略可以區分原始 token 和隱藏解碼 token。這一方法只保留原始 token 的 KV 緩存,用于長程依賴關系,同時在使用后立即丟棄隱藏的解碼 token,從而保持了與 vanilla Transformer 相同的 KV 緩存大小,同時實現了有效的長度 scaling。


為了進一步提高性能,他們提出了兩個優化變體:PHD-SWA 采用滑動窗口注意力來保留局部依賴性,而 PHD-CSWA 則采用分塊滑動窗口注意力來消除預填充時間的線性增長。實驗證明,在多個基準測試中,PHD-Transformer 都取得了一致的改進。

論文鏈接:https://arxiv.org/abs/2504.14992

4. Progent:首個 LLM agent 權限控制機制

基于大語言模型(LLM)的智能體(agent)可能帶來巨大的安全風險。在與外部世界交互時,它們可能會遇到攻擊者的惡意命令,從而導致執行危險的操作。解決這一問題的一個可行方法是執行最小特權原則:只允許完成任務所必需的操作,同時阻止不必要的操作。然而,要做到這一點是很有挑戰性的,因為這需要在保證安全性和實用性的同時,覆蓋不同的 agent 場景。

在這項工作中,加州大學伯克利分校 Dawn Song(宋曉冬)教授團隊提出了第一個用于 LLM agent 的權限控制機制——Progent,其核心是一種特定于領域的語言,用于靈活表達在 agent 執行過程中應用的權限控制策略。這些策略提供了對工具調用的細粒度約束,決定何時允許工具調用,并在不允許工具調用時指定退出路徑。這樣,agent 開發人員和用戶就能針對其特定用例制定合適的策略,并確定性地執行這些策略以保證安全性。得益于其模塊化設計,集成 Progent 不會改變 agent 的內部結構,只需對 agent 的實現進行小的改動,從而增強了其實用性和廣泛采用的潛力。為了實現策略編寫的自動化,他們利用 LLM 根據用戶查詢生成策略,然后對策略進行動態更新,以提高安全性和實用性。

廣泛的評估表明,在 AgentDojo、ASB 和 AgentPoison 這 3 個不同的場景或基準中,Progent 既能實現強大的安全性,又能保持較高的實用性。此外,他們還進行了深入分析,展示了其核心組件的有效性以及自動策略生成對自適應攻擊的抵御能力。

論文鏈接:https://arxiv.org/abs/2504.11703

5. UC 伯克利團隊推出 AI 推理框架 APR

推理時計算的擴展大大提高了語言模型的推理能力。然而,現有方法有很大的局限性:序列化的思維鏈方法會產生過長的輸出,導致延遲增加和上下文窗口耗盡,而并行方法(如自一致性)則存在協調不足的問題,導致冗余計算和有限的性能提升。

為了解決這些不足,加州大學伯克利團隊推出了一個新的推理框架——自適應并行推理(Adaptive Parallel Reasoning,APR),其可以使語言模型端到端協調串行和并行計算。APR 通過使用 spawn() 和 join() 操作實現自適應多線程推理,從而推廣了現有的推理方法。一個關鍵的創新是端到端強化學習策略,通過優化父線程和子線程來提高任務成功率,而無需預定義的推理結構。


倒計時(Countdown)推理任務實驗證明了 APR 的顯著優勢:(1)在相同上下文窗口內具有更高的性能(4k 上下文時為 83.4% vs. 60.0%);(2)隨著計算量的增加,具有更出色的可擴展性(20k token 時為 80.1% vs. 66.6%);(3)在同等延遲條件下提高了準確性(約 5000ms 時為 75.2% vs. 57.3%)。

他們認為,APR 標志著語言模型朝著通過自適應計算分配自主優化推理過程的方向邁出了一步。

論文鏈接:https://arxiv.org/abs/2504.15466

整理:學術君

如需轉載或投稿,請直接在公眾號內留言

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
專打國家元首的金牛座導彈抵烏!紅場勝利日閱兵式需要掂量了

專打國家元首的金牛座導彈抵烏!紅場勝利日閱兵式需要掂量了

大風文字
2025-04-25 18:56:10
又美又颯!吳艷妮13米00奪第七:戰斗天使真美,挑戰世界頂尖選手

又美又颯!吳艷妮13米00奪第七:戰斗天使真美,挑戰世界頂尖選手

李喜林籃球絕殺
2025-04-26 21:09:17
調度中心不雅畫面人員被停職調查,知情者披露兩人疑似身份內情

調度中心不雅畫面人員被停職調查,知情者披露兩人疑似身份內情

Likepres
2025-04-25 22:29:07
儲戶慌嗎?存款方面迎來4個方面的調整,已存的人咋辦?

儲戶慌嗎?存款方面迎來4個方面的調整,已存的人咋辦?

話史官1
2025-04-26 15:03:19
深圳殉情男子遺書稱想與妻子合葬 岳母:連女兒的牙刷他都不舍得丟 想不到他深情到這個地步

深圳殉情男子遺書稱想與妻子合葬 岳母:連女兒的牙刷他都不舍得丟 想不到他深情到這個地步

閃電新聞
2025-04-26 10:42:31
小米YU9曝光,雷軍讓3億中產沸騰了

小米YU9曝光,雷軍讓3億中產沸騰了

互聯網品牌官
2025-04-24 16:06:32
喬-科爾:希望穆里尼奧回英超,想在三、四年內奪冠找他就對了

喬-科爾:希望穆里尼奧回英超,想在三、四年內奪冠找他就對了

直播吧
2025-04-26 21:55:12
2025年一季度出口值30強城市:蘇州、寧波環比大增,鄭州漲勢喜人

2025年一季度出口值30強城市:蘇州、寧波環比大增,鄭州漲勢喜人

Data居士
2025-04-26 10:59:59
美麗的新娘

美麗的新娘

動物奇奇怪怪
2025-04-27 00:35:07
69年九大名單出爐,毛主席發怒:怎么沒他?此人痛哭:主席記得我

69年九大名單出爐,毛主席發怒:怎么沒他?此人痛哭:主席記得我

可樂88
2024-04-26 09:14:34
不滿裁判吹罰?崔康熙:大家都是足球人 有些問題我沒法直說

不滿裁判吹罰?崔康熙:大家都是足球人 有些問題我沒法直說

球事百科吖
2025-04-27 04:40:14
航母才是最大的捕魚船?遼寧艦每次帶回數十噸海鮮,全部銷毀!

航母才是最大的捕魚船?遼寧艦每次帶回數十噸海鮮,全部銷毀!

百態人間
2025-04-22 16:26:25
中年女人有意讓你“拿下”,會有一個表現:兩個字

中年女人有意讓你“拿下”,會有一個表現:兩個字

蓮子說情感
2025-01-11 10:26:07
王勵勤遇當頭一棒!國乒大潰敗,單打16人參賽15人出局;日本強勢

王勵勤遇當頭一棒!國乒大潰敗,單打16人參賽15人出局;日本強勢

莼侃體育
2025-04-26 08:27:26
王菲現身謝霆鋒演唱會!《玉蝴蝶》唱響時,王菲陶醉起舞,太甜了

王菲現身謝霆鋒演唱會!《玉蝴蝶》唱響時,王菲陶醉起舞,太甜了

叨嘮
2025-04-26 02:45:58
1-0大冷門,90分鐘絕殺,英冠第22掀翻英冠第6,蘭帕德率隊2連敗

1-0大冷門,90分鐘絕殺,英冠第22掀翻英冠第6,蘭帕德率隊2連敗

側身凌空斬
2025-04-26 21:39:34
北京房價:泡沫與走勢分析

北京房價:泡沫與走勢分析

流蘇晚晴
2025-04-26 21:36:36
殺人誅心!大S離世后,小玥兒的第一個生日現場曝光,網友集體破防了

殺人誅心!大S離世后,小玥兒的第一個生日現場曝光,網友集體破防了

瞎說娛樂
2025-04-26 10:55:49
大比分2-1!塔圖姆空砍36+9,黑馬雙星合砍61分,凱爾特人遭逆轉

大比分2-1!塔圖姆空砍36+9,黑馬雙星合砍61分,凱爾特人遭逆轉

老梁體育漫談
2025-04-26 10:06:15
突降6℃!湖北接下來大反轉

突降6℃!湖北接下來大反轉

魯中晨報
2025-04-26 11:20:10
2025-04-27 05:28:49
學術頭條
學術頭條
致力于學術傳播和科學普及,重點關注人工智能、生命科學等前沿科學進展。
1247文章數 5069關注度
往期回顧 全部

科技要聞

百度心響實測:“能用版Manus”開了個好頭

頭條要聞

特朗普將舉行集會慶祝執政100天 美媒:時機不妙

頭條要聞

特朗普將舉行集會慶祝執政100天 美媒:時機不妙

體育要聞

廣廈19分勝遼寧獲開門紅 孫銘徽13分3助崴腳

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

本地
數碼
手機
公開課
軍事航空

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

數碼要聞

AMD修補高危安全漏洞!歷代Zen架構CPU 100%中招

手機要聞

vivo大折疊屏新機曝光,三季度登場

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

白宮爭吵后特朗普與澤連斯基"首度"碰面

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 乐至县| 宁都县| 重庆市| 金堂县| 加查县| 渭源县| 通化市| 呼玛县| 文登市| 建瓯市| 吉水县| 东台市| 黄龙县| 贵州省| 祁阳县| 灵宝市| 天津市| 英吉沙县| 延边| 尉犁县| 阿瓦提县| 淳化县| 惠来县| 株洲县| 闵行区| 内丘县| 金沙县| 东至县| 大兴区| 大渡口区| 博兴县| 高碑店市| 昂仁县| 合肥市| 西吉县| 鄂州市| 清原| 惠来县| 曲麻莱县| 龙川县| 宜兰县|