網易首頁 > 網易號 > 正文申請入駐

周伯文坐鎮！清華、上海AI Lab團隊提出“測試時強化學習”；首個LLM agent權限控制機制｜今日熱門論文

2025-04-23 20:45:18　來源: 學術頭條

北京舉報

分享至

速覽熱門論文

1. 周伯文坐鎮！清華、上海AI Lab團隊提出“測試時強化學習”

2. 復旦團隊推出多 agent 社會構建系統 BookWorld

3. 字節團隊提出并行隱藏解碼 Transformer

4. Progent：首個 LLM agent 權限控制機制

5. UC 伯克利團隊推出 AI 推理框架 APR

1. 周伯文坐鎮！清華、上海AI Lab團隊提出“測試時強化學習”

在這項工作中，清華大學教授、上海 AI Lab 實驗室主任兼首席科學家周伯文團隊，針對大語言模型（LLM）中的推理任務，研究了無明確標簽的強化學習（RL）。該問題的核心挑戰是在推理過程中，在無法獲得 ground-truth 信息的情況下進行獎勵估算。雖然這種設置似乎難以實現，但我們發現，測試時擴展（TTS）中的常見做法（如多數投票）能夠產生適合用于推動 RL 訓練的有效獎勵。

為此，他們提出了一種在無 token 數據上使用 RL 訓練 LLM 的新方法——測試時強化學習（TTRL），其利用預訓練模型中的先驗，實現了 LLM 的自我進化。

實驗證明，TTRL 可以持續提高各種任務和模型的性能。值得注意的是，TTRL 將 Qwen-2.5-Math-7B 在 AIME 2024（僅使用未標記測試數據）上的 pass@1 性能提高了約 159%。此外，盡管 TTRL 只受 Maj@N 指標的監督，但表現出的性能一直超過初始模型的上限，并接近直接在帶有 ground-truth 標簽的測試數據上訓練的模型的性能。實驗結果驗證了 TTRL 在各種任務中的普遍有效性，并凸顯了 TTRL 在更廣泛的任務和領域中的潛力。

論文鏈接：https://arxiv.org/abs/2504.16084

2. 復旦團隊推出多 agent 社會構建系統 BookWorld

大語言模型（LLM）的通用能力，使得通過多 agent 系統進行社會模擬成為可能。之前的研究主要集中在從零開始創建的 agent 社會，為 agent 分配新定義的角色。然而，盡管模擬已有的虛構世界和角色具有重要的實用價值，但在很大程度上仍未得到充分探索。

在這項工作中，復旦陽德青副教授團隊推出了一個用于構建和模擬基于書籍的多 agent 社會的綜合系統——BookWorld，其涵蓋了現實世界中的各種復雜情況，包括多樣化的動態角色、虛構的世界觀、地理限制和變化等，可以實現故事生成、互動游戲和社會模擬等多種應用，為擴展和探索虛構作品提供了新的途徑。

大量實驗證明，BookWorld 在保持忠實于原書籍的同時，還能生成富有創意的高質量故事，其勝率高達 75.36%，超過了以往方法。

論文鏈接：https://arxiv.org/abs/2504.14538

3. 字節團隊提出并行隱藏解碼 Transformer

大語言模型（LLM）的近期進展證明了（輸入序列）長度 scaling 在后訓練中的有效性，但其在預訓練中的潛力仍未得到充分挖掘。

在這項工作中，字節跳動團隊提出了并行隱藏解碼 Transformer（PHD-Transformer）框架，其可以在保持推理效率的同時，在預訓練期間實現高效的長度 scaling。PHD-Transformer 通過 KV 緩存管理策略實現了這一目標，該策略可以區分原始 token 和隱藏解碼 token。這一方法只保留原始 token 的 KV 緩存，用于長程依賴關系，同時在使用后立即丟棄隱藏的解碼 token，從而保持了與 vanilla Transformer 相同的 KV 緩存大小，同時實現了有效的長度 scaling。

為了進一步提高性能，他們提出了兩個優化變體：PHD-SWA 采用滑動窗口注意力來保留局部依賴性，而 PHD-CSWA 則采用分塊滑動窗口注意力來消除預填充時間的線性增長。實驗證明，在多個基準測試中，PHD-Transformer 都取得了一致的改進。

論文鏈接：https://arxiv.org/abs/2504.14992

4. Progent：首個 LLM agent 權限控制機制

基于大語言模型（LLM）的智能體（agent）可能帶來巨大的安全風險。在與外部世界交互時，它們可能會遇到攻擊者的惡意命令，從而導致執行危險的操作。解決這一問題的一個可行方法是執行最小特權原則：只允許完成任務所必需的操作，同時阻止不必要的操作。然而，要做到這一點是很有挑戰性的，因為這需要在保證安全性和實用性的同時，覆蓋不同的 agent 場景。

在這項工作中，加州大學伯克利分校 Dawn Song（宋曉冬）教授團隊提出了第一個用于 LLM agent 的權限控制機制——Progent，其核心是一種特定于領域的語言，用于靈活表達在 agent 執行過程中應用的權限控制策略。這些策略提供了對工具調用的細粒度約束，決定何時允許工具調用，并在不允許工具調用時指定退出路徑。這樣，agent 開發人員和用戶就能針對其特定用例制定合適的策略，并確定性地執行這些策略以保證安全性。得益于其模塊化設計，集成 Progent 不會改變 agent 的內部結構，只需對 agent 的實現進行小的改動，從而增強了其實用性和廣泛采用的潛力。為了實現策略編寫的自動化，他們利用 LLM 根據用戶查詢生成策略，然后對策略進行動態更新，以提高安全性和實用性。

廣泛的評估表明，在 AgentDojo、ASB 和 AgentPoison 這 3 個不同的場景或基準中，Progent 既能實現強大的安全性，又能保持較高的實用性。此外，他們還進行了深入分析，展示了其核心組件的有效性以及自動策略生成對自適應攻擊的抵御能力。

論文鏈接：https://arxiv.org/abs/2504.11703

5. UC 伯克利團隊推出 AI 推理框架 APR

推理時計算的擴展大大提高了語言模型的推理能力。然而，現有方法有很大的局限性：序列化的思維鏈方法會產生過長的輸出，導致延遲增加和上下文窗口耗盡，而并行方法（如自一致性）則存在協調不足的問題，導致冗余計算和有限的性能提升。

為了解決這些不足，加州大學伯克利團隊推出了一個新的推理框架——自適應并行推理（Adaptive Parallel Reasoning，APR），其可以使語言模型端到端協調串行和并行計算。APR 通過使用 spawn() 和 join() 操作實現自適應多線程推理，從而推廣了現有的推理方法。一個關鍵的創新是端到端強化學習策略，通過優化父線程和子線程來提高任務成功率，而無需預定義的推理結構。

倒計時（Countdown）推理任務實驗證明了 APR 的顯著優勢：（1）在相同上下文窗口內具有更高的性能（4k 上下文時為 83.4% vs. 60.0%）；（2）隨著計算量的增加，具有更出色的可擴展性（20k token 時為 80.1% vs. 66.6%）；（3）在同等延遲條件下提高了準確性（約 5000ms 時為 75.2% vs. 57.3%）。

他們認為，APR 標志著語言模型朝著通過自適應計算分配自主優化推理過程的方向邁出了一步。

論文鏈接：https://arxiv.org/abs/2504.15466

整理：學術君

如需轉載或投稿，請直接在公眾號內留言

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.