速覽熱門論文
1. 超越Transformers,谷歌發布「深度學習架構設計」通用框架 Miras
2. 獎勵,就是工具學習所需要的一切
3. 浙大、vivo 團隊:借助人類演示增強移動 GUI Agent
4. 思維操縱:外部 CoT 可加速大模型推理
1. 超越 Transformers,谷歌發布「深度學習架構設計」通用框架 Miras
設計高效和有效的架構骨干,一直是增強基礎模型能力的核心研究方向。受注意力偏差這一人類認知現象的啟發——優先考慮某些事件或刺激的自然傾向—— Google Research 團隊將神經架構(包括 Transformers、Titans 和現代線性遞歸神經網絡)重新概念化為關聯記憶模塊,通過內部目標(即注意力偏差)學習鍵值映射。
令人驚訝的是,他們發現,大多數現有序列模型都利用點積相似性或 L2 回歸目標作為其注意力偏差。他們還提出了一系列可供選擇的注意力偏差配置及其高效的近似方式,以穩定訓練過程并提升模型表現。然后,他們將現代深度學習架構中的遺忘機制重新解釋為保留正則化的一種形式,為序列模型提供了一套新的遺忘門。
基于這些見解,他們提出了一個深度學習架構設計通用框架 Miras,基于以下 4 種選擇:(1)聯想記憶架構;(2)注意力偏差目標;(3)保持門;(4)記憶學習算法。他們進一步提出了三種新穎的序列模型——Moneta、Yaad 和 Memora,它們不僅超越了現有線性 RNN 的性能,同時也保持了訓練過程的高效并行性。
實驗表明,Miras 的不同設計選擇會產生不同強度的模型。例如,Miras 的某些實例在語言建模、常識推理和需要高密度信息召回的任務中展現出了優異的性能,甚至超過了 Transformers 和其他現代線性循環模型。
論文鏈接:https://arxiv.org/abs/2504.13173
2. 獎勵,就是工具學習所需要的一切
當前的大語言模型(LLM)通常通過監督微調(SFT)來獲得工具使用能力。然而,SFT 在面對陌生或復雜的工具使用場景時,往往難以實現良好的泛化。近年來,強化學習(RL)取得了進展,尤其是類似 R1 的模型,已經展現出良好的推理能力和泛化能力。但在工具使用任務中,獎勵設計仍面臨諸多挑戰:一方面,工具種類繁多,調用時參數各異;另一方面,粗粒度的獎勵信號難以提供有效學習所需的細粒度反饋。
在這項工作中,伊利諾伊大學香檳分校團隊首次在 RL 范式中對工具選擇和應用任務的獎勵設計進行了全面研究。他們系統地探索了各種獎勵策略,分析了它們的類型、規模、粒度和時間動態。基于這些見解,他們提出了針對工具使用任務的原則性獎勵設計,并將其應用于使用群體相對策略優化(GRPO)訓練 LLM。
對不同基準的實證評估表明,這一方法能夠產生魯棒、可擴展和穩定的訓練效果,相較基礎模型性能提升了 17%,相較 SFT 模型提升了 15%。這些結果凸顯了合理的獎勵設計在提高 LLM 的工具使用能力和泛化性能方面的關鍵作用。
論文鏈接:https://arxiv.org/abs/2504.13958
3. 浙大、vivo 團隊:借助人類演示增強移動 GUI Agent
移動 GUI Agent 在自動執行任務方面展現出巨大潛力,但在應對現實世界中多樣化的場景時,仍面臨通用性不足的挑戰。傳統方法往往依賴預訓練模型或大規模數據集進行微調,然而在面對多樣化的移動應用和用戶特定任務時,往往難以奏效。
來自浙江大學和 vivo 的研究團隊提出了一種新思路:通過引入人類演示來增強移動 GUI Agent 的能力,重點在于提升其在未見場景中的表現,而非一味依賴更大規模的數據集來追求泛化能力。為了實現這一范式,他們提出了 LearnGUI,這是第一個專門用于研究移動 GUI Agent 中 基于演示的學習的綜合數據集,包括 2252 個離線任務和 101 個帶有高質量人類演示的在線任務。他們進一步開發了多 agent 框架 LearnAct,其能夠自動從演示中提取知識,從而提高任務完成度,集成了三個專業 agent:用于知識提取的 DemoParser、用于相關知識檢索的 KnowSeeker 和用于演示增強任務執行的 ActExecutor。
實驗結果表明,在離線和在線評估中,模型性能都有顯著提高。在離線評估中,一次演示就能提高模型性能,將 Gemini-1.5-Pro 的準確率從 19.3% 提高到 51.7%。在在線評估中,這一框架將 UI-TARS-7B-SFT 的任務成功率從 18.1% 提高到 32.8%。LearnAct 框架和 LearnGUI 基準確立了以演示為基礎的學習方法,這是使移動 GUI Agent 更具適應性、個性化和可部署性的一個有前途的方向。
論文鏈接:https://arxiv.org/abs/2504.13805
4. 思維操縱:外部 CoT 可加速大模型推理
擴展測試時計算可以有效增強大型推理模型(LRM)在多種任務中的推理能力。然而,LRM 通常存在“過度思考”問題,即模型會產生大量冗余推理步驟,但帶來的性能提升卻十分有限。現有的工作依賴于微調來緩解過度思考,但這不僅需要額外數據和非常規訓練流程,還可能帶來安全風險和較差的泛化能力。
通過實證分析,來自香港科技大學和螞蟻集團的研究團隊揭示了 LRM 行為的一個重要特征,即在思考 token 之間插入由較小模型生成的外部思維鏈(CoT),可以有效地操縱模型產生更少的思維。基于這些見解,他們提出了一個簡單而高效的管道——ThoughtMani,使 LRM 能夠繞過冗余的中間步驟,降低計算成本。
他們在多個任務上進行了大量實驗,驗證了 ThoughtMani 的實用性與高效性。例如,當應用于 LiveBench/Code 數據集上的 QwQ-32B 時,ThoughtMani 保持了原有性能,并將輸出 token 數減少了約 30%,而 CoT 生成器的開銷卻很小。此外,他們還發現 ThoughtMani 平均提高了 10% 的安全對齊度。
由于模型供應商通常會同時提供不同大小的模型,ThoughtMani 為構建更高效、可訪問性更強的 LRM 系統提供了現實可行的解決方案。
論文鏈接:https://arxiv.org/abs/2504.13626
整理:學術君
如需轉載或投稿,請直接在公眾號內留言
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.