99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

超越Transformers!谷歌發布「深度學習架構設計」通用框架Miras|今日熱門論文

0
分享至


速覽熱門論文

1. 超越Transformers,谷歌發布「深度學習架構設計」通用框架 Miras

2. 獎勵,就是工具學習所需要的一切

3. 浙大、vivo 團隊:借助人類演示增強移動 GUI Agent

4. 思維操縱:外部 CoT 可加速大模型推理

1. 超越 Transformers,谷歌發布「深度學習架構設計」通用框架 Miras

設計高效和有效的架構骨干,一直是增強基礎模型能力的核心研究方向。受注意力偏差這一人類認知現象的啟發——優先考慮某些事件或刺激的自然傾向—— Google Research 團隊將神經架構(包括 Transformers、Titans 和現代線性遞歸神經網絡)重新概念化為關聯記憶模塊,通過內部目標(即注意力偏差)學習鍵值映射。

令人驚訝的是,他們發現,大多數現有序列模型都利用點積相似性或 L2 回歸目標作為其注意力偏差。他們還提出了一系列可供選擇的注意力偏差配置及其高效的近似方式,以穩定訓練過程并提升模型表現。然后,他們將現代深度學習架構中的遺忘機制重新解釋為保留正則化的一種形式,為序列模型提供了一套新的遺忘門。

基于這些見解,他們提出了一個深度學習架構設計通用框架 Miras,基于以下 4 種選擇:(1)聯想記憶架構;(2)注意力偏差目標;(3)保持門;(4)記憶學習算法。他們進一步提出了三種新穎的序列模型——Moneta、Yaad 和 Memora,它們不僅超越了現有線性 RNN 的性能,同時也保持了訓練過程的高效并行性。


實驗表明,Miras 的不同設計選擇會產生不同強度的模型。例如,Miras 的某些實例在語言建模、常識推理和需要高密度信息召回的任務中展現出了優異的性能,甚至超過了 Transformers 和其他現代線性循環模型。

論文鏈接:https://arxiv.org/abs/2504.13173

2. 獎勵,就是工具學習所需要的一切

當前的大語言模型(LLM)通常通過監督微調(SFT)來獲得工具使用能力。然而,SFT 在面對陌生或復雜的工具使用場景時,往往難以實現良好的泛化。近年來,強化學習(RL)取得了進展,尤其是類似 R1 的模型,已經展現出良好的推理能力和泛化能力。但在工具使用任務中,獎勵設計仍面臨諸多挑戰:一方面,工具種類繁多,調用時參數各異;另一方面,粗粒度的獎勵信號難以提供有效學習所需的細粒度反饋。

在這項工作中,伊利諾伊大學香檳分校團隊首次在 RL 范式中對工具選擇和應用任務的獎勵設計進行了全面研究。他們系統地探索了各種獎勵策略,分析了它們的類型、規模、粒度和時間動態。基于這些見解,他們提出了針對工具使用任務的原則性獎勵設計,并將其應用于使用群體相對策略優化(GRPO)訓練 LLM。

對不同基準的實證評估表明,這一方法能夠產生魯棒、可擴展和穩定的訓練效果,相較基礎模型性能提升了 17%,相較 SFT 模型提升了 15%。這些結果凸顯了合理的獎勵設計在提高 LLM 的工具使用能力和泛化性能方面的關鍵作用。

論文鏈接:https://arxiv.org/abs/2504.13958

3. 浙大、vivo 團隊:借助人類演示增強移動 GUI Agent

移動 GUI Agent 在自動執行任務方面展現出巨大潛力,但在應對現實世界中多樣化的場景時,仍面臨通用性不足的挑戰。傳統方法往往依賴預訓練模型或大規模數據集進行微調,然而在面對多樣化的移動應用和用戶特定任務時,往往難以奏效。

來自浙江大學和 vivo 的研究團隊提出了一種新思路:通過引入人類演示來增強移動 GUI Agent 的能力,重點在于提升其在未見場景中的表現,而非一味依賴更大規模的數據集來追求泛化能力。為了實現這一范式,他們提出了 LearnGUI,這是第一個專門用于研究移動 GUI Agent 中 基于演示的學習的綜合數據集,包括 2252 個離線任務和 101 個帶有高質量人類演示的在線任務。他們進一步開發了多 agent 框架 LearnAct,其能夠自動從演示中提取知識,從而提高任務完成度,集成了三個專業 agent:用于知識提取的 DemoParser、用于相關知識檢索的 KnowSeeker 和用于演示增強任務執行的 ActExecutor。


實驗結果表明,在離線和在線評估中,模型性能都有顯著提高。在離線評估中,一次演示就能提高模型性能,將 Gemini-1.5-Pro 的準確率從 19.3% 提高到 51.7%。在在線評估中,這一框架將 UI-TARS-7B-SFT 的任務成功率從 18.1% 提高到 32.8%。LearnAct 框架和 LearnGUI 基準確立了以演示為基礎的學習方法,這是使移動 GUI Agent 更具適應性、個性化和可部署性的一個有前途的方向。

論文鏈接:https://arxiv.org/abs/2504.13805

4. 思維操縱:外部 CoT 可加速大模型推理

擴展測試時計算可以有效增強大型推理模型(LRM)在多種任務中的推理能力。然而,LRM 通常存在“過度思考”問題,即模型會產生大量冗余推理步驟,但帶來的性能提升卻十分有限。現有的工作依賴于微調來緩解過度思考,但這不僅需要額外數據和非常規訓練流程,還可能帶來安全風險和較差的泛化能力。

通過實證分析,來自香港科技大學和螞蟻集團的研究團隊揭示了 LRM 行為的一個重要特征,即在思考 token 之間插入由較小模型生成的外部思維鏈(CoT),可以有效地操縱模型產生更少的思維。基于這些見解,他們提出了一個簡單而高效的管道——ThoughtMani,使 LRM 能夠繞過冗余的中間步驟,降低計算成本。

他們在多個任務上進行了大量實驗,驗證了 ThoughtMani 的實用性與高效性。例如,當應用于 LiveBench/Code 數據集上的 QwQ-32B 時,ThoughtMani 保持了原有性能,并將輸出 token 數減少了約 30%,而 CoT 生成器的開銷卻很小。此外,他們還發現 ThoughtMani 平均提高了 10% 的安全對齊度。

由于模型供應商通常會同時提供不同大小的模型,ThoughtMani 為構建更高效、可訪問性更強的 LRM 系統提供了現實可行的解決方案。

論文鏈接:https://arxiv.org/abs/2504.13626

整理:學術君

如需轉載或投稿,請直接在公眾號內留言

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
專打國家元首的金牛座導彈抵烏!紅場勝利日閱兵式需要掂量了

專打國家元首的金牛座導彈抵烏!紅場勝利日閱兵式需要掂量了

大風文字
2025-04-25 18:56:10
又美又颯!吳艷妮13米00奪第七:戰斗天使真美,挑戰世界頂尖選手

又美又颯!吳艷妮13米00奪第七:戰斗天使真美,挑戰世界頂尖選手

李喜林籃球絕殺
2025-04-26 21:09:17
調度中心不雅畫面人員被停職調查,知情者披露兩人疑似身份內情

調度中心不雅畫面人員被停職調查,知情者披露兩人疑似身份內情

Likepres
2025-04-25 22:29:07
儲戶慌嗎?存款方面迎來4個方面的調整,已存的人咋辦?

儲戶慌嗎?存款方面迎來4個方面的調整,已存的人咋辦?

話史官1
2025-04-26 15:03:19
深圳殉情男子遺書稱想與妻子合葬 岳母:連女兒的牙刷他都不舍得丟 想不到他深情到這個地步

深圳殉情男子遺書稱想與妻子合葬 岳母:連女兒的牙刷他都不舍得丟 想不到他深情到這個地步

閃電新聞
2025-04-26 10:42:31
小米YU9曝光,雷軍讓3億中產沸騰了

小米YU9曝光,雷軍讓3億中產沸騰了

互聯網品牌官
2025-04-24 16:06:32
喬-科爾:希望穆里尼奧回英超,想在三、四年內奪冠找他就對了

喬-科爾:希望穆里尼奧回英超,想在三、四年內奪冠找他就對了

直播吧
2025-04-26 21:55:12
2025年一季度出口值30強城市:蘇州、寧波環比大增,鄭州漲勢喜人

2025年一季度出口值30強城市:蘇州、寧波環比大增,鄭州漲勢喜人

Data居士
2025-04-26 10:59:59
美麗的新娘

美麗的新娘

動物奇奇怪怪
2025-04-27 00:35:07
69年九大名單出爐,毛主席發怒:怎么沒他?此人痛哭:主席記得我

69年九大名單出爐,毛主席發怒:怎么沒他?此人痛哭:主席記得我

可樂88
2024-04-26 09:14:34
不滿裁判吹罰?崔康熙:大家都是足球人 有些問題我沒法直說

不滿裁判吹罰?崔康熙:大家都是足球人 有些問題我沒法直說

球事百科吖
2025-04-27 04:40:14
航母才是最大的捕魚船?遼寧艦每次帶回數十噸海鮮,全部銷毀!

航母才是最大的捕魚船?遼寧艦每次帶回數十噸海鮮,全部銷毀!

百態人間
2025-04-22 16:26:25
中年女人有意讓你“拿下”,會有一個表現:兩個字

中年女人有意讓你“拿下”,會有一個表現:兩個字

蓮子說情感
2025-01-11 10:26:07
王勵勤遇當頭一棒!國乒大潰敗,單打16人參賽15人出局;日本強勢

王勵勤遇當頭一棒!國乒大潰敗,單打16人參賽15人出局;日本強勢

莼侃體育
2025-04-26 08:27:26
王菲現身謝霆鋒演唱會!《玉蝴蝶》唱響時,王菲陶醉起舞,太甜了

王菲現身謝霆鋒演唱會!《玉蝴蝶》唱響時,王菲陶醉起舞,太甜了

叨嘮
2025-04-26 02:45:58
1-0大冷門,90分鐘絕殺,英冠第22掀翻英冠第6,蘭帕德率隊2連敗

1-0大冷門,90分鐘絕殺,英冠第22掀翻英冠第6,蘭帕德率隊2連敗

側身凌空斬
2025-04-26 21:39:34
北京房價:泡沫與走勢分析

北京房價:泡沫與走勢分析

流蘇晚晴
2025-04-26 21:36:36
殺人誅心!大S離世后,小玥兒的第一個生日現場曝光,網友集體破防了

殺人誅心!大S離世后,小玥兒的第一個生日現場曝光,網友集體破防了

瞎說娛樂
2025-04-26 10:55:49
大比分2-1!塔圖姆空砍36+9,黑馬雙星合砍61分,凱爾特人遭逆轉

大比分2-1!塔圖姆空砍36+9,黑馬雙星合砍61分,凱爾特人遭逆轉

老梁體育漫談
2025-04-26 10:06:15
突降6℃!湖北接下來大反轉

突降6℃!湖北接下來大反轉

魯中晨報
2025-04-26 11:20:10
2025-04-27 05:28:49
學術頭條
學術頭條
致力于學術傳播和科學普及,重點關注人工智能、生命科學等前沿科學進展。
1247文章數 5069關注度
往期回顧 全部

科技要聞

百度心響實測:“能用版Manus”開了個好頭

頭條要聞

特朗普將舉行集會慶祝執政100天 美媒:時機不妙

頭條要聞

特朗普將舉行集會慶祝執政100天 美媒:時機不妙

體育要聞

廣廈19分勝遼寧獲開門紅 孫銘徽13分3助崴腳

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

家居
教育
藝術
游戲
旅游

家居要聞

清徐現代 有溫度有態度

教育要聞

你說說看,你做做這樣也可以嗎?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

夢幻西游:出了雙固傷玉魄卻難過,口袋版成刷80級環裝首選

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 神木县| 子长县| 临漳县| 交城县| 南康市| 利川市| 叶城县| 呼和浩特市| 澄迈县| 清远市| 阿合奇县| 轮台县| 米脂县| 习水县| 方城县| 合阳县| 绥化市| 磐石市| 酉阳| 华池县| 雅江县| 内乡县| 盘锦市| 赤城县| 平罗县| 田林县| 色达县| 普陀区| 沙湾县| 耒阳市| 右玉县| 迭部县| 荣成市| 阳泉市| 丽江市| 大丰市| 甘肃省| 平舆县| 元朗区| 竹山县| 龙胜|