99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

清華黃高團隊:強化學習無法誘發新的推理能力?|今日熱門論文

0
分享至


速覽熱門論文

1. 清華黃高團隊:強化學習無法誘發新的推理能力

2. NodeRAG:利用異構節點構建基于圖形的 RAG

3. 睡眠時計算:有效降低測試時計算要求

4. Meta 提出“感知編碼器”,圖像視頻理解 SOTA

5. 不要蒸餾!CMU 團隊提出「反蒸餾采樣」

6. WORLDMEM:利用記憶庫增強世界模擬

7. 利用「專家失敗」提高 agent 微調性能

1. 清華黃高團隊:強化學習無法誘發新的推理能力

研究表明,基于可驗證獎勵的強化學習(RLVR)有望提升大語言模型(LLM)在數學與編程任務中的推理能力。普遍觀點認為,RLVR 能夠推動模型持續自我優化,從而習得超出其基礎模型能力的新型推理能力。

然而,清華大學自動化系黃高副教授團隊對此提出了重新審視。他們通過在更大 k 值下測量 pass@k 指標,對該假設進行了系統評估,旨在探究不同模型系列與基準下的推理能力上限。

令人意外的是,RLVR 并未顯著引入全新的推理模式。雖然在較小的 k 值(如 k=1)下,RL 訓練模型在性能上優于其基礎模型,但在更高的 k 值下,基礎模型卻能取得與 RL 模型相當甚至更優的 pass@k 分數。此外,RL 模型生成的大多數推理路徑實際上已包含在基礎模型的采樣分布中,這表明 RL 模型的推理表現主要源自對基礎模型能力的重加權,而非學習到新的能力。

進一步分析顯示,RL 訓練通過調整模型的輸出分布,使其更傾向于采樣能獲得獎勵的路徑,從而提升生成正確答案的概率。這一機制在提高效率的同時,也導致模型在推理空間中的覆蓋范圍變窄。相似現象亦在 RLVR 訓練的視覺推理任務中得以觀察。

此外,研究還指出,相較于 RLVR,“知識蒸餾”(distillation)更有可能真正向模型注入新的知識,從而拓展其推理能力邊界。


這些發現凸顯了 RLVR 在提升 LLM 推理能力方面的局限性,促使我們必須從更根本的層面重新審視強化學習在推理能力塑造中的作用,并思考是否亟需更優的訓練范式。

論文鏈接:https://arxiv.org/abs/2504.13837

2. NodeRAG:利用異構節點構建基于圖形的 RAG

檢索增強生成(RAG)使大語言模型(LLM)能夠訪問外部和私人語料庫,從而在特定領域做出與事實一致的響應。通過利用語料庫的固有結構,基于圖的 RAG 方法通過建立知識圖索引和利用圖的結構特性,進一步豐富了這一過程。然而,目前基于圖的 RAG 方法很少優先考慮圖結構的設計。設計不當的圖不僅會阻礙各種圖算法的集成,還會導致工作流程不一致和性能下降。

為了進一步釋放圖在 RAG 中的潛力,來自哥倫比亞大學、賓夕法尼亞大學和里海大學的研究團隊提出了 NodeRAG,這是一個以圖為中心的框架,引入了異構圖結構,可以將基于圖的方法無縫、整體地集成到 RAG 工作流中。通過與 LLM 的能力緊密結合,該框架可確保端到端流程的充分內聚和高效。

實驗證明,NodeRAG 與 GraphRAG 和 LightRAG 等以前的方法相比,不僅在索引時間、查詢時間和存儲效率方面具有性能優勢,而且在多跳基準和使用最少檢索 token 的開放式頭對頭評估中提供了更強的問題解答性能。


論文鏈接:https://arxiv.org/abs/2504.11544

3. 睡眠時計算:有效降低測試時計算要求

擴展測試時計算已成為大語言模型(LLM)解決棘手問題的關鍵要素,但同時也帶來了高延遲和高推理成本。

在這項工作中,來自 Letta 和加州大學伯克利分校的研究團隊提出了睡眠時計算(sleep-time compute),它允許模型在提出查詢之前離線“思考”上下文:通過預測用戶可能提出的查詢并預先計算有用的數量,有效降低測試時的計算要求。


為了證明這一法的有效性,他們創建了兩個推理任務的修改版本——Stateful GSM-Symbolic 和 Stateful AIME。他們發現,在這兩個任務上,睡眠時計算可以將達到相同準確度所需的測試時計算量減少約 5 倍;通過調整睡眠時計算的規模,他們可以進一步提高這個兩個任務的準確度,分別提高 13% 和 18%。

他們還提出了 Multi-Query GSM-Symbolic,通過在每個上下文中包含多個相關查詢來擴展 GSM-Symbolic。通過使用 Multi-Query GSM-Symbolic,在同一上下文的相關查詢中分攤睡眠時計算,他們可以將每次查詢的平均成本降低 2.5 倍。

此外,他們還進行了其他分析,以了解睡眠時計算何時更有效,結果發現用戶查詢的可預測性與睡眠時計算的有效性密切相關。最后,他們進行了一項案例研究,將睡眠時計算應用到現實的代理 SWE 任務中。

論文鏈接:https://arxiv.org/abs/2504.13171

4. Meta 提出“感知編碼器”,圖像視頻理解 SOTA

在這項工作中,Meta 團隊提出了感知編碼器(PE),這是一種通過簡單的視覺語言學習訓練出來的 SOTA 圖像和視頻理解編碼器。


傳統上,視覺編碼器依賴于各種預訓練目標,每個目標都是為特定的下游任務(如分類、字幕或定位)定制的。令人驚訝的是,在擴大精心調整的圖像預訓練方案并使用視頻數據引擎進行改進后,他們發現,僅憑視覺語言對比訓練就能為所有這些下游任務生成強大、通用的嵌入。唯一需要注意的是:這些嵌入都隱藏在網絡的中間層中。為了將它們提取出來,他們提出了兩種對齊方法,一種是用于多模態語言建模的語言對齊,另一種是用于密集預測的空間對齊。

連同核心對比檢查點,PE 模型系列在各種任務中都取得了 SOTA,包括零樣本圖像和視頻分類與檢索;文檔、圖像和視頻問答;以及檢測、深度估計和跟蹤等空間任務。

論文鏈接:https://arxiv.org/abs/2504.13181

5. 不要蒸餾!CMU 團隊提出「反蒸餾采樣」

模型在生成擴展推理軌跡的同時,會無意中產生豐富的 token 序列,從而促進模型的蒸餾。認識到這一點后,模型所有者可能會尋求既能限制提煉效果又不影響模型性能的采樣策略。

在這項工作中,卡內基梅隆大學團隊提出了“反蒸餾采樣”(Antidistillation Sampling),通過策略性地修改模型的下一個 token 概率分布,這一方法可以毒化推理軌跡,使其蒸餾效果降低,同時保留模型的實用性。


論文鏈接:https://arxiv.org/abs/2504.13146

6. WORLDMEM:利用記憶庫增強世界模擬

世界模擬因其能夠模擬虛擬環境和預測行動后果而越來越受歡迎。然而,有限的時間上下文窗口往往導致無法保持長期一致性,特別是在保持三維空間一致性方面。

在這項工作中,南洋理工大學 S-Lab 團隊提出了 WorldMem,這是一個利用由存儲記憶幀和狀態(如姿勢和時間戳)的記憶單元組成的記憶庫來增強場景生成的框架。這一方法采用了一種記憶注意力機制,可以根據記憶幀的狀態有效提取其中的相關信息,因此即使在視角或時間存在明顯偏差的情況下,也能準確重建之前觀察到的場景。


此外,通過在狀態中加入時間戳,這一框架不僅能模擬靜態世界,還能捕捉其隨時間的動態演變,從而在模擬世界中實現感知和互動。在虛擬和真實場景中進行的實驗,驗證了這一方法的有效性。

論文鏈接:https://arxiv.org/abs/2504.12369

7. 利用「專家失敗」提高 agent 微調性能

大語言模型(LLM)已顯示出作為 agent 的巨大潛力,在需要多輪推理和互動的任務中表現出色。拒絕采樣微調(RFT)已成為將 LLM 微調為 agent 的有效方法:它首先模仿專家生成的成功軌跡,然后通過對成功的、自我生成的軌跡進行迭代微調,進一步提高 agent 技能。然而,由于專家(如 GPT-4)主要在較簡單的子任務上取得成功,而 RFT 本身偏向于較簡單的場景,因此許多復雜的子任務仍未解決,長期處于分布外(OOD)狀態。

在研究這些具有挑戰性的子任務時,來自加州大學洛杉磯分校的研究團隊及其合作者發現,之前失敗的專家軌跡往往能提供有價值的指導,例如計劃和關鍵行動,從而顯著提高 agent 的探索效率并獲得關鍵技能。受這些觀察結果的啟發,他們提出了“探索專家失敗”(EEF),它能從失敗的專家軌跡中識別出有益的行動,并將其整合到訓練數據集中。潛在的有害行為會被仔細排除,以防止模型學習過程受到污染。通過利用專家失敗中的有利行動,EEF 成功解決了一些以前無法解決的子任務,并提高了 agent 微調性能。

值得注意的是,這一方法在 WebShop 中的勝率達到了 62%,超過了 RFT(53. 6%)和 GPT-4(35.6%)。

論文鏈接:https://arxiv.org/abs/2504.13145

整理:學術君

如需轉載或投稿,請直接在公眾號內留言

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
11大名嘴齊夸洋哨,兩外籍裁判教遼籃三人重新做人,別再丟人了

11大名嘴齊夸洋哨,兩外籍裁判教遼籃三人重新做人,別再丟人了

南海浪花
2025-04-27 07:09:33
印軍航母出動,大批殲10C備戰,印度突然點名東大!

印軍航母出動,大批殲10C備戰,印度突然點名東大!

星辰故事屋
2025-04-26 14:01:44
4-1!C羅一戰2大紀錄,7700萬神鋒洗刷質疑,勝利挺進四強

4-1!C羅一戰2大紀錄,7700萬神鋒洗刷質疑,勝利挺進四強

我的護球最獨特
2025-04-27 05:28:50
百萬網紅偷吃女優宣布離婚!偕妻直播結束3年婚:我的錯

百萬網紅偷吃女優宣布離婚!偕妻直播結束3年婚:我的錯

葫蘆哥愛吐槽
2025-04-26 12:14:31
侃爺展示PS5游戲室引吐槽:桌子都沒有 這也太寒酸了!

侃爺展示PS5游戲室引吐槽:桌子都沒有 這也太寒酸了!

游民星空
2025-04-26 21:04:14
日本自衛隊指揮官目瞪口呆!

日本自衛隊指揮官目瞪口呆!

安安說
2025-04-25 11:26:07
大反撲!快船一度落后9分:火爆沖突6人吃技犯,哈登6分7助攻

大反撲!快船一度落后9分:火爆沖突6人吃技犯,哈登6分7助攻

體壇小李
2025-04-27 07:24:49
變陣,Shams:巴特勒因傷缺席G3,庫明加和波斯特將首發出戰

變陣,Shams:巴特勒因傷缺席G3,庫明加和波斯特將首發出戰

懂球帝
2025-04-27 07:51:25
金庸父親被槍決的前前后后

金庸父親被槍決的前前后后

霹靂炮
2025-04-22 23:22:28
約基奇36+21+8,掘金絕殺快船!賽后還有3個好消息,有望3-2領先

約基奇36+21+8,掘金絕殺快船!賽后還有3個好消息,有望3-2領先

球場沒跑道
2025-04-27 08:55:17
特朗普一聲令下,29國聯手圍攻中國,日本沖在最前線,俄已選邊站

特朗普一聲令下,29國聯手圍攻中國,日本沖在最前線,俄已選邊站

天行艦
2025-04-25 00:05:17
51分慘敗!0-4被橫掃!卻索要3.45億頂薪!你是NBA被高估球星

51分慘敗!0-4被橫掃!卻索要3.45億頂薪!你是NBA被高估球星

毒舌NBA
2025-04-27 08:23:04
“特朗普虛晃一招,中國沒上鉤”

“特朗普虛晃一招,中國沒上鉤”

觀察者網
2025-04-26 10:05:04
天主教皇去世前一天出現“希波克拉底面容”,竟是死亡預兆!

天主教皇去世前一天出現“希波克拉底面容”,竟是死亡預兆!

ChicMyGeek
2025-04-26 18:38:04
低學歷的都在干什么工作?網友匿名分享真實工作,看完徹底破防!

低學歷的都在干什么工作?網友匿名分享真實工作,看完徹底破防!

墻頭草
2025-04-25 16:30:09
越南終究還是變了!越南宣布將向美國訂購24架F-16V戰機!

越南終究還是變了!越南宣布將向美國訂購24架F-16V戰機!

翻開歷史和現實
2025-04-24 15:10:11
廣州暴雨,增城最大,最慘受害者出現,折騰20小時仍未到達目的地

廣州暴雨,增城最大,最慘受害者出現,折騰20小時仍未到達目的地

春序娛樂
2025-04-25 13:22:56
擔心被驅逐出境,美國大學生正在瘋狂“刪帖”

擔心被驅逐出境,美國大學生正在瘋狂“刪帖”

湊近看世界
2025-04-26 10:10:07
方濟各生前臥室曝光,單人床床頭柜太寒酸,放棄工資死后不圖功名

方濟各生前臥室曝光,單人床床頭柜太寒酸,放棄工資死后不圖功名

明月聊史
2025-04-26 20:29:31
恭喜!26歲國乒世界冠軍完婚,31歲妻子身份揭曉,孫穎莎送祝福

恭喜!26歲國乒世界冠軍完婚,31歲妻子身份揭曉,孫穎莎送祝福

知軒體育
2025-04-26 18:53:06
2025-04-27 09:23:00
學術頭條
學術頭條
致力于學術傳播和科學普及,重點關注人工智能、生命科學等前沿科學進展。
1247文章數 5069關注度
往期回顧 全部

科技要聞

賈躍亭:FF市值到百億美元能基本還完債務

頭條要聞

超20萬臺灣民眾走上凱道高喊"賴清德下臺" 朱立倫發聲

頭條要聞

超20萬臺灣民眾走上凱道高喊"賴清德下臺" 朱立倫發聲

體育要聞

加時絕殺!巴薩賽季3殺皇馬,32次問鼎國王杯

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

特朗普支持率全面下跌 華爾街發出警告

汽車要聞

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

房產
藝術
游戲
旅游
健康

房產要聞

教育理念再進階!解碼新世界星輝如何構筑「家校社成長生態圈」!

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

魔獸懷舊服:ICC將至,玩家最關心團本難度,未來會分區嗎?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

唇皰疹和口腔潰瘍是"同伙"嗎?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 东乡县| 阿合奇县| 文登市| 育儿| 贺兰县| 七台河市| 鹤山市| 德安县| 即墨市| 大名县| 蓬莱市| 河津市| 武平县| 浦北县| 驻马店市| 山东省| 同心县| 永顺县| 江华| 海兴县| 肥东县| 鹿邑县| 益阳市| 中方县| 阿拉善左旗| 威远县| 军事| 呼图壁县| 华坪县| 云安县| 丰镇市| 台北县| 留坝县| 西昌市| 竹溪县| 诸暨市| 辽源市| 大兴区| 宣威市| 黄石市| 柞水县|