ICLR是專注于表征學習的人工智能領域頂級會議,由深度學習巨頭 Bengio 和 LeCun 牽頭舉辦,與 NeurIPS 、ICML 并稱為機器學習三大頂會。
今天,ICLR 大會官方發布了今年的 ICLR 杰出論文獎。
共有3篇論文獲獎,另外還有3篇論文獲得了榮譽提名。
今年是 ICLR 舉辦的第 13 屆,會議即將在 4.24-4.28 在新加坡舉辦。
投稿數量:根據 reddit 已有的信息(非官方),本屆 ICLR 2025 共收到約11,500 篇有效投稿(接近但未精確確認,可能為 11,672 篇)。
錄用數量:共錄用3,706 篇論文。
錄用率:總體錄用率為 32.08%(3,706/11,672,基于 Reddit 討論和 Paper Copilot 數據,最終以官方為準)。
相比 ICLR 2024 的數據《ICLR 2024 杰出論文獎揭曉!兩篇國內論文獲榮譽提名》:7,262 篇投稿,2,260 篇錄用,錄用率 31.1%,今年數量明顯增加。
下面一起看看今年 3 篇杰出論文 +3 篇榮譽提名的具體論文信息。
3 篇杰出論文 杰出論文 1
論文標題 :
Safety Alignment Should Be Made More Than Just a Few Tokens Deep
(中文直譯:安全對齊不應僅限于淺層的少數幾個詞元)論文鏈接:
https://openreview.net/pdf?id=6Mxhg9PtDE機構:普林斯頓大學、谷歌 DeepMind
研究領域:人工智能安全 (AI Safety)、大語言模型對齊 (LLM Alignment)
【論文核心貢獻 & 創新點】:
該論文發現當前大語言模型(LLMs)的安全對齊方法(如 SFT, RLHF, DPO)存在一個普遍的、根本性的問題,即“淺層安全對齊 (shallow safety alignment)”。
這意味著安全對齊的效果主要體現在模型輸出的最初幾個詞元(tokens)上,模型學會生成拒絕式的開頭(如 "I cannot fulfill..."),但其內部生成有害內容的能力并未被根本改變。
該研究指出,“淺層安全對齊” 這個核心問題可以統一解釋近期發現的多種 LLM 安全漏洞,包括:
對抗性后綴攻擊 (adversarial suffix attacks)
前綴填充攻擊 / 開頭引導攻擊 (prefilling attacks)
解碼參數攻擊 (decoding parameter attacks)
微調攻擊 (fine-tuning attacks,即使是良性微調也可能破壞安全性)
這些攻擊的共同點在于,它們都設法繞過或改變模型最初幾個詞元的安全“屏障”,一旦繞過,模型就可能“災難性地”滑向生成有害內容的軌道。
1、提出并驗證“深度安全對齊”概念和方法:
作為“淺層”的對立面和解決方案,論文提出了“深度安全對齊 (deep safety alignment)”的概念。并通過一種數據增強方法(稱為“安全恢復樣本”,Safety Recovery Examples)進行初步驗證:
即使模型的輸出開頭偏離了安全軌道(例如,被誘導以有害內容開頭),模型也應被訓練得能夠“恢復”到安全的拒絕式回答。實驗表明這種方法能增強模型對某些常見攻擊的魯棒性。
2、提出并驗證約束性微調方法:
針對微調攻擊,論文提出了一種新的約束性優化損失函數 (constrained optimization loss function)。其核心思想是在微調過程中,重點約束模型在初始詞元上的生成概率分布,防止其發生大的偏移,從而在允許模型適應下游任務的同時,最大程度地保留其原有的安全對齊特性。
總結:LLM 安全性是當前 AI 領域最受關注的問題之一,這篇論文精準地指出了當前 LLM 安全對齊研究中的一個關鍵痛點——“淺層性”,并通過“深度安全對齊”和“約束性微調”兩個方向,提出了具體且可操作的改進思路和初步驗證。
杰出論文 2
論文標題 :
LEARNING DYNAMICS OF LLM FINETUNING
(中文直譯:大型語言模型微調的學習動態)論文鏈接:
https://openreview.net/pdf?id=tPNHOoZFl9Github 鏈接:
https://github.com/Joshua-Ren/Learning_dynamics_LLM機構:不列顛哥倫比亞大學
研究領域:大型語言模型 (LLM)、深度學習理論與理解 (Learning Dynamics, Model Interpretability)
【論文核心貢獻 & 創新點 】:
提出了一種基于學習動態(Learning Dynamics)的框架,通過分析梯度更新如何影響模型對不同輸入的預測(特別是不同響應的可能性),來統一理解不同 LLM 微調算法(如 SFT、DPO 及其變種)的行為。
該框架成功解釋了 LLM 微調中的多種已知或新觀察到的現象,包括:
特定類型的幻覺(如回答 A 時用了 B 的知識)在 SFT 后可能被放大。
偏好調整(如 DPO)后模型可能出現的“重復”行為(repeater phenomenon)。
離線(Off-policy)DPO 訓練過久導致所有響應(包括期望的)概率下降的現象。
論文提到了一個概念——"擠壓效應" (Squeezing Effect),明確提出并解釋了一個關鍵機制——在 DPO 等使用負梯度的算法中,對低概率響應施加負梯度會將其概率質量“擠壓”到模型先前最自信的那個響應上,這可能是導致意外行為(如重復、性能下降)的原因。
算法改進:基于對“擠壓效應”的理解,提出了一種簡單有效的改進對齊性能的方法:在進行 DPO 之前,先在 SFT 階段同時對正樣本 (
y+
) _和_負樣本 (y-
) 進行訓練,以減輕后續 DPO 中的擠壓效應。新的視角:提供了一個不同于傳統基于目標函數、最終狀態或強化學習關聯的分析視角,側重于微調過程中的動態變化和樣本間的相互影響。
總結:這篇論文巧妙地運用學習動態理論深入剖析了 LLM 微調的核心過程。其提出的統一框架和“擠壓效應”解釋為理解和改進 LLM 對齊提供了重要的理論基礎和實踐指導。
杰出論文 3
論文標題:
AlphaEdit: Null-Space Constrained Model Editing for Language Models
(中文直譯:AlphaEdit: 面向語言模型的零空間約束知識編輯)論文鏈接:
https://openreview.net/pdf?id=HvSytvg3JhGitHub 鏈接:
https://github.com/jianghoucheng/AlphaEdit機構:新加坡國立大學、中國科學技術大學
研究領域:LLM 模型編輯 / 知識編輯
論文指出現有的"定位-編輯" (locate-then-edit) 范式在更新 LLM 知識時,引入的擾動會不可避免地破壞模型中原有的、需要保留的知識,尤其在連續編輯場景下問題更嚴重,導致遺忘和模型崩潰。現有方法難以平衡“知識更新”和“知識保留”這兩個目標。
【論文核心貢獻 & 創新點】:
提出 AlphaEdit 方法:提出一種新的知識編輯目標優化方法。它不再試圖在目標函數中平衡“更新誤差”和“保留誤差”,而是專注于最小化“更新誤差”。
核心創新 - 零空間投影約束:為了在僅優化更新目標的同時保護原有知識,AlphaEdit 在將計算出的參數擾動(perturbation)應用到模型之前,先將其投影到“被保留知識”對應 Key 矩陣的零空間 (null space)。
理論保證:從理論上證明,這種零空間投影確保了編輯后的 LLM 在被問及需要保留的知識時,其輸出(特別是關鍵的隱藏層表示)保持不變,從而有效緩解了知識破壞問題。
簡單高效:該方法的核心(零空間投影)只需要增加一行代碼即可集成到現有的主流"定位-編輯"方法(如 MEMIT)中,實現了顯著的性能提升(平均提升 36.7%),具有即插即用的特性。
總結:AlphaEdit 論文針對當前 LLM 知識編輯領域的一個關鍵痛點——更新知識與保留原有知識之間的沖突和破壞——提出了一個創新且簡潔的解決方案。其核心亮點在于巧妙地運用了線性代數中的“零空間投影”概念,將參數更新約束在不影響原有知識表示的空間內進行。這不僅在理論上保證了對保留知識的“零干擾”,還簡化了優化目標,避免了復雜的權重調整。
3 篇論文獲榮譽提名 榮譽提名論文 1
論文標題 :
DATA SHAPLEY IN ONE TRAINING RUN
(中文直譯:一次訓練運行中的數據 Shapley)論文鏈接:
https://openreview.net/pdf?id=HD6bWcj87Y機構:普林斯頓大學、加州大學伯克利分校、弗吉尼亞理工學院
研究領域:大規模模型數據歸因、數據質量評估
【論文核心貢獻&創新點】:
提出 In-Run Data Shapley 概念:針對傳統 Data Shapley 需要大量模型重訓練導致計算不可行以及無法評估特定單次訓練運行中數據貢獻的問題,提出了 In-Run Data Shapley。它旨在評估數據點對 某一次特定 模型訓練運行的貢獻,而非對通用學習算法的平均貢獻。
消除重訓練需求:通過將整個訓練過程分解為單次迭代,計算每次迭代中數據子集對模型性能(如驗證損失)變化的貢獻(局部效用),并累加這些貢獻來獲得最終的數據 Shapley 值。
"Ghost" 計算技術:開發了一系列高效計算技術("ghost dot-product" 和 "ghost gradient-Hessian-gradient product"),可以在一次或兩次反向傳播中精確計算所需的梯度點積和梯度-Hessian-梯度乘積,而無需顯式實例化或存儲單個樣本的梯度/Hessian 向量,極大降低了計算開銷。
極高的計算效率:最優實現(一階,使用 "ghost" 技術)相比標準模型訓練只增加可忽略不計的運行時間開銷,使得對大模型(如基礎模型預訓練)進行數據歸因成為可能。
總結:該論文針對數據歸因領域的核心痛點——傳統 Data Shapley 的計算瓶頸和模型特定性缺失——提出了一個創新且非常實用的解決方案 "In-Run Data Shapley"。其核心思想(分解訓練過程 + 迭代歸因)和關鍵技術("Ghost" 計算)極大地提升了效率,使得在大規模模型上應用 Shapley 值這一理論上公平的歸因方法成為現實。
榮譽提名論文 2
論文標題:
SAM 2: Segment Anything in Images and Videos
論文鏈接:
https://openreview.net/pdf?id=Ha6RTeWMd0機構:Meta AI、斯坦福大學
研究領域:Video Segmentation (視頻分割)
【論文核心貢獻 & 創新點】:
擴展 SAM 至視頻域 (Extension of SAM to Video):將 Segment Anything 模型的能力從靜態圖像擴展到了視頻,提出了一個統一處理圖像和視頻分割的模型 (SAM 2)。
引入流式記憶機制 (Streaming Memory Mechanism):模型架構的關鍵創新,通過記憶存儲(Memory Bank)和注意力機制(Memory Attention)來處理視頻幀,有效利用歷史幀信息進行目標跟蹤和分割修正,實現實時處理。
提出 PVS 任務 (Promptable Visual Segmentation Task):定義了可提示的視頻視覺分割任務,允許用戶在視頻的任意幀通過點、框、掩碼等提示進行交互式分割和修正。
構建數據引擎 (Data Engine):開發了一個“模型在環”(model-in-the-loop) 的數據標注引擎,利用 SAM 2 輔助標注員,大幅提升了視頻分割數據的標注效率和規模。
發布大規模 SA-V 數據集 (Large-Scale SA-V Dataset):通過數據引擎收集并發布了迄今為止最大的視頻分割數據集 (Segment Anything Video ,SAV),包含大量掩碼(masklets),覆蓋多樣場景和物體。
顯著性能提升 (Significant Performance Improvement):在視頻分割任務上,以更少的交互次數達到更高精度;在圖像分割任務上,比原版 SAM 精度更高且速度快 6 倍;在多個基準測試上取得 SOTA 或強勁性能。
總結:SAM 2 是對開創性的 SAM 模型一次非常成功的演進,作為一個統一圖像和視頻分割的基礎模型,并且伴隨全面的開源,SAM 2 有望像 SAM 一樣,對下游的視頻理解、編輯、AR/VR 等應用產生深遠影響。
榮譽提名論文 3
論文標題 :
Faster Cascades via Speculative Decoding
(中文直譯:通過推測解碼實現更快的級聯)論文鏈接:
https://openreview.net/pdf?id=vo9t20wsmd機構 :Google Research、Google DeepMind、Mistral AI
研究領域:LLM Inference Acceleration (大模型推理加速)
【論文核心貢獻&創新點】:
這篇論文巧妙地結合了兩種流行的 LLM 推理優化技術,提供了一種新的、可能更優的平衡點來協調推理速度、計算成本和模型性能。
提出 "推測級聯 (Speculative Cascading)" 框架: 這是一種新的推理加速策略,旨在整合模型級聯 (Model Cascading) 的成本效益和推測解碼 (Speculative Decoding) 的速度優勢。
核心機制創新: 關鍵在于利用推測解碼的并行驗證 (parallel verification) 機制來 執行模型級聯中的延遲決策 (deferral rule)。即,大模型并行評分小模型的草稿,其目的不僅是驗證 Token,更是為了 _決定是否觸發級聯的延遲(調用大模型)_。
解鎖更優的成本-質量邊界: 通過這種新機制,推測級聯能夠在推理效率上實現更優的成本-質量權衡 (cost-quality trade-off)。
總結:這篇論文巧妙地結合了兩種流行的 LLM 推理優化技術,抓住了它們各自的優勢——級聯的成本效益權衡和推測解碼的速度與質量保證。其核心思想是將級聯的決策過程融入推測解碼的并行框架中,這是一個有前景的方向。
ICLR 2025杰出論文合集,請加微信AI-Leo8獲取。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.