內容來自:機器之心
今天,ICLR 宣布了今年度的杰出論文獎。
今年共有三篇論文獲獎(Outstanding Paper),其中一篇由中國科學技術大學與新加坡國立大學合作完成。另外還有三篇獲得了榮譽提名(Honorable Mentions),包括大家熟悉的 Meta「分割一切」論文的 2.0 版本。
以下是詳細信息。
杰出論文
論文 1:Safety Alignment Should be Made More Than Just a Few Tokens Deep
作者:Xiangyu Qi, Ashwinee Panda, Kaifeng Lyu, Xiao Ma, Subhrajit Roy, Ahmad Beirami, Prateek Mittal, Peter Henderson
單位:普林斯頓大學、Google DeepMind
鏈接:https://openreview.net/forum?id=6Mxhg9PtDE
當前大語言模型(LLM)的安全對齊(safety alignment)存在脆弱性。簡單的攻擊,甚至是看似無害的微調(fine-tuning),都可能突破對齊約束(即「越獄」模型)。研究者注意到,許多這類脆弱性問題源于一個共同的底層缺陷:現有對齊機制往往采取捷徑,即僅在模型生成的最初幾個輸出 token 上進行調整。研究者將此類現象統一稱為「淺層安全對齊」(shallow safety alignment)。
在本文中,研究者通過若干案例分析,解釋淺層安全對齊為何會存在,并揭示其如何普遍性地貢獻于近年來發現的多種 LLM 脆弱性,包括對對抗性后綴攻擊(adversarial suffix attacks)、預填充攻擊(prefilling attacks)、解碼參數攻擊(decoding parameter attacks)和微調攻擊(fine-tuning attacks)的易感性。
本研究的核心貢獻在于,研究者提出的「淺層安全對齊」的統一概念,為緩解上述安全問題指明了有前景的研究方向。研究者展示,通過將安全對齊機制延伸至超出最初數個 token 的范圍,能在一定程度上增強模型對常見攻擊方式的魯棒性。
此外,研究者還設計了一種帶正則項的微調目標函數(regularized fine-tuning objective),通過對初始 token 的更新施加約束,使得模型的安全對齊對微調攻擊更具持久性。
總體而言,研究者主張:未來的大語言模型安全對齊策略,應當超越僅對幾個初始 token 實施控制的做法,而實現更深層次的對齊。
論文 2:Learning Dynamics of LLM Finetuning
作者:Yi Ren, Danica J. Sutherland
單位:不列顛哥倫比亞大學
鏈接:https://openreview.net/forum?id=6Mxhg9PtDE
代碼:https://github.com/Joshua-Ren/Learning_dynamics_LLM
學習動態(learning dynamics)描述特定訓練樣本的學習過程如何影響模型對其他樣本的預測結果,是理解深度學習系統行為的有力工具。為了深入理解這一過程,研究者研究了大語言模型在不同微調類型下的學習動態,方法是分析潛在響應之間影響如何逐步積累的一種分步式分解(step-wise decomposition)。
研究者的框架提供了一種統一的視角,能夠解釋當前指令微調(instruction tuning)和偏好微調(preference tuning)算法訓練過程中的多個有趣現象。研究者特別提出了一種假設性解釋,以說明為何某些類型的幻覺(hallucination)現象會在微調后變得更加顯著。例如,模型可能會將用于回答問題 B 的短語或事實用于回答問題 A,或在生成內容時反復出現類似的簡單短語。
研究者還擴展了這一分析框架,引入一個稱為「壓縮效應」(squeezing effect)的獨特現象,以解釋在離線策略直接偏好優化(off-policy Direct Preference Optimization, DPO)過程中觀察到的一個問題:如果 DPO 訓練持續時間過長,甚至連原本被偏好的輸出也更難被生成。
此外,該框架進一步揭示了在線策略 DPO(on-policy DPO)及其變體為何能更有效地優化模型行為的根本原因。本研究不僅為理解大語言模型的微調過程提供了新的視角,還啟發了一種簡單而有效的對齊效果提升方法。
論文 3:AlphaEdit: Null-Space Constrained Model Editing for Language Models
作者:Junfeng Fan, Houcheng Jiang(姜厚丞), Kun Wang, Yunshan Ma, Jie Shi, Xiang Wang, Xiangnan He, Tat-Seng Chua
單位:新加坡國立大學、中國科學技術大學
鏈接:https://openreview.net/forum?id=HvSytvg3Jh
代碼:https://github.com/jianghoucheng/AlphaEdit
大型語言模型(LLM)常常會出現幻覺現象,生成錯誤或過時的知識。因此,模型編輯方法應運而生,能夠實現針對性的知識更新。為了達成這一目標,一種流行的方式是定位 - 編輯方法,先定位出有影響的參數,再通過引入擾動來編輯這些參數。然而,目前的研究表明,這種擾動不可避免地會擾亂大型語言模型中原先保留的知識,尤其是在連續編輯的情境下。
為了解決這個問題,研究者推出了 AlphaEdit,這是一種創新的解決方案,它會在將擾動應用到參數之前,先將擾動投影到保留知識的零空間上。從理論上,作者證明了這種投影方式可以確保在查詢保留知識時,經過編輯后的大型語言模型的輸出保持不變,從而緩解了知識被擾亂的問題。在包括 LLaMA3、GPT2-XL 和 GPT-J 在內的各種大型語言模型上進行的大量實驗表明,AlphaEdit 平均能使大多數定位 - 編輯方法的性能提升 36.7%,而且僅需添加一行用于投影的額外代碼。
杰出論文榮譽提名
論文 1:Data Shapley in One Training Run
作者:Jiachen T. Wang, Prateek Mittal, Dawn Song, Ruoxi Jia
單位:普林斯頓大學、加州大學伯克利分校、弗吉尼亞理工學院
鏈接:https://openreview.net/forum?id=HD6bWcj87Y
數據 Shapley 值提供了一個用于歸因數據在機器學習環境中貢獻的系統框架。然而,傳統的數據 Shapley 值概念需要在各種數據子集上重新訓練模型,這對于大規模模型來說在計算上是不可行的。此外,這種基于重新訓練的定義無法評估數據對特定模型訓練過程的貢獻,而這在實踐中往往是人們關注的焦點。
本文引入了一個新概念——In-Run Data Shapley,它消除了模型重新訓練的需求,專門用于評估數據對特定目標模型的貢獻。In-Run Data Shapley 計算每次梯度更新迭代的 Shapley 值,并在整個訓練過程中累積這些值。作者提出了幾種技術,使 In-Run Data Shapley 能夠高效擴展到基礎模型的規模。在最優化的實現中,這一新方法與標準模型訓練相比幾乎不增加運行時間開銷。
這一顯著的效率提升使得對基礎模型預訓練階段進行數據歸因成為可能。作者在論文中展示了幾個案例研究,這些研究為預訓練數據的貢獻提供了新見解,并討論了它們對生成式人工智能中版權問題和預訓練數據篩選的影響。
論文 2:SAM 2: Segment Anything in Images and Videos
作者:Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman R?dle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollar, Christoph Feichtenhofer
單位:Meta AI、斯坦福大學
鏈接:https://openreview.net/forum?id=Ha6RTeWMd0
在這篇論文中,Meta 提出了 Segment Anything Model 2(SAM 2),這是一種旨在解決圖像和視頻中可提示視覺分割(promptable visual segmentation)任務的基礎模型。他們構建了一個數據引擎,該引擎可通過用戶交互不斷優化模型與數據,采集了迄今為止規模最大的視頻分割數據集。他們的模型采用簡單的 Transformer 架構,并引入流式內存,以支持實時視頻處理。
基于這些數據訓練得到的 SAM 2 在多項任務上展現出強大的性能。在視頻分割中,SAM 2 在減少至原有方法約三分之一的交互次數的同時,準確率表現更佳。在圖像分割任務中,SAM 2 的精度更高,并且速度相比之前的 SAM 提升了六倍。
主模型、數據集、交互式演示以及代碼都已經開源發布。
論文 3:Faster Cascades via Speculative Decoding
作者:Harikrishna Narasimhan, Wittawat Jitkrittum, Ankit Singh Rawat, Seungyeon Kim, Neha Gupta, Aditya Krishna Menon , Sanjiv Kumar
單位:Google Research, Google DeepMind, Mistral AI
鏈接:https://openreview.net/forum?id=vo9t20wsmd
級聯和推測解碼是兩種常見的提高語言模型推理效率的方法。兩者皆通過交替使用兩個模型來實現,但背后機制迥異:級聯使用延遲規則,僅在遇到「困難」輸入時調用較大的模型,而推測解碼則通過推測執行,主要并行調用較大的模型進行評分。這些機制提供了不同的優勢:在經驗上,級聯提供了有說服力的成本-質量權衡,甚至常常優于大模型;而推測級聯則提供了令人印象深刻的加速,同時保證了質量中立性。
在本文中,研究者通過設計新的推測級聯技術,將延遲規則通過推測執行來實現,從而結合了這兩種方法的優勢。他們刻畫了推測級聯的最佳延遲規則,并采用了最佳規則的插件近似方法。通過在 Gemma 和 T5 模型上進行一系列語言基準測試的實驗,結果表明他們的方法較之傳統的級聯和推測解碼基線模型,在成本 - 質量權衡方面更具優勢。
杰出論文選取流程
ICLR 官方在博客上簡單介紹了他們的杰出論文選取流程。
具體來說,ICLR 2025 杰出論文委員會(Outstanding Paper Committee)采用了一種兩階段遴選流程,目標是展現本次大會上提出的卓越研究成果。
一開始,該委員會獲得了一份包含 36 篇論文的清單,這些論文要么由領域主席推薦,要么獲得了評審專家的優異評分。委員會成員會先進行初步評審,選出最終入圍論文。
之后,所有入圍論文再由委員會全體成員審閱,并根據理論洞見、實踐影響、寫作能力和實驗嚴謹性等因素進行排名。最終由項目主席確認最終決定。
https://blog.iclr.cc/2025/04/22/announcing-the-outstanding-paper-awards-at-iclr-2025/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.