網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

ICLR 2025杰出論文公布！中科大碩士、OpenAI漆翔宇摘桂冠

2025-04-23 13:01:33　來源: 新智元

北京舉報

分享至

新智元報道

編輯：桃子好困

【新智元導(dǎo)讀】一年一度ICLR 2025杰出論文開獎！普林斯頓、UBC、中科大NUS等團隊的論文拔得頭籌，還有Meta團隊「分割一切」SAM 2摘得榮譽提名。

剛剛，ICLR 2025杰出論文出爐了！

今年共有三篇杰出論文獲獎，還有3篇獲榮譽提名獎。值得一提的是，斬獲杰出論文的學(xué)者，都是華人一作。

分別是，OpenAI研究員漆翔宇（普林斯頓博士畢業(yè)）、不列顛哥倫比亞大學(xué)Yi Ren、新加坡國立大學(xué)Junfeng Fang和中科大Houcheng Jiang。

這一次，ICLR委員會通過兩階段嚴苛選拔，從眾多優(yōu)秀論文中，精挑細選出最終獲獎研究。

他們從36篇候選池開始，這些論文是由領(lǐng)域主席推薦或在評審中獲得了極高的評分。

委員會成員首先進行了初步評審，篩選出入圍名單。隨后，所有成員再從理論見解、實際影響、精湛的寫作和實驗的嚴謹性等因素對論文進行排名。

最終，由項目主席確認獲獎名單。

接下來，一起看看都有哪些論文摘桂冠。

杰出論文

論文1：Safety Alignment Should be Made More Than Just a Few Tokens Deep

作者：Xiangyu Qi, Ashwinee Panda, Kaifeng Lyu, Xiao Ma, Subhrajit Roy, Ahmad Beirami, Prateek Mittal, Peter Henderson

機構(gòu)：普林斯頓大學(xué)，Google DeepMind

論文地址：https://openreview.net/pdf?id=6Mxhg9PtDE

當(dāng)前，大模型的安全對齊存在顯著的脆弱性。簡單的攻擊，甚至是無害的微調(diào)，都可能破解對齊的模型。

普林斯頓聯(lián)手谷歌DeepMind研究注意到，許多這些脆弱性都與一個共同的根本問題有關(guān)：安全對齊可能采取捷徑，即對齊主要僅調(diào)整模型生成分布的前幾個輸出token。

他們將這一問題統(tǒng)一稱為「淺層安全對齊」（Shallow Safety Alignment）。

論文中，作者通過案例研究解釋了「淺層安全對齊」為何存在，并展示了這一問題如何普遍導(dǎo)致近期發(fā)現(xiàn)的LLM多個脆弱性，包括對抗性后綴攻擊、前置填充攻擊、解碼參數(shù)攻擊和微調(diào)攻擊。

這項研究關(guān)鍵貢獻在于，展示了「淺層安全對齊」這一統(tǒng)一概念，如何為緩解這些脆弱性指明有前景的研究方向。

研究證明，深化安全對齊，使其超越前幾個token，可以顯著提高對一些常見攻擊的魯棒性。

作者還設(shè)計了一個正則化的微調(diào)目標，通過約束初始token的更新，使安全對齊在微調(diào)攻擊中更具持久性。

總體而言，團隊主張未來的安全對齊，應(yīng)不僅僅局限于前幾個token的深度。

論文2：Learning Dynamics of LLM Finetuning

作者：Yi Ren, Danica J. Sutherland

機構(gòu)：不列顛哥倫比亞大學(xué)

論文地址：https://openreview.net/pdf?id=tPNHOoZFl9

這項來自UBC團隊的研究，通過「學(xué)習(xí)動態(tài)」（Learning Dynamics）的視角，揭開了大模型微調(diào)的神秘面紗。

「學(xué)習(xí)動態(tài)」是指，訓(xùn)練過程中特定樣本學(xué)習(xí)，如何影響模型對其他樣本的預(yù)測。

論文中，作者研究了大模型在不同類型微調(diào)過程中的學(xué)習(xí)動態(tài)，通過分析影響如何在不同潛在響應(yīng)之間逐步累積的分解。

對此，他們還提出了一個理解ML學(xué)習(xí)系統(tǒng)行為的強大工具。

在微調(diào)過程中，一個常見的問題是模型可能會出現(xiàn)「幻覺」。研究發(fā)現(xiàn)，特定類型的幻覺會在微調(diào)后可能會被增強。

比如，模型可能在回答問題A時，錯誤地使用了為問題B準備的短語或事實；又或者，模型在生成響應(yīng)時可能反復(fù)使用相似的簡單短語。

研究人員還擴展了框架，并揭示了一個有趣現(xiàn)象「擠壓效應(yīng)」，解釋在離線策略直接偏好優(yōu)化（DPO）中觀察到特征，即運行DPO時間過長甚至?xí)蛊谕妮敵鲎兊貌荒敲纯赡堋?/p>

此外，新框架還提供了關(guān)于在線策略DPO及其他變體優(yōu)勢來源的見解。

論文3：AlphaEdit: Null-Space Constrained Model Editing for Language Models

作者：Junfeng Fang, Houcheng Jiang, Kun Wang, Yunshan Ma, Jie Shi, Xiang Wang, Xiangnan He, Tat-Seng Chua

機構(gòu)：新加坡國立大學(xué)，中國科學(xué)技術(shù)大學(xué)

論文地址：https://openreview.net/pdf?id=HvSytvg3Jh

大模型常常出現(xiàn)「幻覺」，生成不正確或過時的知識。

因此，NUS聯(lián)手中科大團隊提出了模型編輯方法——AlphaEdit，通過調(diào)整模型參數(shù)，針對性地更新知識。

目前，模型編輯的主流方法是「定位后編輯」（Locate-then-Edit）。這一方法受限定位對特定知識點有影響力的參數(shù)，然后通過引入擾動（perturbation）對其進行編輯。

雖然這種方法在許多場景中有效，但當(dāng)前研究表明，這種擾動不可避免地會干擾LLM中原有的保留知識，特別是在順序編輯場景中。

AlphaEdit給出了一個簡單卻高效的解決方案。

也就是，在將擾動應(yīng)用于參數(shù)之前，將其投影到保留知識的零空間（Null Space）上。

研究證明，這種投影確保編輯后的LLM在查詢保留知識時，輸出保持不變，從而緩解了知識干擾問題。

在包括Llama3、GPT2XL、GPT-J在內(nèi)的多種LLM上的廣泛實驗表明，AlphaEdit通過僅添加一行用于投影的代碼，使大多數(shù)定位后編輯方法的性能平均提升了36.7%。

榮譽提名

論文1：Data Shapley in One Training Run

作者：Jiachen T. Wang, Prateek Mittal, Dawn Song, Ruoxi Jia

機構(gòu)：普林斯頓大學(xué)，加利福尼亞大學(xué)伯克利分校，弗吉尼亞理工大學(xué)

論文地址：https://openreview.net/pdf?id=HD6bWcj87Y

傳統(tǒng)的Data Shapley為機器學(xué)習(xí)中的數(shù)據(jù)貢獻提供了一個有原則的框架，但它要求對不同的數(shù)據(jù)子集重新訓(xùn)練模型，無法應(yīng)用在規(guī)模更大的模型上。

此外，這種基于重新訓(xùn)練的定義無法在特定模型訓(xùn)練過程中過評估數(shù)據(jù)的貢獻，而這在實際中往往是關(guān)注的重點。

在這篇論文中，團隊提出了一種全新的概念——In-Run Data Shapley，它不需要重新訓(xùn)練模型，就能針對特定模型的數(shù)據(jù)貢獻進行評估。

具體來說，In-Run Data Shapley會計算每次梯度更新迭代的Shapley值，并在整個訓(xùn)練過程中累積這些值。通過多種技術(shù)的結(jié)合，In-Run Data Shapley可以有效擴展到基礎(chǔ)模型的規(guī)模。

與標準模型訓(xùn)練相比，In-Run Data Shapley增加的運行時間開銷可以忽略不計。這一顯著的效率提升使得在基礎(chǔ)模型預(yù)訓(xùn)練階段進行數(shù)據(jù)歸因成為可能。

最后，團隊通過幾個案例研究闡述了對預(yù)訓(xùn)練數(shù)據(jù)貢獻的新見解，并討論這些觀察對生成式AI及預(yù)訓(xùn)練數(shù)據(jù)策劃的版權(quán)問題的影響。

論文2：SAM 2: Segment Anything in Images and Videos

作者：Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman R?dle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollar, Christoph Feichtenhofer

機構(gòu)：Meta FAIR

論文地址：https://openreview.net/pdf?id=Ha6RTeWMd0

「分割一切2.0」（Segment Anything Model 2，SAM 2）是一個用于解決圖像和視頻中的可提示視覺分割問題的基礎(chǔ)模型。它基于簡單的Transformer架構(gòu)打造，并通過流式記憶來支持實時視頻處理。

與此同時，團隊還構(gòu)建了一個數(shù)據(jù)引擎，通過用戶交互提升模型和數(shù)據(jù)的表現(xiàn)，收集了迄今為止最大的視頻分割數(shù)據(jù)集。

相比于前代模型，SAM 2不僅準確度更高，而且在視頻分割任務(wù)中的交互次數(shù)減少了3倍，在圖像分割任務(wù)中的速度提升了6倍。

論文3：Faster Cascades via Speculative Decoding

作者：Harikrishna Narasimhan, Wittawat Jitkrittum, Ankit Singh Rawat, Seungyeon Kim, Neha Gupta, Aditya Krishna Menon, Sanjiv Kumar

機構(gòu)：Google Research，Google DeepMind，Mistral AI

論文地址：https://openreview.net/pdf?id=vo9t20wsmd

級聯(lián)模型和推測解碼法，是提高語言模型推理效率的兩種常見方法。

這兩種方法都通過交替使用兩個模型來實現(xiàn)，但其機制基本不同：

前者的延遲規(guī)則在輸入「困難」時才調(diào)用較大的模型，而推測解碼法主要通過并行評分模式，進行推測執(zhí)行來調(diào)用較大的模型。

這些機制提供了不同的好處：從經(jīng)驗來看，級聯(lián)在成本與質(zhì)量之間提供了良好的平衡，通常甚至超越了大型模型；而推測級聯(lián)則顯著提升了速度，同時保證質(zhì)量中立。

論文中，谷歌和Mistral AI團隊結(jié)合了這兩種方法的優(yōu)勢，設(shè)計出了全新的「推測級聯(lián)」（Speculative Cascades）。

他們?yōu)椤竿茰y級聯(lián)」設(shè)計了最優(yōu)延遲規(guī)則，并使用插件近似方法來實現(xiàn)該最優(yōu)規(guī)則。

為了驗證新方法實力，研究人員在 Gemma和T5模型上進行測試，結(jié)果表明，相較于級聯(lián)模型和推測解碼法，「推測級聯(lián)」在成本質(zhì)量權(quán)衡上表現(xiàn)出顯著的優(yōu)勢。

參考資料：

https://blog.iclr.cc/2025/04/22/announcing-the-outstanding-paper-awards-at-iclr-2025/

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.