新智元報道
編輯:桃子 好困
【新智元導(dǎo)讀】一年一度ICLR 2025杰出論文開獎!普林斯頓、UBC、中科大NUS等團隊的論文拔得頭籌,還有Meta團隊「分割一切」SAM 2摘得榮譽提名。
剛剛,ICLR 2025杰出論文出爐了!
今年共有三篇杰出論文獲獎,還有3篇獲榮譽提名獎。值得一提的是,斬獲杰出論文的學(xué)者,都是華人一作。
分別是,OpenAI研究員漆翔宇(普林斯頓博士畢業(yè))、不列顛哥倫比亞大學(xué)Yi Ren、新加坡國立大學(xué)Junfeng Fang和中科大Houcheng Jiang。
這一次,ICLR委員會通過兩階段嚴苛選拔,從眾多優(yōu)秀論文中,精挑細選出最終獲獎研究。
他們從36篇候選池開始,這些論文是由領(lǐng)域主席推薦或在評審中獲得了極高的評分。
委員會成員首先進行了初步評審,篩選出入圍名單。隨后,所有成員再從理論見解、實際影響、精湛的寫作和實驗的嚴謹性等因素對論文進行排名。
最終,由項目主席確認獲獎名單。
接下來,一起看看都有哪些論文摘桂冠。
杰出論文
論文1:Safety Alignment Should be Made More Than Just a Few Tokens Deep
作者:Xiangyu Qi, Ashwinee Panda, Kaifeng Lyu, Xiao Ma, Subhrajit Roy, Ahmad Beirami, Prateek Mittal, Peter Henderson
機構(gòu):普林斯頓大學(xué),Google DeepMind
論文地址:https://openreview.net/pdf?id=6Mxhg9PtDE
當(dāng)前,大模型的安全對齊存在顯著的脆弱性。簡單的攻擊,甚至是無害的微調(diào),都可能破解對齊的模型。
普林斯頓聯(lián)手谷歌DeepMind研究注意到,許多這些脆弱性都與一個共同的根本問題有關(guān):安全對齊可能采取捷徑,即對齊主要僅調(diào)整模型生成分布的前幾個輸出token。
他們將這一問題統(tǒng)一稱為「淺層安全對齊」(Shallow Safety Alignment)。
論文中,作者通過案例研究解釋了「淺層安全對齊」為何存在,并展示了這一問題如何普遍導(dǎo)致近期發(fā)現(xiàn)的LLM多個脆弱性,包括對抗性后綴攻擊、前置填充攻擊、解碼參數(shù)攻擊和微調(diào)攻擊。
這項研究關(guān)鍵貢獻在于,展示了「淺層安全對齊」這一統(tǒng)一概念,如何為緩解這些脆弱性指明有前景的研究方向。
研究證明,深化安全對齊,使其超越前幾個token,可以顯著提高對一些常見攻擊的魯棒性。
作者還設(shè)計了一個正則化的微調(diào)目標,通過約束初始token的更新,使安全對齊在微調(diào)攻擊中更具持久性。
總體而言,團隊主張未來的安全對齊,應(yīng)不僅僅局限于前幾個token的深度。
論文2:Learning Dynamics of LLM Finetuning
作者:Yi Ren, Danica J. Sutherland
機構(gòu):不列顛哥倫比亞大學(xué)
論文地址:https://openreview.net/pdf?id=tPNHOoZFl9
這項來自UBC團隊的研究,通過「學(xué)習(xí)動態(tài)」(Learning Dynamics)的視角,揭開了大模型微調(diào)的神秘面紗。
「學(xué)習(xí)動態(tài)」是指,訓(xùn)練過程中特定樣本學(xué)習(xí),如何影響模型對其他樣本的預(yù)測。
論文中,作者研究了大模型在不同類型微調(diào)過程中的學(xué)習(xí)動態(tài),通過分析影響如何在不同潛在響應(yīng)之間逐步累積的分解。
對此,他們還提出了一個理解ML學(xué)習(xí)系統(tǒng)行為的強大工具。
在微調(diào)過程中,一個常見的問題是模型可能會出現(xiàn)「幻覺」。研究發(fā)現(xiàn),特定類型的幻覺會在微調(diào)后可能會被增強。
比如,模型可能在回答問題A時,錯誤地使用了為問題B準備的短語或事實;又或者,模型在生成響應(yīng)時可能反復(fù)使用相似的簡單短語。
研究人員還擴展了框架,并揭示了一個有趣現(xiàn)象「擠壓效應(yīng)」,解釋在離線策略直接偏好優(yōu)化(DPO)中觀察到特征,即運行DPO時間過長甚至?xí)蛊谕妮敵鲎兊貌荒敲纯赡堋?/p>
此外,新框架還提供了關(guān)于在線策略DPO及其他變體優(yōu)勢來源的見解。
論文3:AlphaEdit: Null-Space Constrained Model Editing for Language Models
作者:Junfeng Fang, Houcheng Jiang, Kun Wang, Yunshan Ma, Jie Shi, Xiang Wang, Xiangnan He, Tat-Seng Chua
機構(gòu):新加坡國立大學(xué),中國科學(xué)技術(shù)大學(xué)
論文地址:https://openreview.net/pdf?id=HvSytvg3Jh
大模型常常出現(xiàn)「幻覺」,生成不正確或過時的知識。
因此,NUS聯(lián)手中科大團隊提出了模型編輯方法——AlphaEdit,通過調(diào)整模型參數(shù),針對性地更新知識。
目前,模型編輯的主流方法是「定位后編輯」(Locate-then-Edit)。這一方法受限定位對特定知識點有影響力的參數(shù),然后通過引入擾動(perturbation)對其進行編輯。
雖然這種方法在許多場景中有效,但當(dāng)前研究表明,這種擾動不可避免地會干擾LLM中原有的保留知識,特別是在順序編輯場景中。
AlphaEdit給出了一個簡單卻高效的解決方案。
也就是,在將擾動應(yīng)用于參數(shù)之前,將其投影到保留知識的零空間(Null Space)上。
研究證明,這種投影確保編輯后的LLM在查詢保留知識時,輸出保持不變,從而緩解了知識干擾問題。
在包括Llama3、GPT2XL、GPT-J在內(nèi)的多種LLM上的廣泛實驗表明,AlphaEdit通過僅添加一行用于投影的代碼,使大多數(shù)定位后編輯方法的性能平均提升了36.7%。
榮譽提名
論文1:Data Shapley in One Training Run
作者:Jiachen T. Wang, Prateek Mittal, Dawn Song, Ruoxi Jia
機構(gòu):普林斯頓大學(xué),加利福尼亞大學(xué)伯克利分校,弗吉尼亞理工大學(xué)
論文地址:https://openreview.net/pdf?id=HD6bWcj87Y
傳統(tǒng)的Data Shapley為機器學(xué)習(xí)中的數(shù)據(jù)貢獻提供了一個有原則的框架,但它要求對不同的數(shù)據(jù)子集重新訓(xùn)練模型,無法應(yīng)用在規(guī)模更大的模型上。
此外,這種基于重新訓(xùn)練的定義無法在特定模型訓(xùn)練過程中過評估數(shù)據(jù)的貢獻,而這在實際中往往是關(guān)注的重點。
在這篇論文中,團隊提出了一種全新的概念——In-Run Data Shapley,它不需要重新訓(xùn)練模型,就能針對特定模型的數(shù)據(jù)貢獻進行評估。
具體來說,In-Run Data Shapley會計算每次梯度更新迭代的Shapley值,并在整個訓(xùn)練過程中累積這些值。通過多種技術(shù)的結(jié)合,In-Run Data Shapley可以有效擴展到基礎(chǔ)模型的規(guī)模。
與標準模型訓(xùn)練相比,In-Run Data Shapley增加的運行時間開銷可以忽略不計。這一顯著的效率提升使得在基礎(chǔ)模型預(yù)訓(xùn)練階段進行數(shù)據(jù)歸因成為可能。
最后,團隊通過幾個案例研究闡述了對預(yù)訓(xùn)練數(shù)據(jù)貢獻的新見解,并討論這些觀察對生成式AI及預(yù)訓(xùn)練數(shù)據(jù)策劃的版權(quán)問題的影響。
論文2:SAM 2: Segment Anything in Images and Videos
作者:Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman R?dle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollar, Christoph Feichtenhofer
機構(gòu):Meta FAIR
論文地址:https://openreview.net/pdf?id=Ha6RTeWMd0
「分割一切2.0」(Segment Anything Model 2,SAM 2)是一個用于解決圖像和視頻中的可提示視覺分割問題的基礎(chǔ)模型。它基于簡單的Transformer架構(gòu)打造,并通過流式記憶來支持實時視頻處理。
與此同時,團隊還構(gòu)建了一個數(shù)據(jù)引擎,通過用戶交互提升模型和數(shù)據(jù)的表現(xiàn),收集了迄今為止最大的視頻分割數(shù)據(jù)集。
相比于前代模型,SAM 2不僅準確度更高,而且在視頻分割任務(wù)中的交互次數(shù)減少了3倍,在圖像分割任務(wù)中的速度提升了6倍。
論文3:Faster Cascades via Speculative Decoding
作者:Harikrishna Narasimhan, Wittawat Jitkrittum, Ankit Singh Rawat, Seungyeon Kim, Neha Gupta, Aditya Krishna Menon, Sanjiv Kumar
機構(gòu):Google Research,Google DeepMind,Mistral AI
論文地址:https://openreview.net/pdf?id=vo9t20wsmd
級聯(lián)模型和推測解碼法,是提高語言模型推理效率的兩種常見方法。
這兩種方法都通過交替使用兩個模型來實現(xiàn),但其機制基本不同:
前者的延遲規(guī)則在輸入「困難」時才調(diào)用較大的模型,而推測解碼法主要通過并行評分模式,進行推測執(zhí)行來調(diào)用較大的模型。
這些機制提供了不同的好處:從經(jīng)驗來看,級聯(lián)在成本與質(zhì)量之間提供了良好的平衡,通常甚至超越了大型模型;而推測級聯(lián)則顯著提升了速度,同時保證質(zhì)量中立。
論文中,谷歌和Mistral AI團隊結(jié)合了這兩種方法的優(yōu)勢,設(shè)計出了全新的「推測級聯(lián)」(Speculative Cascades)。
他們?yōu)椤竿茰y級聯(lián)」設(shè)計了最優(yōu)延遲規(guī)則,并使用插件近似方法來實現(xiàn)該最優(yōu)規(guī)則。
為了驗證新方法實力,研究人員在 Gemma和T5模型上進行測試,結(jié)果表明,相較于級聯(lián)模型和推測解碼法,「推測級聯(lián)」在成本質(zhì)量權(quán)衡上表現(xiàn)出顯著的優(yōu)勢。
參考資料:
https://blog.iclr.cc/2025/04/22/announcing-the-outstanding-paper-awards-at-iclr-2025/
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.