99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

任務向量做模型編輯為何有效?ICLR 2025 Oral論文給出了理論分析

0
分享至



本文作者李宏康,博士畢業于美國倫斯勒理工大學,本科畢業于中國科學技術大學,并即將前往賓夕法尼亞大學擔任博士后研究員。研究方向包括深度學習理論、大語言模型理論等等。本文的通訊作者為倫斯勒理工大學的汪孟教授。

任務向量(task vector)方法近來在許多視覺和語言任務中表現出了在效率與可遷移性方面的優勢。但是由于人們尚未深入理解任務向量的理論機制,其在更廣泛與更大規模的應用中面臨挑戰。

近期,一個來自美國倫斯勒理工大學、密歇根州立大學 OPTML 實驗室、和 IBM 研究院的研究團隊從神經網絡的優化和泛化理論的角度分析了任務向量在模型編輯中的有效性。該工作已經被 ICLR 2025 錄取,并被選為前 1.8% 的 Oral 論文。



  • 論文標題:When is Task Vector Provably Effective for Model Editing? A Generalization Analysis of Nonlinear Transformers
  • 論文地址:https://openreview.net/pdf?id=vRvVVb0NAz

背景介紹

任務向量(task vector)是指微調得到的模型與預訓練模型之間的權重差值。人們發現,將不同的任務向量進行線性算術運算后疊加在一個預訓練模型上可以直接賦予此模型多種全新的能力,例如多任務學習(multi-task learning)、機器遺忘(machine unlearning)、以及分布外泛化(out-of-domain generalization),其優勢是無需使用下游任務的訓練數據對模型進行微調。

這種基于任務向量的直接運算對模型進行編輯從而做下游任務預測的方法被稱為任務運算(task arithmetic)。

由于缺乏對該方法的理論研究,本文重點探索任務向量方法能夠被有效且高效使用的深層原因。我們的貢獻如下:

  • 我們為任務加法和減法運算的有效性提供了一個特征學習的理論分析框架。
  • 我們給出了任務運算在分布外泛化的理論保證。
  • 解釋了任務向量的低秩近似和模型剪枝的理論機制。



初步觀察

我們從一個簡單的問題出發:組合多個任務向量的系數會受到哪些因素的影響?

直覺告訴我們,任務間的關系可能是一個關鍵因素。比如說,在多任務學習中,讓一個模型具備兩個相似任務的能力,理應是更容易的。

為了論證這一點,我們用 Colored-MNIST 數據集構建了一組二分類實驗。其中,分類的標準是數字的奇偶性。我們通過調整數字的顏色來控制任務之間的關系。

于是,我們設計了「相似任務」(aligned tasks)、「無關任務」(irrelevant tasks)、「相反任務」(contradictory tasks) 的任務關系。





根據上圖所示的實驗結果,我們有以下觀察:

  1. 在多任務學習和機器遺忘的實驗中,最佳的任務運算系數會隨著給定的任務向量間的關系的不同而改變。
  2. 在分布外泛化的實驗中,目標任務與給定任務的正反相關性可以被最佳的任務運算系數的正負性反映出來。

以上的兩點發現引向了一個重要的研究方向:任務關系會如何影響任務運算。

理論分析

我們在二分類問題的設定下研究該問題。我們以一層單頭的帶有 softmax attention 的 Transformer 為理論分析的基本模型,用 Ψ 來表示所有權重參數的集合,其中包括 attention 層的參數 W 以及 MLP 層的參數 V。仿照許多特征學習(feature learning)的理論工作,我們做如下的數據建模:定義 μ_T 為當前任務的 discriminative pattern。數據 X 中的每一個 token 都是從 μ_T、-μ_T 以及無關的 pattern 中選擇的。如果對應于 μ_T 的 token 個數多于 -μ_T 的個數,那么 X 的標簽 y=1。如果對應于 -μ_T 的 token 個數多于 μ_T 的個數,那么 X 的標簽 y=-1。

接下來我們給出使用兩個任務向量進行多任務學習和機器遺忘的理論結果。



定理 1的結果表明:當兩個任務是相似的關系的時候,將任務向量疊加可以得到理想的多任務學習性能,即泛化誤差在兩個任務上都達到 ?。



定理 2的結果表明:當兩個任務是相反關系時,用 T_1 的任務向量減去 T_2 的任務向量可以得到理想的機器遺忘性能,即 T_1 的泛化誤差達到?,而 T_2 的泛化誤差較大。





定理 3的結果表明:總是存在一組 λ_i,使得融合多個任務向量得到的模型可以在目標任務 T' 上取得理想的泛化性能。

我們還在理論上論證了對任務向量進行高效應用的方法。在我們的一層 Transformer 以及二分類問題的框架下,我們得出了推論 1:任務向量可以被低秩近似,同時只會造成很小的預測誤差。這意味著人們可以將各種低秩訓練和推斷方法用在任務向量中,從而大大節省任務向量的計算和存儲開銷。



我們還可以得到推論 2:訓練得到的任務向量在 MLP 層中的部分神經元權重較大,而剩余的神經元權重很小。對這些小的神經元進行剪枝只會引起很小的誤差,從而使得前面所有定理依然成立。這個推論為對于任務向量進行權重剪枝與稀疏化提供了理論保障。



實驗驗證



我們下圖的結果表明:實驗中得到的能夠帶來出色的分布外泛化性能的 λ_1,λ_2 區域(圖 A 的紅色部分)與定理 3 中證明得到的(圖 B 的紅色部分)一致。



我們接下來用 Phi-3-small (7B) 模型對任務向量在機器遺忘中的表現進行驗證,所使用的數據集為《哈利波特 I》(HP1),《哈利波特 II》(HP2),《傲慢與偏見》(PP)。其中,由于出自相同的作者 J.K. 羅琳,《哈利波特 I》與《II》的語義相似度較高,而《傲慢與偏見》與另外兩個數據集不太相似。





總結

本文定量證明了如何根據任務間關系確定任務運算系數,從而實現理想的多任務學習、機器遺忘、以及分布外泛化的方法,解釋了使用低秩和稀疏任務向量的可靠性。本文的理論通過實驗得到了驗證。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
你干過最不要臉的事是啥?網友:我有幾個秘密實在講不出口

你干過最不要臉的事是啥?網友:我有幾個秘密實在講不出口

娛樂圈人物大賞
2025-04-21 02:04:06
回看孫儷年輕時的絕代容顏,終于理解鄧超為啥當年是個男的都要防

回看孫儷年輕時的絕代容顏,終于理解鄧超為啥當年是個男的都要防

這個才是真花生有殼
2025-04-12 18:50:05
馬云這長相隨誰?馬云幼年時和父親馬來法、母親崔文彩的珍貴合影

馬云這長相隨誰?馬云幼年時和父親馬來法、母親崔文彩的珍貴合影

娛你同歡
2025-04-14 15:49:47
六旬教授退休得子,生雙胞胎后從醫院樓頂跳下,保險箱內照片現真相

六旬教授退休得子,生雙胞胎后從醫院樓頂跳下,保險箱內照片現真相

懸案解密檔案
2025-04-12 10:34:34
臺積電披露:在美國大虧,在大陸大賺

臺積電披露:在美國大虧,在大陸大賺

上觀新聞
2025-04-21 18:44:08
安徽一男子信守承諾去戰友家盡孝,9年后娶戰友小妹為妻

安徽一男子信守承諾去戰友家盡孝,9年后娶戰友小妹為妻

青絲人生
2023-08-23 14:44:59
46秒連丟三個關鍵三分:布倫森空砍37+7逆轉失敗 五巨頭拉胯三人

46秒連丟三個關鍵三分:布倫森空砍37+7逆轉失敗 五巨頭拉胯三人

顏小白的籃球夢
2025-04-22 10:22:58
曝某地五家公司合招一個女文員,要求在五家公司“流動工作”

曝某地五家公司合招一個女文員,要求在五家公司“流動工作”

可達鴨面面觀
2025-04-20 14:31:28
女上司嘴上說不要,千萬別相信她!

女上司嘴上說不要,千萬別相信她!

趣聞分享1
2025-03-22 17:00:11
北京112-95北控!重要的不是淘汰對手,而是球迷賽后的表態

北京112-95北控!重要的不是淘汰對手,而是球迷賽后的表態

山河入畫屏
2025-04-22 11:43:37
90年前林徽因就穿成這樣了,一雙高腰皮靴,略有猶豫的眼睛

90年前林徽因就穿成這樣了,一雙高腰皮靴,略有猶豫的眼睛

大江
2024-12-21 07:50:14
周正毅坐私人飛機飛越南與精英相聚,64歲仍創業雪茄不離手很時尚

周正毅坐私人飛機飛越南與精英相聚,64歲仍創業雪茄不離手很時尚

阿矗論古今
2025-04-19 23:02:14
意想不到的結果,中國贏得全球尊重!特朗普終于明白:施壓沒用的

意想不到的結果,中國贏得全球尊重!特朗普終于明白:施壓沒用的

界史
2025-04-22 10:50:40
世乒賽陣容惹爭議!王楚欽沒馬龍保駕棄男雙,再搭孫穎莎混雙保冠

世乒賽陣容惹爭議!王楚欽沒馬龍保駕棄男雙,再搭孫穎莎混雙保冠

三十年萊斯特城球迷
2025-04-21 22:42:46
英媒曝穆里尼奧下一站,蘇超老二,提關鍵條件:新老板需支持引援

英媒曝穆里尼奧下一站,蘇超老二,提關鍵條件:新老板需支持引援

金風說
2025-04-22 08:27:41
宋喆出獄一年半,隱居河北小縣城打零工維生,曾試圖聯系馬蓉未果

宋喆出獄一年半,隱居河北小縣城打零工維生,曾試圖聯系馬蓉未果

娛樂白名單
2025-03-23 21:52:42
落袋為安,超30億“跑了”

落袋為安,超30億“跑了”

中國基金報
2025-04-22 12:20:51
樊振東缺席原因揭曉,直板選手進世乒賽,王皓講破格提拔京隊太子

樊振東缺席原因揭曉,直板選手進世乒賽,王皓講破格提拔京隊太子

三十年萊斯特城球迷
2025-04-21 22:22:01
Lisa科切拉開場表演,LV三公子到場觀看,像極了在瘋馬秀上的邂逅

Lisa科切拉開場表演,LV三公子到場觀看,像極了在瘋馬秀上的邂逅

芊手若
2025-04-19 16:15:00
羅翔老師解釋婚內強奸,按他的說法,中國有幾億男人都犯過強奸罪

羅翔老師解釋婚內強奸,按他的說法,中國有幾億男人都犯過強奸罪

吳學華看天下
2025-04-21 08:43:37
2025-04-22 12:59:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10387文章數 142296關注度
往期回顧 全部

科技要聞

未脫離困境,分析師稱蘋果股價或再跌近30%

頭條要聞

88歲羅馬教皇方濟各突然去世 遺囑內容對外公布

頭條要聞

88歲羅馬教皇方濟各突然去世 遺囑內容對外公布

體育要聞

當今足壇最瘋的門將,能有多離譜?

娛樂要聞

關曉彤分手風波后首現身!甜美狀態好

財經要聞

沐邦高科危險信號:多筆交易存蹊蹺

汽車要聞

捷途山海T2加長版/山海L9等 捷途新車展前亮相

態度原創

藝術
家居
旅游
手機
教育

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

動靜結合 休閑娛樂并存

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

手機要聞

iQOO Z10 Turbo系列官宣:4月28日發布

教育要聞

“我罵了孩子,就像爸媽20年前罵我時一模一樣!”

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 汶川县| 礼泉县| 淮安市| 陇南市| 中山市| 龙陵县| 贵定县| 任丘市| 安溪县| 大冶市| 桂阳县| 汨罗市| 万源市| 桐梓县| 梁平县| 乐昌市| 江门市| 德惠市| 承德县| 永宁县| 芒康县| 清镇市| 阿克| 正定县| 五家渠市| 白河县| 开阳县| 徐州市| 保亭| 金阳县| 罗山县| 敦化市| 大连市| 彰化县| 平武县| 龙南县| 星座| 黎平县| 青冈县| 依安县| 韩城市|