近年來,大語言模型(LLM)在人工智能領域取得了突破性進展,成為推動自然語言處理技術發展與通用人工智能實現的核心力量。上下文學習能力(In-Context Learning, ICL)是 LLM 最顯著且重要的能力之一,它允許 LLM 在給定包含輸入輸出示例的提示(prompt)后,直接生成新輸入的輸出,這一過程僅通過前向傳播而無需調整模型權重。這種能力使得 LLM 能夠基于上下文中的示例快速理解并適應新任務,展現出強大的小樣本學習和泛化能力。理解 LLM 是如何實現 ICL 的,對于提高模型性能與效率、提升模型可解釋性與 AI 安全、推廣大模型應用與改進小樣本學習算法具有重要意義,也是近來機器學習研究熱點之一。有以下關鍵問題需要回答:
1.LLM 能夠學到哪些學習算法,例如梯度下降、比較近鄰等?
2. 在具體問題的 ICL 過程中在執行哪一種學習算法?
3. 如何進一步提升 LLM 的 ICL 能力?
ICL 通常建模為將多個已知樣例與預測目標輸入一起,拼接成序列輸入 LLM 中的 transformer 模型,輸出對目標的預測(圖 1 左)。現有工作已證明 ICL 在不同模型和數據分布條件下,能夠分別實現如線性回歸和梯度下降等具體的學習算法,從已知樣例中學習到任務對應輸入輸出映射,并作用于目標輸入上產生預測輸出。而這種學習算法是 transformer 模型通過預訓練過程得到的,現實中 LLM 的預訓練涉及海量的文本數據,含有復雜的語義信息,難以用單一的數學分布建模。現有工作對 ICL 實現小樣本學習算法的解釋難以泛化到真實世界場景或實際 LLM。為了對 ICL 的小樣本學習能力有更直觀的認識,在近期發表于 ICLR2025 的工作 “Why In-Context Learning Models are Good Few-Shot Learners?” 中我們對 ICL 模型作為元學習器的本質進行了建模與研究,以對上面三個問題進行了回答。
- 論文鏈接:https://openreview.net/pdf?id=iLUcsecZJp
- 代碼鏈接:https://github.com/ovo67/Uni_ICL
1. 將 LLM 建模為元學習器覆蓋學習算法空間
ICL 模型可以學到所有傳統元學習器學到的算法。元學習(Meta-Learning)是一種 “學習如何學習” 的方法,可通過設計模型使其能夠快速適應新任務應用于小樣本學習。它通過在多個相關任務上進行訓練,學習到一種通用的學習策略或算法,從而在面對新任務時能夠快速調整自身參數或結構,實現快速優化和泛化。借助元學習領域成熟的理論基礎與方法經驗,理論證明了作為實現學習算法的模型,基于 transformer 的 ICL 模型與傳統的元學習器相比具有更強的表達能力(圖 1 右)。
圖 1 大語言模型的上下文學習示例,以及上下文學習模型在學習算法空間中與傳統元學習模型的關系。
2. ICL 模型學到并執行在預訓練分布上最優的算法
ICL 算法的學習是通過對預訓練數據分布的擬合。在預訓練充足的情況下,ICL 模型能夠學習到在預訓練任務集上最優(在與訓練數據分布上最小化損失)的學習算法,從而在僅有少量樣本的情況下實現快速適應。我們構建三類已知最優算法(Pair-wise metric-based/Class-prototype metric-based/Amortization-based 三種任務的最優算法分別可由元學習器 MatchNet/ProtoNet/CNPs 學習得到,圖 3a)的任務。首先分別在單一種類任務集上訓練,測試表明 ICL 性能與該預訓練數據下能學到的最優算法表現相當(圖 2 上)。然后再混合三種任務集上訓練,三種傳統元學習器的性能都有所下降,而 ICL 的性能依然與單一種類任務訓練得到的最優性能一致(圖 2 下)。以上結果說明 ICL 模型能夠學習到預訓練任務集上最優的學習算法,并且與傳統的元學習器相比 ICL 模型具有更強的表達能力,因為它們不僅能夠學習到已知的最優學習算法,還能夠根據數據的分布特性表達出傳統視野之外的學習算法,這使得 ICL 模型在處理多樣化任務時具有顯著優勢。
圖 2(上)分別在三種任務集上訓練并對應測試的測試表現;(下)在混合任務集上訓練并分別測試三種任務的性能表現。
我們還對 ICL 模型學習到的算法的泛化性進行了實驗研究。展示出了其作為深度神經網絡受數據分布影響的特性:其預訓練過程本質上是在擬合以特定結構輸入的訓練任務集的數據分布,而無法保證學習到顯式的基于規則的學習算法,這一發現糾正了現有工作將 ICL 解釋為算法選擇(Algorithm Selection)的過程。這將導致 ICL 模型在預訓練數據受限或測試數據分布有偏移時性能表現不及預期(圖 3)。
圖 3 ICL 與 “算法選擇” 行為的比較(a)兩種模型在三類已知最優算法的任務上訓練,在未知最優算法任務上測試;(b)對于測試任務 ICL 可以處理而 “算法選擇” 無法處理;(b)ICL 對測試數據分布敏感而 “算法選擇” 不敏感。
3. 將傳統深度網絡的相關方法遷移到元學習層面以提升 ICL 性能
基于上述對 ICL 模型作為學習算法強表達、難泛化的認識,可以將 ICL 模型對特性與傳統深度神經網絡的特性進行類比。我們提出通過 “樣本 - 任務” 的概念映射將傳統深度學習技巧遷移到元學習層面以優化 ICL 模型。例如實現了基于任務難度的元課程學習提升 ICL 模型預訓練過程的收斂速度:圖 4 展示了對于線性回歸任務以遞增非零維度數量作為課程的效果,元 - 課程學習能有效加速 ICL 模型的收斂,但不一定提升其最終性能。
圖 4 元 - 課程學習(左)訓練過程 loss 變化;(中)200000 episodes 時的測試結果;(右)500000 episodes 時的測試結果。
又例如實現了基于領域劃分的元 - 元學習,即將訓練數據劃分為多個領域,每個領域含有一個訓練任務集和驗證任務集,即可將以單個任務為輸入的 ICL 模型作為待適應網絡,構建元 - 元學習器在每個領域上利用訓練任務集進行適應。實驗效果如圖 5 所示,提升了 ICL 模型的有限垂域數據高效適應能力。
圖 5 采用元 - 元學習的 ICL 模型分別在給定每領域 64/256/1024 個任務時的適應表現。
4. 總結
本文通過將 ICL 模型建模為元學習器,證明了 ICL 模型具有超過已有元學習器的表達學習算法的能力;ICL 執行在預訓練數據分布上最優的算法,而不一定具有可泛化的規則;可以將傳統深度網絡有關技術遷移到元學習層面用以提升 ICL,如元 - 課程學習加速預訓練收斂,元 - 元學習提升少數據領域微調快速適應能力。
作者介紹
吳世光,清華大學電子工程系博士研究生,本科畢業于清華大學電子工程系。當前主要研究方向包括元學習與大語言模型。
王雅晴,現任北京雁棲湖應用數學研究院(BIMSA)副研究員,長期從事機器學習、人工智能和科學智能的研究,致力于構建高效、低成本的智能算法,以精準匹配海量數據的科學解釋并解決現實問題。她在 NeurIPS、ICML、ICLR、KDD、WWW、SIGIR、TPAMI、JMLR、TIP 等國際頂級會議和期刊上發表 27 篇論文,總被引用 4500 次。2024 年,她入選全球前 2% 頂尖科學家榜單。
姚權銘,現任清華大學電子工程系助理教授,研究方向為機器學習和深度學習。共發表文章 100 + 篇,涵蓋機器學習領域頂級期刊 JMLR、IEEE TPAMI 和頂級會議 ICML、NeurIPS、ICLR 等,累計引用超 1.2 萬余次。擔任 ICML、NeurIPS、ICLR 等會議領域主席,NN、TMLR、MLJ 等期刊(資深)編委。獲首屆螞蟻 In Tech 科技獎、國際人工智能學會(AAAI)學術新星、國際神經網絡學會(INNS)青年研究員獎、吳文俊人工智能學會優秀青年獎,同時入選全球 Top 50 華人 AI 青年學者榜和福布斯 30under30 精英榜。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.