當前,在安全對齊、代碼生成等下游任務中,大語言模型要想進一步提升性能,往往需要進行強化學習微調。
但是,從強化學習的視角來看,如果把大語言模型當成根據 prompt 做決策的智能體,就會發現強化學習微調這個任務可謂十分困難。
其中主要存在兩個難點:
一是大語言模型擁有非常龐大的離散動作空間,整個 token 字典都是它的動作空間。以 Meta 公司的 Llama2 模型為例,它的動作空間有 32000 維。
而生成一個回答可能包含幾十甚至上千個 token 的組合,其復雜度遠遠大于在強化學習領域已經被解決得很好的圍棋和星際爭霸等任務。
二是稀疏獎勵問題,即大語言模型只有在完整生成一個回答后才會得到一個獎勵。
這兩個問題導致強化學習微調很不穩定,在微調的時候容易使模型的輸出分布大幅偏離預訓練模型,從而導致模型原有的對語言結構的建模發生崩潰(即分布崩潰),進而引發模型輸出質量的急劇下降。
現有很多研究都是從構建密集獎勵函數入手來解決大語言模型的強化學習微調的問題。
但是,中國科學院自動化所博士生馬昊和所在團隊嘗試從多智能體的角度來看這個問題。
結合團隊在群體智能領域的大量積累,他們認為:如果使用多個大語言模型構成一個多智能體系統,在多個大語言模型之間構造一種博弈關系,也許能實現大語言模型能力的進一步涌現。
這一思路的背后主要基于兩個觀察:一是自然語言本身就是在群體交互中涌現的;二是在群體中,智能體間的博弈關系無論是合作關系還是競爭關系,都可以促進軍備競賽或協同演化,從而在智能體之間形成一種相互促進的動態。
那么,如何在多個大語言模型之間構造一種博弈關系?要知道,基于特定任務針對大語言模型進行強化學習微調,它本身是一個單智能體強化學習問題,因此把它構造成博弈問題頗具挑戰。
在嘗試了多種構造方式后,他們最終發現將兩個大語言模型之間的交互構造為 Stackelberg 博弈可以將強化學習微調轉化為一個多智能體強化學習問題,并實現研究初期所設想的“協同演化”。
這種方法包含兩種機制:
1. 從一個初始大語言模型出發,來將其復制成兩份:Pioneer 大語言模型和 Observer 大語言模型,其中前者僅通過任務 prompt 輸出回答,后者則根據任務 prompt 并以前者的回答作為參考來輸出新的回答。
2. 兩個大語言模型智能體通過各自獨立的數據來進行強化學習微調,任務獎勵為兩者之和。當微調到固定輪次之后,再交換兩者的角色,之后反復迭代。
通過此,該團隊打造出一款名為 CORY 的即插即用型框架,任何能被用于微調大語言模型的強化學習算法,都可以放在這個框架中進行使用。
圖 | CORY 的框架(來源:arXiv[1])
馬昊表示,這種方式既能有效地避免分布崩潰,還能確保大語言模型的能力穩定提升。
另外,在消融實驗中他們發現了一個有趣的現象:在不交換兩個智能體的角色的時候,僅僅依靠 Stackelberg 博弈這種信息傳遞,Observer 也能保持一個相對比較低的相對熵。
這意味著 Pioneer 所提供的參考答案構成了一種針對搜索空間的隱式約束,無意中解決了搜索空間過大的問題。
在這個被約束的搜索空間中,更利于 Observer 找到高質量的策略。
隨著高質量預訓練數據的枯竭,大語言模型的基礎能力逐漸達到瓶頸。
而長期來看,強化學習微調是一個能夠打破這種瓶頸的手段,其在數學推理、代碼生成等存在客觀獎勵函數的任務中的上限可能遠超我們想象。
圖 | 馬昊(來源:馬昊)
日前,本次研究的相關論文以《與另一個你共同進化:使用序列合作型多智能體強化學習微調大語言模型》(Coevolving with the Other You: Fine-Tuning LLM with Sequential Cooperative Multi-Agent Reinforcement Learning)為題已被 NeurIPS(Conference and Workshop on Neural Information Processing Systems) 2024 接收 [2]。
(來源:arXiv)
自動化研究所博士生馬昊是第一作者,自動化研究所博士生扈天翼是共同一作,自動化研究所蒲志強研究員擔任通訊作者。
馬昊表示:“CORY 是將多智能體強化學習引入大語言模型的強化學習微調的最早工作。”但是,從多智能體強化學習的角度來看,還有很多可以繼續開展的工作。
比如,增加智能體的數目、改變智能體的角色、在規模性和交互性等群體要素上進行更深入的探討。而這些都將是他和所在團隊的后續研究方向。
參考資料:
1.https://arxiv.org/pdf/2410.06101
2.https://neurips.cc/virtual/2024/poster/95347
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.