網易首頁 > 網易號 > 正文申請入駐

通向AGI的四層階梯

2025-04-24 20:37:45　來源: 學術頭條

北京舉報

分享至

作者：孫浩

https://zhuanlan.zhihu.com/p/1896382036689810197

RL + LLM 升級之路的四層階梯。

2025 年伊始，RL 以一種破局歸來的姿態在 LLM 的后訓練時代證明了其巨大價值，Sutton 和 Barto 拿了圖靈獎，David Silver 去年在 RLC 上說 “（RL 受關注的程度）終將跨越 LLM 帶來的低谷”，竟然來得如此之快。

PhD 這些年即將告一段落，這幾個月梳理先前的工作，準備 Tutorial，借鑒了不少去年從 RLC 上聽 David Silver 講過的思想，在這個 “RL Finally Generalizes (Shunyu Yao)” 的時代到來之際，也一直想寫一篇文章作為整理，恰好最近讀 Silver 和 Sutton 一起寫的《經驗時代》(Welcome to the era of experience)，結合了一些自己的思考和理解，在出發開會前寫下這篇文章，拋磚引玉，希望在新加坡可以和大家有更多的深度交流【關于 RL，Alignment，Reasoning，Agent，MCP，以及其他有關 AGI 的一切！】

RLxLLM 的當下

成功歸于 Inverse RL 和 Data-Driven Reward Models

0.1 RL 和 LLM 分別強在哪里？

距離 AlphaGo 擊敗李世石已經快有十年，這期間 RL 征服了各種棋類游戲，即時策略游戲，也被應用到了各種系統的性能優化當中。在這些任務中，RL總能找到比人類專家更好的策略，它能將優化做到極致。也有在持續訓練中不斷提升的潛力。RL 找到的策略和解決方案，可以給人類專家帶來啟發 —— 雖然這并不容易。一個著名的例子是 AlphaGo 的 "Move 37"，它被當作 “RL 具有創造力” 的驗證。

另一方面，數據驅動的生成模型在更好的架構，更穩定的優化器，更強的算力，更科學的算法，種種 buff 加持之下不斷朝著 scaling law 的前沿推進。如今包括 Sora，StableDiffusion，GPT 在內的這些模型已經可以很好地理解用戶，按照指令生成能讓用戶滿意（甚至驚喜）的文字，圖片，和視頻。

然而，世界上的數據總量是有限的，即使 Scaling Law 總是成立，數據也遲早會枯竭。數據驅動的生成模型雖然有諸多優勢 —— 比如在小樣本上極強的泛化能力，強大的指令跟隨能力，以及自然語言模型天然的可解釋性 —— 然而這些模型不具備 RL 系統所擁有的創造力，持續進步提升的能力，和糾錯的能力，也無法超越人類的專家水平。

0.2 RL + LLM?

那么，有沒有可能有一個系統，它可以和 Data-Driven 的大模型一樣去理解、幫助人，同時又可以不斷迭代更新自己，糾錯和變強呢？

從 LLM4RL 的角度來說，如果我們能用 LLM 實現 super-human performance，那么用自然語言為媒介可以更加容易地把這些 RL 系統的創造力用來啟發人類。
從 RL4LLM 的角度來說，RL 可以賦予 LLM 不斷提升（由 Reward 定義的任務上性能）的能力。如果把 Alignment 和 Post-train 統一地定義為提升特定方向的能力，那 post-train/alignment 的優化方向本身就是和 RL 這一學習范式非常契合的。

在數學領域，去年 AlphaProof+Alpha Geometry2 拿了 IMO 的銀牌，今年 DeepSeek R1 的風已經席卷了全世界；在通用聊天領域，RLHF 里如火如荼的_PO 研究已經即將用盡字母表，龐大的用戶規模加上 preference 標注為 OpenAI 提供了源源不斷建模用戶偏好，改進用戶體驗的數據。這些都是 RL + LLM 的成功。那么，如果想要把 RL + LLM 這一范式推廣到更多的場景，我們面臨的困難是什么？比較有潛力的解決方案是什么？這正是我們之前的 Tutorial 希望重點向大家介紹的 —— 當前的 LLM Alignment 是一種數據驅動（人類經驗驅動）的 RL，Inverse RL 是這里最自然和簡單的方案。

LLM 從人類生成的數據或反饋中學習 —— 也就是 Silver&Sutton 文章里所說的 "Human-Centered AI"。過去兩年我參與的 IRLxLLM 的研究也圍繞著 “如何從不同數據中構建更好的獎勵模型” 進行探索 *[1]。

既然是探索，當然不該止步于 “什么方案最簡單，最自然”，也要想未來進一步優化的方向在哪里。

0.3 人類如何學習？

相比 LLM，人類的學習似乎 “容易” 很多，人類不需要也不可能看完所有的書，電視，電影，不會去過所有的地方，但一樣可以擁有（更）高程度的智能 —— 可以理解世界，推理，創造，交流，學習。人先在成長初期通過語言學習，交互，理解；同時通過和世界的簡單交互了解非常簡單的 "物理"(world model, laws)；后來習得書寫和文字，又在游戲 / 虛擬世界中學習，學會從互聯網上主動尋找有用的信息，最終通過和世界以及社會的交互不斷提升能力。我想這恰好可以對應 LLM+RL 發展的四個不同階段：Data-Driven，Game， Virtual Interaction，Physical Interaction。（人類在學習過程中，除了幼兒時期學語言幾乎嚴格早于其他三者，剩下的學習過程是持續，同步發生的，這里的層級遞進關系不一定成立。從 LLM -> AGI 的角度，分成這幾層主要是考慮到實現起來的困難程度和安全可控程度。）

當下，主流的方法站在AGI 的第一層：通過 Data-Driven Reward Model + RL 提升任務性能，接下來我們從這一層開始聊起。

第一層：【Data-Driven RL】(Human-Centered) RL with Data-Driven Reward Model

1.1 如何理解當下 Post-Training 中的 RL？

RL 是什么

從 RL 的基礎談起 —— 從統計的角度，RL 研究的是如何在動態變化的數據分布中主動學習并建模（包括策略建模和環境建模，有前者可以 Black-box policy inference，有后者可以做 planning）；用更 RL 一點的語言描述，就是如何在和環境的交互中找到長期回報最高的策略。

解決思路上來說，不同的方法都在嘗試于探索和利用之間找到平衡（無論是對環境 / Dynamics 的探索還是對策略的探索）。從這個角度出發，也可以理解為什么沒有某種探索策略或者學習方法總是好的—— 對于任何的探索策略，總能針對它設計 counter example，使得這種探索方法不是最優。而隨機性是應對 counter example 設計的強有力工具。這也是為什么 MaxEntropy 類方法總是拿一個 random policy 的 KL 保持探索，且這一類方法總是在各種環境中都不太差的原因。

RL 優化 “長期回報”，這意味著首先要定義什么是回報 (Reward)，在大多數任務中，沒有這樣的 Reward。所以我們無法做到從 “和環境交互中優化策略”，而只能讓 LLM 從人類的語言數據中學習，也就是從行為中學習。方法上分為兩大類：(1) 模仿學習 (Imitation Learning)—— 比如 Behavior Clone，就是直接對著行為做監督學習，來生成與行為數據相同的行為模式；(2) 逆強化學習 (Inverse Reinforcement Learning)—— 先通過行為數據找到這些行為在嘗試優化的獎勵函數，然后用這個獎勵函數做 RL 來生成與行為數據相同的行為模式。

Post-Train 在做什么

(1).[Behavior Clone]先從 Pre-train 說起，Pre-train model 的任務是預測下一個 token，也就是非常經典的 Behavior Clone，模仿人類的語料庫。隨著訓練規模的擴大，模型各方面的能力不斷提升，開始有能力理解比字面意更深層的語義，學會更能泛化更加有效的 embedding 模式，并且在新的任務上有了 few-shot 甚至 zero-shot 的能力。

(2).[Prompt Engineering]Post-train 階段，我們從最簡單的 prompt-optimization（或者 in-context learning）說起。因為這些 Autoregressive LLM 都是 Conditional Generator，隨著輸入的變化，輸出 token 的條件概率和分布也會隨之變化。因此，通過控制輸入的樣本，甚至是問問題的方式，都可以讓模型在特定任務上達到更好的表現。這個方向在 2023 年是比較熱的話題，后來的趨勢是隨著模型能力的提升，prompt optimization 的邊際效應過于明顯，并且大家意識到對著某一個 LLM 做 prompt engineering 很大概率是在 overfit test set，到下一個迭代的版本就又要重新找，與此同時 "lazy prompting (Andrew Ng)" 的效果也越來越好，工程上也需要在成本和性能之間進行更好的權衡。

(3).[Supervised Fine-Tuning]接下來，如果我們有一些高質量的垂類數據或專家數據，在這個小規模數據集上進行監督微調 Supervised Fine Tuning 效果也可能會不錯，且這個過程簡單穩定，非常適合資源有限，數據質量高，任務對 LLM 基模來說相對簡單，并不追求極致的性能改進的場景。

總結來看，Post-train 的總體目標是通過少量的高質量樣本，來調整基座模型生成回答的數據分布，使之適應新的任務或特定的某類由樣本特性所定義的任務。BC 和 SFT 是直接的模仿學習手段，而 Prompt-Engineering 很有一種 Prior-hacking 的味道，我們姑且把它也歸為一種對 "成功 prior hacking 經驗的模仿"。最近一年里有很多工作講了 SFT 和 RL (HF) 分別在做什么，有很多種含義相近的描述，比如 SFT 負責記憶，RL 負責泛化，SFT 做 mass-covering，RL 做 Mode-Seeking。接下來，我們通過三個例子來看為什么有了 SFT/Prompt-Engineering 這些簡單有效的方法，還需要 RL，或者說需要Reward Model。

1.2 為什么用 Inverse RL 來解決 Data-Driven RL？

Inverse-RL 中的重要一步是通過數據建模 Reward Model，從而使不完整的 MDP\R 問題轉化為完整的 MDP，進而能夠調用 RL 工具去解決。我們把這里從人類行為數據出發，建模獎勵函數的過程稱為 (Neural) Reward Modeling，這是現階段的主流做法，也是 Silver 和 Sutton 在文章中提到的 Human-Centered AI。我們通過以下三個例子來理解 Reward Model 的作用與優勢

1. Inverse RL (Reward Models) 可以收集更加規模化的數據

這里舉 ChatGPT 的例子 —— 當我們使用 GPT 的時候，會遇到讓我們提供 preference，幫助 OpenAI 提供未來模型的選項，這件事能大規模應用的主要原因是 Preference 這個判別任務遠比demonstration 的生成任務更加容易和可拓展。我們能欣賞頂級網球選手打球，看谷愛凌蘇翊鳴飛臺子看 FWT，不需要我們自身有很高的運動水平

2. Inverse RL (Reward Models) 可以幫助找到更有泛化能力的解決方案

在 DeepSeek R1 的數學任務中，Rule-based (Data-Driven) reward model 給了 LLM 最大限度的自由度去探索有可能能夠成功的回答問題模式，這種自由度允許模型自己去發現 “long chain-of-thought” 這種行為可以有效提升回答正確的可能，進而把最能夠泛化的做題能力保持住。這里 (Outcome) RM 是因，找到可泛化的 pattern 是果，具體如何更高效率地 exploration，或者學這些發現的 pattern，是因果之間的媒介 —— 它會影響學習效率，但不會影響 “能不能學”。

3. Inverse RL (Reward Models) 是 Inference Time Optimization 的基礎

正如文章一開始所說，在普通的 RL 任務中，沒有 “Inference-Time” 和 “Training-Time” 的區別，大多數 RL 都是在測試任務上訓練的。所以大多數 RL Policy 解決任務的方式就是訓練完了之后部署在這個系統上做 Inference，每次生成 action 只需要 Network Forward 一把，也談不上 Inference Time Optimization（比如 Mujoco/Atari 都是這樣的任務）。然而，在圍棋任務中，目前還沒有每一步直接做一次 Neural Network Inference 就能擊敗人類頂級選手的 RL Policy，需要這些 Policy Network 配合 Value Network 做 MCTS 才能取得較好的效果。在這個過程中，value network 扮演的決策就是一個 "dense reward function"，能夠在 inference 過程中把不好的 action 過濾掉。

同理，Reward Model 在困難的 LLM 任務中也可以扮演 Inference-time 過濾器的角色，它總能和已有的 post-train 方法相結合，進一步提升 LLM 生成的質量。

1.3 為什么關注 Inverse (Reward Model) 部分而不是 Forward (Policy Optimization) 部分

首先，準確的 evaluation 是一切算法改進的根基。Online RL 的工具庫里有很多工具，但這些工具能用的前提是有一個靠譜的 Reward Model。找到問題出在哪是研究的第一步，如果 Reward Model 沒有研究清楚，在第二階段各種 RL 算法如此難收斂，超參如此之多又如此敏感，LLM 的訓練又如此之慢的前提下，對著不靠譜的 Reward Model 做優化，得到的實驗觀察很難總結出可信的結論（更別提有人不到 10 個數據點取完 log 都 fit 不好也起名叫 scaling law 了）。

此外，RL 領域無數任務中的經驗告訴我們，RL 里沒有 Silver Bullet，最重要的是理解任務的特點，并根據任務（數據，獎勵性質，系統性質，算力約束）去優化相應的算法。DPO 和 GRPO 的成功不是因為它們是 LLM 時代的策略優化萬金油，而是因為它們找到了先前系統中存在的問題（冗余），根據任務的需求和硬件進行了優化。

1.4 為什么 Reasoning 是這一層里最重要 (和目前為止最成功) 的任務

首先是觀察：Reasoning task 確實可以提升模型 "聰明" 的程度，跟隨用戶指令，完成任務和解決問題的能力，在數學上訓出來的模型，整體能力都提升了。

其次是動機：如果能夠真的讓 LLM reasoning 起來，行為上具有想的越久，正確率越高的能力，那么這個系統興許真的可以自舉起來。數學家不斷推理就有可能發現新的定理，提出新的問題，或是在解決問題的方向上取得進展。不過話說回來，用沒有這種能力的模型嘗試達到 “左腳踩右腳原地起飛” 的效果，并且用 “左腳踩右腳原地起飛” 宣傳工作，或許有點不太合適。。

第二層：【Game】Experience from Games and Rule-based Tasks

在第一層，我們知道通過人類的經驗，反饋，或是人工生成的題庫來建立獎勵模型，可以把 LLM Post-Train 這個缺失了 Reward Function 的 MDP\R 問題轉化成完整的 MDP 問題。這種數據驅動的方式廉價，可規模化，在數學任務上優化過后取得了非常好的優化泛化性，顯著提升了模型的通用能力。但是但凡是有限樣本擬合的獎勵函數，都會有過擬合的風險，只是不同的模型，不同規模的數據，不同的任務，這種過擬合的風險不同罷了。Reward Model 的過擬合帶來的后果是 Reward Hacking，也就是朝著背離 Reward 設計初衷的方向狂奔，比如 helpful 這個任務里一個經典的 reward hacking 是 "length bias"—— 模型不管說的話有沒有用，發現說的越多分數越高，就可勁輸出廢話。

短期來看，我們可以想辦法在有限的范圍內緩解 Reward hacking，就像這一路 data-driven 的科研模式中大家通過各種方式減少 overfit，提升模型的泛化性一樣。但是長期來看，這種發展不符合數據 x 算力這種更加可預測的擴張模式 —— 在所有有可能的改進中，算法的改進可能是最難預測的（天不生 Sutton，RL 如長夜）

那么，除了數學，還有什么任務是或許可以突破數據瓶頸，增強模型能力的呢？回想人類幼崽的學習過程，從小時候學會了語言之后，首先接觸的是游戲！技術上來講，游戲往往是定義良好的完整 MDP，十幾年前我們用游戲訓練了 DeepRL 算法，那如果 DeepRL 算法運行在 LLM 上呢？

我們的終極目標是通過在環境中進行無窮多次的嘗試探索，讓 LLM 不斷提升自己的理解 / 推理 / 規劃 / 指令跟隨能力。游戲恰好提供了這樣的（廉價模擬）環境 —— 想要在游戲中取勝，需要首先理解其規則，進而在規則限定的范圍內對策略進行優化。這里的游戲包括文字為基礎的辯論 / 討論類型的游戲，規則更為明確的棋牌類游戲，以及其他更一般的 3D 類型游戲。其中文字 / 辯論類游戲的勝負判斷相對困難，但輸入輸出空間最適用于語言模型。棋牌類游戲雖然可行，但輸入輸出空間的表征適配或許是一個較大的挑戰。更復雜一些的游戲雖然可行，但現在 LLM 包括 VLM 的能力可能距離玩好這些游戲太遠了，找到合適的 curriculum 和任務是重要的問題。從去年下半年開始 ^*[3]，我們陸續看到了這個方向的嘗試，包括簡單的 Atari，貪吃蛇類型游戲，3D，Text-based game，未來可期，但也有諸多亟待解決的問題：

什么樣的任務最適合評估 LLM 的能力？如何避免 text-based game 中的 cheating？
怎樣找到 LLM 處理輸入輸出，理解游戲的最佳表示？
什么樣的游戲可以最全面地發展 LLM 個方面的能力（而不至于讓 LLM “玩物喪志” overfit 到游戲）
游戲中取得的進展是否可以像數學一樣帶來全面的能力提升？
如果允許調用 Tool（比如 AlphaGo 的 value function 或者 GTO 軟件），LLM 還能（需要）在這個過程中學會推理嗎，學會造輪子更重要還是使用輪子更重要
這里是否會有一個對應的 game supremacy scaling law 之類的東西存在？游戲提升 LLM 推理能力的上限在哪里

解決了這些問題之后，大規模上 Self-Play，突破目前的數據局限，提升 LLM 的推理能力就只剩下算力問題。

第三層：【Virtual Experience】“Experience” in the Virtual World

在過去兩年做 Alignment 研究的過程中，一直很想做但又沒有合適機會的方向是 Agent——Agent 是一個非常面向產品 / 用戶 / 落地的課題，工程上的優化，用戶的反饋，活躍開發社群的建設和維護都十分重要。除此之外，即使可以在研究中盡可能地將基座模型的能力和框架以及學習范式二者分離，基座模型的能力提升往往可以直接帶來質變。

至于非技術上的問題，例如早期大家擔心的適配與權限問題，目前看來在 MCP 到來以后都不再是重點。除非數據的擁有者能做到壟斷，不然市場的反向選擇一定會讓數據的擁有者對 Agent 更加開放。當然，一切的前提都是 Agent 背后有足量用戶的支持，Agent 足夠強大和有用。從這個角度看，Agent 時代做內容和社交，或許能帶來洗牌的機會。Agent 時代很或許會有新的微信。

從 RL 的角度，Agent 時代也有更多的機遇和挑戰：

首先，Agent 與虛擬世界（互聯網中的內容）進行交互，完成 “任務”。所以其實 Agent 相比 LLM 的變化，重點不在于加了幾個 prompt，引入了工作流，而是增加了很多它們和非語言系統交互的可能性。有交互就會有反饋，這些反饋信息是一手的，真實的，on-policy 的，用 Silver 和 Sutton 的話說就是它們自己的 Experience。

在這個交互過程中，用戶可以定義無窮多的任務，并且提供任務是否成功的反饋。相比在游戲中進行 self-play，直接和用戶打交道的 Agent 所參與的場景和用戶的日常需求高度對齊，不太需要擔心能力提升的泛化問題。通過用戶眾包形式的反饋，提升 Agent 的能力就像是在培養具有專業技能的勞動者。

更重要的是，Agent 達成目標這個任務屬于 RL 中的 Multi-Goal 問題，Multi-Goal 最大的特點就是很方便從失敗的經驗中學習 (Hindsight Methods)。舉個例子，LLM 做數學題的時候，一道題做錯了，生成的錯誤答案只能通過 “反思，糾錯”，來幫助 LLM 以后在類似的題上不犯同樣的錯誤 —— 但是它很有可能會犯別的錯誤。這里失敗的經驗只能被拿來做排除法，從失敗中學習難就難在失敗的可能千千萬，成功的路徑相比之下要稀缺很多。所以數學就不是一個很好的 “multi-goal” 的例子 —— 沒有人會把 “做錯這道題” 當成一個有效的目標。

再來看 Agent 達成目標這個任務，如果我讓 Agent 幫我【訂一張從北京到上海的火車票】，結果 Agent 一通操作，幫我買了一張從北京到深圳的機票，我們會認為這個任務失敗了，但是這個失敗的經驗只是對于原始的目標失敗了，如果有一天我想從北京去深圳，這次 Agent 的失敗經驗是很有用的，只需要更改這次失敗經驗的目標，就可以讓 Agent 的 Experience 中有【訂一張從北京到深圳的機票】這個目標應該如何達成這一條，對著成功的案例學習，效率自然會比用排除法高很多。

在這些機遇背后，很多技術問題的答案也讓人充滿好奇 ——

可以規模化的持續學習的能力如何注入，范式是什么
RL 會有 plasticity vanishment 的問題，GPT 系列模型做 Supervised Learning 的 scaling law 到了 RL 還是否存在？
大規模的 Agent Learning 是工程和算力的雙重挑戰。人類社會是多元的，Agent 更像是人類社會中承擔不同工作的員工們，人類的多元化和不同的天賦讓分工更加明確，并且持續積累經驗，不斷提升專業化的程度和業務能力。用 Prompt 給 Agent 注入的 Diversity 或許幫助有限，用 Fine-tuning 甚至不同的 pretrain model 又難以支撐。
Agentic Personalization 是必然的趨勢，但端側友好的輕量化實現目前并沒有好的方案。對齊和監管要求這個過程必然是中心化進行的，如果要用目前的技術手段做到這個規模的中心化，英偉達的卡是不是需要普及到人手一塊。

第四層：【Physical Experience】“Experience” in the Physical World

最近兩年機器人和具身智能再度火熱，早期做 RL 方向的同學可能大多都對這個方向有著比較深的感情，robot control、mujoco 應該是當年開始 RL 的時候大家最先接觸的任務。能夠和物理世界做真實交互的機器人一定是未來，但是硬件和倫理是兩大繞不開的挑戰。硬件的成本會隨著技術的進步不斷降低，但風險和倫理問題一眼還需要更多思考。

硬件方面，2020 年和朋友一起琢磨過面向發燒友的手工出海，做過一條非常簡易的 “四足機器 (狗？)”。元件就是幾個電機，樹莓派，四條腿是一次性筷子做的，拍腦袋寫了個聲控往前爬往后爬的運動模式。然而出師未捷，內憂外患一起出現 —— 貿易戰升級，小米也出了一款價格四位數的消費級器狗。對比過后發現硬件這個東西不比服務或者互聯網，一分價格一分貨，且重資產輕技術，十幾二十塊的電機就是做不到精準有力的操控，力度不夠就是沒辦法后空翻，這個產品或許只能賣給發燒友搞著玩，價格也不便宜，后來就不了了之了。

更現實一些，距離我們生活最近的場景是智能 (輔助) 駕駛，在這個場景里，車是市場上存在的剛醒需求，客戶不會因為智能的 “具身” 支付太多額外的硬件成本。車作為智能的載體，能執行的動作也比較有限，更加可控。即使在這樣的 Embodied AI 系統里 —— 我們多大程度上可以接受自己的車一邊開一邊學，增強推理和理解場景的能力？多大程度上可以接受它犯錯？誰來承擔系統的錯誤。

人的分工和相互信任建立在長時間的社會穩定和協作共贏之上，但人和機器如何做到互信，要花多久？當智能能夠通過具身或者物理世界的載體和人交互，就不可避免會帶來倫理問題，包括我在內的大多數的技術 / 科研工作者對此可能都一無所知，這里也就不多做討論。可以確定的是，AGI 時代會有更多的挑戰，關于 AI Safety 的探討也會更加迫切，當 Agent 有有了無限探索的能力和物理世界做交互的時候，碳基文明的存亡也有了實實在在的威脅。

在 AGI 的前夜，人類更加需要偉大哲學家的指引

[1] 過去兩年我參與的 IRLxLLM 的研究也圍繞著 “如何從不同數據中構建更好的獎勵模型” 進行探索

ICLR'24: RM for Math & Prompting;

ICML'24: Dense RM for RLHF;

RLC workshop'24: RM from Demonstration data;

DMRL'24: When is RM (off-policy-evaluation) useful?;

ICLR'25: foundation of RM from preference data;

Preprint (s)'25: Active RM, Infra for Embedding-based Efficient RM Research, PCA for Diverse/Personalized RM)

[2] 關于未來方向的暢想，理解和思路上距離在 Agent 方向深耕的研究難免會有偏差，煩請大家不吝斧正！

[3] 更早一些在 2023 年底的 NeurIPS 就有一篇工作是講外交類游戲博弈的，希望 LLM+Game 這個方向的未來不要步前幾年的 RL + 阿瓦隆 / 狼人殺 /xx 游戲的后塵，而是在選擇任務上多一些思考，做長期更有價值的探索！

作者簡介

孫浩是劍橋大學 4 年級在讀博士生，研究課題為強化學習和大語言模型的對齊（后訓練）。他關于強化學習的研究涵蓋了稀疏獎勵，獎勵塑形，可解釋性等課題，研究發表于 NeurIPS 會議；在關于大語言模型對齊的工作中，重點關注如何從數據中獲得獎勵函數，提升大模型在對話和數學上的能力，論文發表于 ICLR 會議，并參與貢獻了 AAAI2025 和 ACL2025 的系列課程報告。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.