通向AGI的四層階梯

2025-04-24 20:37:45　來源: 學術頭條

北京舉報

分享至

作者：孫浩

https://zhuanlan.zhihu.com/p/1896382036689810197

RL + LLM 升級之路的四層階梯。

2025 年伊始，RL 以一種破局歸來的姿態(tài)在 LLM 的后訓練時代證明了其巨大價值，Sutton 和 Barto 拿了圖靈獎，David Silver 去年在 RLC 上說 “（RL 受關注的程度）終將跨越 LLM 帶來的低谷”，竟然來得如此之快。

PhD 這些年即將告一段落，這幾個月梳理先前的工作，準備 Tutorial，借鑒了不少去年從 RLC 上聽 David Silver 講過的思想，在這個 “RL Finally Generalizes (Shunyu Yao)” 的時代到來之際，也一直想寫一篇文章作為整理，恰好最近讀 Silver 和 Sutton 一起寫的《經(jīng)驗時代》(Welcome to the era of experience)，結合了一些自己的思考和理解，在出發(fā)開會前寫下這篇文章，拋磚引玉，希望在新加坡可以和大家有更多的深度交流【關于 RL，Alignment，Reasoning，Agent，MCP，以及其他有關 AGI 的一切！】

RLxLLM 的當下

成功歸于 Inverse RL 和 Data-Driven Reward Models

0.1 RL 和 LLM 分別強在哪里？

距離 AlphaGo 擊敗李世石已經(jīng)快有十年，這期間 RL 征服了各種棋類游戲，即時策略游戲，也被應用到了各種系統(tǒng)的性能優(yōu)化當中。在這些任務中，RL總能找到比人類專家更好的策略，它能將優(yōu)化做到極致。也有在持續(xù)訓練中不斷提升的潛力。RL 找到的策略和解決方案，可以給人類專家?guī)韱l(fā) —— 雖然這并不容易。一個著名的例子是 AlphaGo 的 "Move 37"，它被當作 “RL 具有創(chuàng)造力” 的驗證。

另一方面，數(shù)據(jù)驅(qū)動的生成模型在更好的架構，更穩(wěn)定的優(yōu)化器，更強的算力，更科學的算法，種種 buff 加持之下不斷朝著 scaling law 的前沿推進。如今包括 Sora，StableDiffusion，GPT 在內(nèi)的這些模型已經(jīng)可以很好地理解用戶，按照指令生成能讓用戶滿意（甚至驚喜）的文字，圖片，和視頻。

然而，世界上的數(shù)據(jù)總量是有限的，即使 Scaling Law 總是成立，數(shù)據(jù)也遲早會枯竭。數(shù)據(jù)驅(qū)動的生成模型雖然有諸多優(yōu)勢 —— 比如在小樣本上極強的泛化能力，強大的指令跟隨能力，以及自然語言模型天然的可解釋性 —— 然而這些模型不具備 RL 系統(tǒng)所擁有的創(chuàng)造力，持續(xù)進步提升的能力，和糾錯的能力，也無法超越人類的專家水平。

0.2 RL + LLM?

那么，有沒有可能有一個系統(tǒng)，它可以和 Data-Driven 的大模型一樣去理解、幫助人，同時又可以不斷迭代更新自己，糾錯和變強呢？

從 LLM4RL 的角度來說，如果我們能用 LLM 實現(xiàn) super-human performance，那么用自然語言為媒介可以更加容易地把這些 RL 系統(tǒng)的創(chuàng)造力用來啟發(fā)人類。
從 RL4LLM 的角度來說，RL 可以賦予 LLM 不斷提升（由 Reward 定義的任務上性能）的能力。如果把 Alignment 和 Post-train 統(tǒng)一地定義為提升特定方向的能力，那 post-train/alignment 的優(yōu)化方向本身就是和 RL 這一學習范式非常契合的。

在數(shù)學領域，去年 AlphaProof+Alpha Geometry2 拿了 IMO 的銀牌，今年 DeepSeek R1 的風已經(jīng)席卷了全世界；在通用聊天領域，RLHF 里如火如荼的_PO 研究已經(jīng)即將用盡字母表，龐大的用戶規(guī)模加上 preference 標注為 OpenAI 提供了源源不斷建模用戶偏好，改進用戶體驗的數(shù)據(jù)。這些都是 RL + LLM 的成功。那么，如果想要把 RL + LLM 這一范式推廣到更多的場景，我們面臨的困難是什么？比較有潛力的解決方案是什么？這正是我們之前的 Tutorial 希望重點向大家介紹的 —— 當前的 LLM Alignment 是一種數(shù)據(jù)驅(qū)動（人類經(jīng)驗驅(qū)動）的 RL，Inverse RL 是這里最自然和簡單的方案。

LLM 從人類生成的數(shù)據(jù)或反饋中學習 —— 也就是 Silver&Sutton 文章里所說的 "Human-Centered AI"。過去兩年我參與的 IRLxLLM 的研究也圍繞著 “如何從不同數(shù)據(jù)中構建更好的獎勵模型” 進行探索 *[1]。

既然是探索，當然不該止步于 “什么方案最簡單，最自然”，也要想未來進一步優(yōu)化的方向在哪里。

0.3 人類如何學習？

相比 LLM，人類的學習似乎 “容易” 很多，人類不需要也不可能看完所有的書，電視，電影，不會去過所有的地方，但一樣可以擁有（更）高程度的智能 —— 可以理解世界，推理，創(chuàng)造，交流，學習。人先在成長初期通過語言學習，交互，理解；同時通過和世界的簡單交互了解非常簡單的 "物理"(world model, laws)；后來習得書寫和文字，又在游戲 / 虛擬世界中學習，學會從互聯(lián)網(wǎng)上主動尋找有用的信息，最終通過和世界以及社會的交互不斷提升能力。我想這恰好可以對應 LLM+RL 發(fā)展的四個不同階段：Data-Driven，Game， Virtual Interaction，Physical Interaction。（人類在學習過程中，除了幼兒時期學語言幾乎嚴格早于其他三者，剩下的學習過程是持續(xù)，同步發(fā)生的，這里的層級遞進關系不一定成立。從 LLM -> AGI 的角度，分成這幾層主要是考慮到實現(xiàn)起來的困難程度和安全可控程度。）

當下，主流的方法站在AGI 的第一層：通過 Data-Driven Reward Model + RL 提升任務性能，接下來我們從這一層開始聊起。

第一層：【Data-Driven RL】(Human-Centered) RL with Data-Driven Reward Model

1.1 如何理解當下 Post-Training 中的 RL？

RL 是什么

從 RL 的基礎談起 —— 從統(tǒng)計的角度，RL 研究的是如何在動態(tài)變化的數(shù)據(jù)分布中主動學習并建模（包括策略建模和環(huán)境建模，有前者可以 Black-box policy inference，有后者可以做 planning）；用更 RL 一點的語言描述，就是如何在和環(huán)境的交互中找到長期回報最高的策略。

解決思路上來說，不同的方法都在嘗試于探索和利用之間找到平衡（無論是對環(huán)境 / Dynamics 的探索還是對策略的探索）。從這個角度出發(fā)，也可以理解為什么沒有某種探索策略或者學習方法總是好的—— 對于任何的探索策略，總能針對它設計 counter example，使得這種探索方法不是最優(yōu)。而隨機性是應對 counter example 設計的強有力工具。這也是為什么 MaxEntropy 類方法總是拿一個 random policy 的 KL 保持探索，且這一類方法總是在各種環(huán)境中都不太差的原因。

RL 優(yōu)化 “長期回報”，這意味著首先要定義什么是回報 (Reward)，在大多數(shù)任務中，沒有這樣的 Reward。所以我們無法做到從 “和環(huán)境交互中優(yōu)化策略”，而只能讓 LLM 從人類的語言數(shù)據(jù)中學習，也就是從行為中學習。方法上分為兩大類：(1) 模仿學習 (Imitation Learning)—— 比如 Behavior Clone，就是直接對著行為做監(jiān)督學習，來生成與行為數(shù)據(jù)相同的行為模式；(2) 逆強化學習 (Inverse Reinforcement Learning)—— 先通過行為數(shù)據(jù)找到這些行為在嘗試優(yōu)化的獎勵函數(shù)，然后用這個獎勵函數(shù)做 RL 來生成與行為數(shù)據(jù)相同的行為模式。

Post-Train 在做什么

(1).[Behavior Clone]先從 Pre-train 說起，Pre-train model 的任務是預測下一個 token，也就是非常經(jīng)典的 Behavior Clone，模仿人類的語料庫。隨著訓練規(guī)模的擴大，模型各方面的能力不斷提升，開始有能力理解比字面意更深層的語義，學會更能泛化更加有效的 embedding 模式，并且在新的任務上有了 few-shot 甚至 zero-shot 的能力。

(2).[Prompt Engineering]Post-train 階段，我們從最簡單的 prompt-optimization（或者 in-context learning）說起。因為這些 Autoregressive LLM 都是 Conditional Generator，隨著輸入的變化，輸出 token 的條件概率和分布也會隨之變化。因此，通過控制輸入的樣本，甚至是問問題的方式，都可以讓模型在特定任務上達到更好的表現(xiàn)。這個方向在 2023 年是比較熱的話題，后來的趨勢是隨著模型能力的提升，prompt optimization 的邊際效應過于明顯，并且大家意識到對著某一個 LLM 做 prompt engineering 很大概率是在 overfit test set，到下一個迭代的版本就又要重新找，與此同時 "lazy prompting (Andrew Ng)" 的效果也越來越好，工程上也需要在成本和性能之間進行更好的權衡。

(3).[Supervised Fine-Tuning]接下來，如果我們有一些高質(zhì)量的垂類數(shù)據(jù)或?qū)＜覕?shù)據(jù)，在這個小規(guī)模數(shù)據(jù)集上進行監(jiān)督微調(diào) Supervised Fine Tuning 效果也可能會不錯，且這個過程簡單穩(wěn)定，非常適合資源有限，數(shù)據(jù)質(zhì)量高，任務對 LLM 基模來說相對簡單，并不追求極致的性能改進的場景。

總結來看，Post-train 的總體目標是通過少量的高質(zhì)量樣本，來調(diào)整基座模型生成回答的數(shù)據(jù)分布，使之適應新的任務或特定的某類由樣本特性所定義的任務。BC 和 SFT 是直接的模仿學習手段，而 Prompt-Engineering 很有一種 Prior-hacking 的味道，我們姑且把它也歸為一種對 "成功 prior hacking 經(jīng)驗的模仿"。最近一年里有很多工作講了 SFT 和 RL (HF) 分別在做什么，有很多種含義相近的描述，比如 SFT 負責記憶，RL 負責泛化，SFT 做 mass-covering，RL 做 Mode-Seeking。接下來，我們通過三個例子來看為什么有了 SFT/Prompt-Engineering 這些簡單有效的方法，還需要 RL，或者說需要Reward Model。

1.2 為什么用 Inverse RL 來解決 Data-Driven RL？

Inverse-RL 中的重要一步是通過數(shù)據(jù)建模 Reward Model，從而使不完整的 MDP\R 問題轉(zhuǎn)化為完整的 MDP，進而能夠調(diào)用 RL 工具去解決。我們把這里從人類行為數(shù)據(jù)出發(fā)，建模獎勵函數(shù)的過程稱為 (Neural) Reward Modeling，這是現(xiàn)階段的主流做法，也是 Silver 和 Sutton 在文章中提到的 Human-Centered AI。我們通過以下三個例子來理解 Reward Model 的作用與優(yōu)勢

1. Inverse RL (Reward Models) 可以收集更加規(guī)模化的數(shù)據(jù)

這里舉 ChatGPT 的例子 —— 當我們使用 GPT 的時候，會遇到讓我們提供 preference，幫助 OpenAI 提供未來模型的選項，這件事能大規(guī)模應用的主要原因是 Preference 這個判別任務遠比demonstration 的生成任務更加容易和可拓展。我們能欣賞頂級網(wǎng)球選手打球，看谷愛凌蘇翊鳴飛臺子看 FWT，不需要我們自身有很高的運動水平

2. Inverse RL (Reward Models) 可以幫助找到更有泛化能力的解決方案

在 DeepSeek R1 的數(shù)學任務中，Rule-based (Data-Driven) reward model 給了 LLM 最大限度的自由度去探索有可能能夠成功的回答問題模式，這種自由度允許模型自己去發(fā)現(xiàn) “l(fā)ong chain-of-thought” 這種行為可以有效提升回答正確的可能，進而把最能夠泛化的做題能力保持住。這里 (Outcome) RM 是因，找到可泛化的 pattern 是果，具體如何更高效率地 exploration，或者學這些發(fā)現(xiàn)的 pattern，是因果之間的媒介 —— 它會影響學習效率，但不會影響 “能不能學”。

3. Inverse RL (Reward Models) 是 Inference Time Optimization 的基礎

正如文章一開始所說，在普通的 RL 任務中，沒有 “Inference-Time” 和 “Training-Time” 的區(qū)別，大多數(shù) RL 都是在測試任務上訓練的。所以大多數(shù) RL Policy 解決任務的方式就是訓練完了之后部署在這個系統(tǒng)上做 Inference，每次生成 action 只需要 Network Forward 一把，也談不上 Inference Time Optimization（比如 Mujoco/Atari 都是這樣的任務）。然而，在圍棋任務中，目前還沒有每一步直接做一次 Neural Network Inference 就能擊敗人類頂級選手的 RL Policy，需要這些 Policy Network 配合 Value Network 做 MCTS 才能取得較好的效果。在這個過程中，value network 扮演的決策就是一個 "dense reward function"，能夠在 inference 過程中把不好的 action 過濾掉。

同理，Reward Model 在困難的 LLM 任務中也可以扮演 Inference-time 過濾器的角色，它總能和已有的 post-train 方法相結合，進一步提升 LLM 生成的質(zhì)量。

1.3 為什么關注 Inverse (Reward Model) 部分而不是 Forward (Policy Optimization) 部分

首先，準確的 evaluation 是一切算法改進的根基。Online RL 的工具庫里有很多工具，但這些工具能用的前提是有一個靠譜的 Reward Model。找到問題出在哪是研究的第一步，如果 Reward Model 沒有研究清楚，在第二階段各種 RL 算法如此難收斂，超參如此之多又如此敏感，LLM 的訓練又如此之慢的前提下，對著不靠譜的 Reward Model 做優(yōu)化，得到的實驗觀察很難總結出可信的結論（更別提有人不到 10 個數(shù)據(jù)點取完 log 都 fit 不好也起名叫 scaling law 了）。

此外，RL 領域無數(shù)任務中的經(jīng)驗告訴我們，RL 里沒有 Silver Bullet，最重要的是理解任務的特點，并根據(jù)任務（數(shù)據(jù)，獎勵性質(zhì)，系統(tǒng)性質(zhì)，算力約束）去優(yōu)化相應的算法。DPO 和 GRPO 的成功不是因為它們是 LLM 時代的策略優(yōu)化萬金油，而是因為它們找到了先前系統(tǒng)中存在的問題（冗余），根據(jù)任務的需求和硬件進行了優(yōu)化。

1.4 為什么 Reasoning 是這一層里最重要 (和目前為止最成功) 的任務

首先是觀察：Reasoning task 確實可以提升模型 "聰明" 的程度，跟隨用戶指令，完成任務和解決問題的能力，在數(shù)學上訓出來的模型，整體能力都提升了。

其次是動機：如果能夠真的讓 LLM reasoning 起來，行為上具有想的越久，正確率越高的能力，那么這個系統(tǒng)興許真的可以自舉起來。數(shù)學家不斷推理就有可能發(fā)現(xiàn)新的定理，提出新的問題，或是在解決問題的方向上取得進展。不過話說回來，用沒有這種能力的模型嘗試達到 “左腳踩右腳原地起飛” 的效果，并且用 “左腳踩右腳原地起飛” 宣傳工作，或許有點不太合適。。

第二層：【Game】Experience from Games and Rule-based Tasks

在第一層，我們知道通過人類的經(jīng)驗，反饋，或是人工生成的題庫來建立獎勵模型，可以把 LLM Post-Train 這個缺失了 Reward Function 的 MDP\R 問題轉(zhuǎn)化成完整的 MDP 問題。這種數(shù)據(jù)驅(qū)動的方式廉價，可規(guī)模化，在數(shù)學任務上優(yōu)化過后取得了非常好的優(yōu)化泛化性，顯著提升了模型的通用能力。但是但凡是有限樣本擬合的獎勵函數(shù)，都會有過擬合的風險，只是不同的模型，不同規(guī)模的數(shù)據(jù)，不同的任務，這種過擬合的風險不同罷了。Reward Model 的過擬合帶來的后果是 Reward Hacking，也就是朝著背離 Reward 設計初衷的方向狂奔，比如 helpful 這個任務里一個經(jīng)典的 reward hacking 是 "length bias"—— 模型不管說的話有沒有用，發(fā)現(xiàn)說的越多分數(shù)越高，就可勁輸出廢話。

短期來看，我們可以想辦法在有限的范圍內(nèi)緩解 Reward hacking，就像這一路 data-driven 的科研模式中大家通過各種方式減少 overfit，提升模型的泛化性一樣。但是長期來看，這種發(fā)展不符合數(shù)據(jù) x 算力這種更加可預測的擴張模式 —— 在所有有可能的改進中，算法的改進可能是最難預測的（天不生 Sutton，RL 如長夜）

那么，除了數(shù)學，還有什么任務是或許可以突破數(shù)據(jù)瓶頸，增強模型能力的呢？回想人類幼崽的學習過程，從小時候?qū)W會了語言之后，首先接觸的是游戲！技術上來講，游戲往往是定義良好的完整 MDP，十幾年前我們用游戲訓練了 DeepRL 算法，那如果 DeepRL 算法運行在 LLM 上呢？

我們的終極目標是通過在環(huán)境中進行無窮多次的嘗試探索，讓 LLM 不斷提升自己的理解 / 推理 / 規(guī)劃 / 指令跟隨能力。游戲恰好提供了這樣的（廉價模擬）環(huán)境 —— 想要在游戲中取勝，需要首先理解其規(guī)則，進而在規(guī)則限定的范圍內(nèi)對策略進行優(yōu)化。這里的游戲包括文字為基礎的辯論 / 討論類型的游戲，規(guī)則更為明確的棋牌類游戲，以及其他更一般的 3D 類型游戲。其中文字 / 辯論類游戲的勝負判斷相對困難，但輸入輸出空間最適用于語言模型。棋牌類游戲雖然可行，但輸入輸出空間的表征適配或許是一個較大的挑戰(zhàn)。更復雜一些的游戲雖然可行，但現(xiàn)在 LLM 包括 VLM 的能力可能距離玩好這些游戲太遠了，找到合適的 curriculum 和任務是重要的問題。從去年下半年開始 ^*[3]，我們陸續(xù)看到了這個方向的嘗試，包括簡單的 Atari，貪吃蛇類型游戲，3D，Text-based game，未來可期，但也有諸多亟待解決的問題：

什么樣的任務最適合評估 LLM 的能力？如何避免 text-based game 中的 cheating？
怎樣找到 LLM 處理輸入輸出，理解游戲的最佳表示？
什么樣的游戲可以最全面地發(fā)展 LLM 個方面的能力（而不至于讓 LLM “玩物喪志” overfit 到游戲）
游戲中取得的進展是否可以像數(shù)學一樣帶來全面的能力提升？
如果允許調(diào)用 Tool（比如 AlphaGo 的 value function 或者 GTO 軟件），LLM 還能（需要）在這個過程中學會推理嗎，學會造輪子更重要還是使用輪子更重要
這里是否會有一個對應的 game supremacy scaling law 之類的東西存在？游戲提升 LLM 推理能力的上限在哪里

解決了這些問題之后，大規(guī)模上 Self-Play，突破目前的數(shù)據(jù)局限，提升 LLM 的推理能力就只剩下算力問題。

第三層：【Virtual Experience】“Experience” in the Virtual World

在過去兩年做 Alignment 研究的過程中，一直很想做但又沒有合適機會的方向是 Agent——Agent 是一個非常面向產(chǎn)品 / 用戶 / 落地的課題，工程上的優(yōu)化，用戶的反饋，活躍開發(fā)社群的建設和維護都十分重要。除此之外，即使可以在研究中盡可能地將基座模型的能力和框架以及學習范式二者分離，基座模型的能力提升往往可以直接帶來質(zhì)變。

至于非技術上的問題，例如早期大家擔心的適配與權限問題，目前看來在 MCP 到來以后都不再是重點。除非數(shù)據(jù)的擁有者能做到壟斷，不然市場的反向選擇一定會讓數(shù)據(jù)的擁有者對 Agent 更加開放。當然，一切的前提都是 Agent 背后有足量用戶的支持，Agent 足夠強大和有用。從這個角度看，Agent 時代做內(nèi)容和社交，或許能帶來洗牌的機會。Agent 時代很或許會有新的微信。

從 RL 的角度，Agent 時代也有更多的機遇和挑戰(zhàn)：

首先，Agent 與虛擬世界（互聯(lián)網(wǎng)中的內(nèi)容）進行交互，完成 “任務”。所以其實 Agent 相比 LLM 的變化，重點不在于加了幾個 prompt，引入了工作流，而是增加了很多它們和非語言系統(tǒng)交互的可能性。有交互就會有反饋，這些反饋信息是一手的，真實的，on-policy 的，用 Silver 和 Sutton 的話說就是它們自己的 Experience。

在這個交互過程中，用戶可以定義無窮多的任務，并且提供任務是否成功的反饋。相比在游戲中進行 self-play，直接和用戶打交道的 Agent 所參與的場景和用戶的日常需求高度對齊，不太需要擔心能力提升的泛化問題。通過用戶眾包形式的反饋，提升 Agent 的能力就像是在培養(yǎng)具有專業(yè)技能的勞動者。

更重要的是，Agent 達成目標這個任務屬于 RL 中的 Multi-Goal 問題，Multi-Goal 最大的特點就是很方便從失敗的經(jīng)驗中學習 (Hindsight Methods)。舉個例子，LLM 做數(shù)學題的時候，一道題做錯了，生成的錯誤答案只能通過 “反思，糾錯”，來幫助 LLM 以后在類似的題上不犯同樣的錯誤 —— 但是它很有可能會犯別的錯誤。這里失敗的經(jīng)驗只能被拿來做排除法，從失敗中學習難就難在失敗的可能千千萬，成功的路徑相比之下要稀缺很多。所以數(shù)學就不是一個很好的 “multi-goal” 的例子 —— 沒有人會把 “做錯這道題” 當成一個有效的目標。

再來看 Agent 達成目標這個任務，如果我讓 Agent 幫我【訂一張從北京到上海的火車票】，結果 Agent 一通操作，幫我買了一張從北京到深圳的機票，我們會認為這個任務失敗了，但是這個失敗的經(jīng)驗只是對于原始的目標失敗了，如果有一天我想從北京去深圳，這次 Agent 的失敗經(jīng)驗是很有用的，只需要更改這次失敗經(jīng)驗的目標，就可以讓 Agent 的 Experience 中有【訂一張從北京到深圳的機票】這個目標應該如何達成這一條，對著成功的案例學習，效率自然會比用排除法高很多。

在這些機遇背后，很多技術問題的答案也讓人充滿好奇 ——

可以規(guī)模化的持續(xù)學習的能力如何注入，范式是什么
RL 會有 plasticity vanishment 的問題，GPT 系列模型做 Supervised Learning 的 scaling law 到了 RL 還是否存在？
大規(guī)模的 Agent Learning 是工程和算力的雙重挑戰(zhàn)。人類社會是多元的，Agent 更像是人類社會中承擔不同工作的員工們，人類的多元化和不同的天賦讓分工更加明確，并且持續(xù)積累經(jīng)驗，不斷提升專業(yè)化的程度和業(yè)務能力。用 Prompt 給 Agent 注入的 Diversity 或許幫助有限，用 Fine-tuning 甚至不同的 pretrain model 又難以支撐。
Agentic Personalization 是必然的趨勢，但端側(cè)友好的輕量化實現(xiàn)目前并沒有好的方案。對齊和監(jiān)管要求這個過程必然是中心化進行的，如果要用目前的技術手段做到這個規(guī)模的中心化，英偉達的卡是不是需要普及到人手一塊。

第四層：【Physical Experience】“Experience” in the Physical World

最近兩年機器人和具身智能再度火熱，早期做 RL 方向的同學可能大多都對這個方向有著比較深的感情，robot control、mujoco 應該是當年開始 RL 的時候大家最先接觸的任務。能夠和物理世界做真實交互的機器人一定是未來，但是硬件和倫理是兩大繞不開的挑戰(zhàn)。硬件的成本會隨著技術的進步不斷降低，但風險和倫理問題一眼還需要更多思考。

硬件方面，2020 年和朋友一起琢磨過面向發(fā)燒友的手工出海，做過一條非常簡易的 “四足機器 (狗？)”。元件就是幾個電機，樹莓派，四條腿是一次性筷子做的，拍腦袋寫了個聲控往前爬往后爬的運動模式。然而出師未捷，內(nèi)憂外患一起出現(xiàn) —— 貿(mào)易戰(zhàn)升級，小米也出了一款價格四位數(shù)的消費級器狗。對比過后發(fā)現(xiàn)硬件這個東西不比服務或者互聯(lián)網(wǎng)，一分價格一分貨，且重資產(chǎn)輕技術，十幾二十塊的電機就是做不到精準有力的操控，力度不夠就是沒辦法后空翻，這個產(chǎn)品或許只能賣給發(fā)燒友搞著玩，價格也不便宜，后來就不了了之了。

更現(xiàn)實一些，距離我們生活最近的場景是智能 (輔助) 駕駛，在這個場景里，車是市場上存在的剛醒需求，客戶不會因為智能的 “具身” 支付太多額外的硬件成本。車作為智能的載體，能執(zhí)行的動作也比較有限，更加可控。即使在這樣的 Embodied AI 系統(tǒng)里 —— 我們多大程度上可以接受自己的車一邊開一邊學，增強推理和理解場景的能力？多大程度上可以接受它犯錯？誰來承擔系統(tǒng)的錯誤。

人的分工和相互信任建立在長時間的社會穩(wěn)定和協(xié)作共贏之上，但人和機器如何做到互信，要花多久？當智能能夠通過具身或者物理世界的載體和人交互，就不可避免會帶來倫理問題，包括我在內(nèi)的大多數(shù)的技術 / 科研工作者對此可能都一無所知，這里也就不多做討論。可以確定的是，AGI 時代會有更多的挑戰(zhàn)，關于 AI Safety 的探討也會更加迫切，當 Agent 有有了無限探索的能力和物理世界做交互的時候，碳基文明的存亡也有了實實在在的威脅。

在 AGI 的前夜，人類更加需要偉大哲學家的指引

[1] 過去兩年我參與的 IRLxLLM 的研究也圍繞著 “如何從不同數(shù)據(jù)中構建更好的獎勵模型” 進行探索

ICLR'24: RM for Math & Prompting;

ICML'24: Dense RM for RLHF;

RLC workshop'24: RM from Demonstration data;

DMRL'24: When is RM (off-policy-evaluation) useful?;

ICLR'25: foundation of RM from preference data;

Preprint (s)'25: Active RM, Infra for Embedding-based Efficient RM Research, PCA for Diverse/Personalized RM)

[2] 關于未來方向的暢想，理解和思路上距離在 Agent 方向深耕的研究難免會有偏差，煩請大家不吝斧正！

[3] 更早一些在 2023 年底的 NeurIPS 就有一篇工作是講外交類游戲博弈的，希望 LLM+Game 這個方向的未來不要步前幾年的 RL + 阿瓦隆 / 狼人殺 /xx 游戲的后塵，而是在選擇任務上多一些思考，做長期更有價值的探索！

作者簡介

孫浩是劍橋大學 4 年級在讀博士生，研究課題為強化學習和大語言模型的對齊（后訓練）。他關于強化學習的研究涵蓋了稀疏獎勵，獎勵塑形，可解釋性等課題，研究發(fā)表于 NeurIPS 會議；在關于大語言模型對齊的工作中，重點關注如何從數(shù)據(jù)中獲得獎勵函數(shù)，提升大模型在對話和數(shù)學上的能力，論文發(fā)表于 ICLR 會議，并參與貢獻了 AAAI2025 和 ACL2025 的系列課程報告。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.