來(lái)源:新智元
【導(dǎo)讀】OpenAI o1和o3模型的秘密,竟傳出被中國(guó)研究者「破解」?今天,復(fù)旦等機(jī)構(gòu)的這篇論文引起了AI社區(qū)的強(qiáng)烈反響,他們從強(qiáng)化學(xué)習(xí)的角度,分析了實(shí)現(xiàn)o1的路線圖,并總結(jié)了現(xiàn)有的「開(kāi)源版o1」。
就在今天,國(guó)內(nèi)的一篇論文,引得全球AI學(xué)者震驚不已。
推上多位網(wǎng)友表示,OpenAI o1和o3模型背后究竟是何原理——這一未解之謎,被中國(guó)研究者「發(fā)現(xiàn)」了!
注:作者是對(duì)如何逼近此類模型進(jìn)行了理論分析,并未聲稱已經(jīng)「破解」了這個(gè)問(wèn)題
實(shí)際上,在這篇長(zhǎng)達(dá)51頁(yè)的論文中,來(lái)自復(fù)旦大學(xué)等機(jī)構(gòu)的研究人員,從強(qiáng)化學(xué)習(xí)的角度分析了實(shí)現(xiàn)o1的路線圖。
其中,有四個(gè)關(guān)鍵部分需要重點(diǎn)關(guān)注:策略初始化、獎(jiǎng)勵(lì)設(shè)計(jì)、搜索和學(xué)習(xí)。
此外,作為路線圖的一部分,研究者還總結(jié)出了現(xiàn)有的「開(kāi)源版o1」項(xiàng)目。
論文地址:https://arxiv.org/abs/2412.14135
探索OpenAI的「AGI之迷」
概括來(lái)說(shuō),像o1這樣的推理模型,可以被認(rèn)為是LLM和AlphaGo這類模型的結(jié)合。
首先,模型需要通過(guò)「互聯(lián)網(wǎng)數(shù)據(jù)」進(jìn)行訓(xùn)練,使它們能夠理解文本,并達(dá)到一定的智能水平。
然后,再加入強(qiáng)化學(xué)習(xí)方法,讓它們「系統(tǒng)地思考」。
最后,在尋找答案的過(guò)程中,模型會(huì)去「搜索」解決方案空間。這種方法既用于實(shí)際的「測(cè)試時(shí)」回答,也用于改進(jìn)模型,即「學(xué)習(xí)」。
值得一提的是,斯坦福和谷歌在2022年的「STaR: Self-Taught Reasoner」論文中提出,可以利用LLM在回答問(wèn)題之前生成的「推理過(guò)程」來(lái)微調(diào)未來(lái)的模型,從而提高它們回答此類問(wèn)題的能力。
STaR讓AI模型能夠通過(guò)反復(fù)生成自己的訓(xùn)練數(shù)據(jù),自我「引導(dǎo)」到更高的智能水平,理論上,這種方法可以讓語(yǔ)言模型超越人類水平的智能。
因此,讓模型「深入分析解決方案空間」的這一理念,在訓(xùn)練階段和測(cè)試階段都扮演著關(guān)鍵角色。
在這項(xiàng)工作中,研究者主要從以下四個(gè)層面對(duì)o1的實(shí)現(xiàn)進(jìn)行了分析:策略初始化、獎(jiǎng)勵(lì)設(shè)計(jì)、搜索、學(xué)習(xí)。
策略初始化
策略初始化使模型能夠發(fā)展出「類人推理行為」,從而具備高效探索復(fù)雜問(wèn)題解空間的能力。
海量文本數(shù)據(jù)預(yù)訓(xùn)練
指令微調(diào)
問(wèn)題分析、任務(wù)分解和自我糾正等學(xué)習(xí)能力
獎(jiǎng)勵(lì)設(shè)計(jì)
獎(jiǎng)勵(lì)設(shè)計(jì)則通過(guò)獎(jiǎng)勵(lì)塑造或建模提供密集有效的信號(hào),指導(dǎo)模型的學(xué)習(xí)和搜索過(guò)程。
結(jié)果獎(jiǎng)勵(lì)(基于最終結(jié)果)
過(guò)程獎(jiǎng)勵(lì)(基于中間步驟)
結(jié)果獎(jiǎng)勵(lì)(左)和過(guò)程獎(jiǎng)勵(lì)(右)
搜索
搜索在訓(xùn)練和測(cè)試中都起著至關(guān)重要的作用,即通過(guò)更多計(jì)算資源可以生成更優(yōu)質(zhì)的解決方案。
MCTS等樹(shù)搜索方法探索多種解決方案
連續(xù)修訂迭代改進(jìn)答案
結(jié)合兩種方法可能是最佳選擇
搜索過(guò)程中使用的指導(dǎo)類型:內(nèi)部指導(dǎo)、外部指導(dǎo),以及兩者的結(jié)合
學(xué)習(xí)
從人工專家數(shù)據(jù)中學(xué)習(xí)需要昂貴的數(shù)據(jù)標(biāo)注。相比之下,強(qiáng)化學(xué)習(xí)通過(guò)與環(huán)境的交互進(jìn)行學(xué)習(xí),避免了高昂的數(shù)據(jù)標(biāo)注成本,并有可能實(shí)現(xiàn)超越人類的表現(xiàn)。
政策梯度方法,如PPO和DPO
從高質(zhì)量搜索解決方案克隆行為
迭代搜索和學(xué)習(xí)周期
綜上,正如研究者們?cè)?023年11月所猜測(cè)的,LLM下一個(gè)突破,很可能就是與谷歌Deepmind的Alpha系列(如AlphaGo)的某種結(jié)合。
對(duì)此,有網(wǎng)友表示,這項(xiàng)研究的意義絕不僅僅是發(fā)表了一篇論文,它還為大多數(shù)模型打開(kāi)了大門,讓其他人可以使用RL來(lái)實(shí)現(xiàn)相同的概念,提供不同類型的推理反饋,同時(shí)還開(kāi)發(fā)了AI可以使用的劇本和食譜。
「開(kāi)源版o1」
研究者總結(jié)道,盡管o1尚未發(fā)布技術(shù)報(bào)告,但學(xué)術(shù)界已經(jīng)提供了多個(gè)o1的開(kāi)源實(shí)現(xiàn)。
此外,工業(yè)界也有一些類似o1的模型,例如 k0-math、skywork-o1、Deepseek-R1、QwQ和InternThinker。
g1:這項(xiàng)研究可能是最早嘗試重新實(shí)現(xiàn)o1的項(xiàng)目。
Thinking Claude:與g1類似,但它通過(guò)更復(fù)雜和細(xì)粒度的操作來(lái)提示LLM。
Open-o1:項(xiàng)目提出了一個(gè)SFT數(shù)據(jù)集,其中每個(gè)響應(yīng)都包含CoT。研究者推測(cè),這些數(shù)據(jù)可能來(lái)自人類專家或一個(gè)強(qiáng)大的LLM。
o1 Journey:通過(guò)兩篇技術(shù)報(bào)告中進(jìn)行了詳細(xì)描述。第一部分通過(guò)束搜索生成的樹(shù)數(shù)據(jù)進(jìn)行遍歷,特定節(jié)點(diǎn)由GPT-4優(yōu)化后用于SFT,這一策略可以被描述為專家迭代。第二部分則嘗試對(duì)o1-mini進(jìn)行蒸餾,并通過(guò)prompt來(lái)恢復(fù)隱藏的CoT過(guò)程。
Open-Reasoner:框架類似于AlphaGo,通過(guò)強(qiáng)化學(xué)習(xí)提升模型性能。
慢思考與LLM:研究同樣分為兩篇技術(shù)報(bào)告。第一部分與Open-Reasoner類似,結(jié)合了強(qiáng)化學(xué)習(xí)和測(cè)試時(shí)的搜索。第二部分從QwQ和Deepseek-R1中蒸餾,并嘗試了兩種強(qiáng)化學(xué)習(xí)方法。
Marco-o1:項(xiàng)目將Open-o1的數(shù)據(jù)與模型自身通過(guò)MCTS算法生成的數(shù)據(jù)結(jié)合,用于SFT訓(xùn)練。
o1-coder:項(xiàng)目嘗試在代碼生成領(lǐng)域重新實(shí)現(xiàn)o1。
不同開(kāi)源o1項(xiàng)目在策略初始化、獎(jiǎng)勵(lì)設(shè)計(jì)、搜索和學(xué)習(xí)領(lǐng)域的方法對(duì)比
策略初始化
在強(qiáng)化學(xué)習(xí)中,策略定義了智能體如何根據(jù)環(huán)境狀態(tài)選擇行動(dòng)。
其中,LLM的動(dòng)作粒度分為三種級(jí)別:解決方案級(jí)別、步驟級(jí)別和Token級(jí)別。
智能體與環(huán)境在LLM強(qiáng)化學(xué)習(xí)中的交互過(guò)程
對(duì)于LLM的初始化過(guò)程,主要包括兩個(gè)階段:預(yù)訓(xùn)練和指令微調(diào)。
在預(yù)訓(xùn)練階段,模型通過(guò)大規(guī)模網(wǎng)絡(luò)語(yǔ)料庫(kù)的自監(jiān)督學(xué)習(xí),發(fā)展出基本的語(yǔ)言理解能力,并遵循計(jì)算資源與性能之間的既定冪律規(guī)律。
在指令微調(diào)階段,則是將LLM從簡(jiǎn)單的下一個(gè)Token預(yù)測(cè),轉(zhuǎn)變?yōu)樯膳c人類需求一致的響應(yīng)。
對(duì)于像o1這樣的模型,融入類人推理行為對(duì)于更復(fù)雜的解決方案空間探索至關(guān)重要。
預(yù)訓(xùn)練
預(yù)訓(xùn)練通過(guò)大規(guī)模文本語(yǔ)料庫(kù)的接觸,為L(zhǎng)LM建立基本的語(yǔ)言理解和推理能力。
對(duì)于類似o1的模型,這些核心能力是后續(xù)學(xué)習(xí)和搜索中發(fā)展高級(jí)行為的基礎(chǔ)。
語(yǔ)言理解與生成:語(yǔ)言理解是分層次發(fā)展的——句法模式較早涌現(xiàn),而邏輯一致性和抽象推理則在訓(xùn)練的后期階段逐步形成。因此除了模型規(guī)模外,訓(xùn)練時(shí)長(zhǎng)和數(shù)據(jù)組成也至關(guān)重要。
世界知識(shí)獲取與存儲(chǔ):知識(shí)存儲(chǔ)具有高效的壓縮和泛化特性,而抽象概念相比事實(shí)性知識(shí)需要更廣泛的訓(xùn)練。
基礎(chǔ)推理能力:預(yù)訓(xùn)練通過(guò)多樣化的推理模式發(fā)展了基礎(chǔ)推理能力,后者以從簡(jiǎn)單推斷到復(fù)雜推理的層次結(jié)構(gòu)逐步涌現(xiàn)。
指令微調(diào)通過(guò)在多領(lǐng)域的指令-響應(yīng)對(duì)上進(jìn)行專門訓(xùn)練,將預(yù)訓(xùn)練語(yǔ)言模型轉(zhuǎn)變?yōu)槊嫦蛉蝿?wù)的智能體。
這一過(guò)程將模型的行為從單純的下一個(gè)Token預(yù)測(cè),轉(zhuǎn)變?yōu)榫哂忻鞔_目的的行為。
效果主要取決于兩個(gè)關(guān)鍵因素:指令數(shù)據(jù)集的多樣性和指令-響應(yīng)對(duì)的質(zhì)量。
類人推理行為
盡管經(jīng)過(guò)指令微調(diào)的模型展現(xiàn)了通用任務(wù)能力和用戶意圖理解能力,但像o1這樣的模型,需要更復(fù)雜的類人推理能力來(lái)充分發(fā)揮其潛力。
如表1所示,研究者對(duì)o1的行為模式進(jìn)行了分析,識(shí)別出六種類人推理行為。
問(wèn)題分析:問(wèn)題分析是一個(gè)關(guān)鍵的初始化過(guò)程,模型在解決問(wèn)題前會(huì)先重新表述并分析問(wèn)題。
任務(wù)分解:在面對(duì)復(fù)雜問(wèn)題時(shí),人類通常會(huì)將其分解為若干可管理的子任務(wù)。
任務(wù)完成:之后,模型通過(guò)基于明確問(wèn)題和分解子任務(wù)的逐步推理,生成解決方案。
替代方案:當(dāng)面臨推理障礙或思路中斷時(shí),生成多樣化替代解決方案的能力尤為重要。如表1所示,o1在密碼破解中展現(xiàn)了這一能力,能夠系統(tǒng)性地提出多個(gè)選項(xiàng)。
自我評(píng)估:任務(wù)完成后,自我評(píng)估作為關(guān)鍵的驗(yàn)證機(jī)制,用于確認(rèn)所提解決方案的正確性。
自我糾正:當(dāng)推理過(guò)程中出現(xiàn)可控錯(cuò)誤時(shí),模型會(huì)采用自我糾正行為來(lái)解決這些問(wèn)題。在o1的演示中,當(dāng)遇到諸如「No」或「Wait」之類的信號(hào)時(shí),會(huì)觸發(fā)糾正過(guò)程。
策略初始化在開(kāi)發(fā)類似o1的模型中起到了關(guān)鍵作用,因?yàn)樗⒘擞绊懞罄m(xù)學(xué)習(xí)和搜索過(guò)程的基礎(chǔ)能力。
策略初始化階段包括三個(gè)核心組成部分:預(yù)訓(xùn)練、指令微調(diào)以及類人推理行為的開(kāi)發(fā)。
盡管這些推理行為在指令微調(diào)后的LLM中已隱性存在,但其有效部署需要通過(guò)監(jiān)督微調(diào)或精心設(shè)計(jì)的提示詞來(lái)激活。
長(zhǎng)文本生成能力:在推理過(guò)程中,LLM需要精細(xì)的長(zhǎng)文本上下文建模能力。
合理塑造類人推理行為:模型還需要發(fā)展以邏輯連貫方式,有序安排類人推理行為的能力。
自我反思:自我評(píng)估、自我糾正和替代方案提議等行為,可視為模型自我反思能力的表現(xiàn)。
獎(jiǎng)勵(lì)設(shè)計(jì)
在強(qiáng)化學(xué)習(xí)中,智能體從環(huán)境中接收獎(jiǎng)勵(lì)反饋信號(hào),并通過(guò)改進(jìn)策略來(lái)最大化其長(zhǎng)期獎(jiǎng)勵(lì)。
獎(jiǎng)勵(lì)函數(shù)通常表示為r(st, at),表示智能體在時(shí)間步t的狀態(tài)st下執(zhí)行動(dòng)作at所獲得的獎(jiǎng)勵(lì)。
獎(jiǎng)勵(lì)反饋信號(hào)在訓(xùn)練和推理過(guò)程中至關(guān)重要,因?yàn)樗ㄟ^(guò)數(shù)值評(píng)分明確了智能體的期望行為。
結(jié)果獎(jiǎng)勵(lì)與過(guò)程獎(jiǎng)勵(lì)
結(jié)果獎(jiǎng)勵(lì)是基于LLM輸出是否符合預(yù)定義期望來(lái)分配分?jǐn)?shù)的。但由于缺乏對(duì)中間步驟的監(jiān)督,因此可能會(huì)導(dǎo)致LLM生成錯(cuò)誤的解題步驟。
與結(jié)果獎(jiǎng)勵(lì)相比,過(guò)程獎(jiǎng)勵(lì)不僅為最終步驟提供獎(jiǎng)勵(lì)信號(hào),還為中間步驟提供獎(jiǎng)勵(lì)。盡管展現(xiàn)了巨大的潛力,但其學(xué)習(xí)過(guò)程比結(jié)果獎(jiǎng)勵(lì)更具挑戰(zhàn)性。
獎(jiǎng)勵(lì)設(shè)計(jì)方法
由于結(jié)果獎(jiǎng)勵(lì)可以被視為過(guò)程獎(jiǎng)勵(lì)的一種特殊情況,許多獎(jiǎng)勵(lì)設(shè)計(jì)方法可以同時(shí)應(yīng)用于結(jié)果獎(jiǎng)勵(lì)和過(guò)程獎(jiǎng)勵(lì)的建模。
這些模型常被稱為結(jié)果獎(jiǎng)勵(lì)模型(Outcome Reward Model,ORM)和過(guò)程獎(jiǎng)勵(lì)模型(Process Reward Model,PRM)。
來(lái)自環(huán)境的獎(jiǎng)勵(lì):最直接的獎(jiǎng)勵(lì)設(shè)計(jì)方法是直接利用環(huán)境提供的獎(jiǎng)勵(lì)信號(hào),或者學(xué)習(xí)一個(gè)模型來(lái)模擬環(huán)境中的獎(jiǎng)勵(lì)信號(hào)。
從數(shù)據(jù)中建模獎(jiǎng)勵(lì):對(duì)于某些環(huán)境,環(huán)境中的獎(jiǎng)勵(lì)信號(hào)無(wú)法獲取,也無(wú)法進(jìn)行模擬。相比直接提供獎(jiǎng)勵(lì),收集專家數(shù)據(jù)或偏好數(shù)據(jù)更為容易。通過(guò)這些數(shù)據(jù),可以學(xué)習(xí)一個(gè)模型,從而提供有效的獎(jiǎng)勵(lì)。
在某些環(huán)境中,獎(jiǎng)勵(lì)信號(hào)可能無(wú)法有效傳達(dá)學(xué)習(xí)目標(biāo)。
在這種情況下,可以通過(guò)獎(jiǎng)勵(lì)塑造(reward shaping)對(duì)獎(jiǎng)勵(lì)進(jìn)行重新設(shè)計(jì),使其更豐富且更具信息量。
然而,由于價(jià)值函數(shù)依賴于策略π,從一種策略估計(jì)的價(jià)值函數(shù)可能并不適合作為另一種策略的獎(jiǎng)勵(lì)函數(shù)。
關(guān)于o1獎(jiǎng)勵(lì)設(shè)計(jì)的推測(cè)
鑒于o1能夠處理多任務(wù)推理,其獎(jiǎng)勵(lì)模型可能結(jié)合了多種獎(jiǎng)勵(lì)設(shè)計(jì)方法。
對(duì)于諸如數(shù)學(xué)和代碼等復(fù)雜的推理任務(wù),由于這些任務(wù)的回答通常涉及較長(zhǎng)的推理鏈條,更可能采用過(guò)程獎(jiǎng)勵(lì)模型(PRM)來(lái)監(jiān)督中間過(guò)程,而非結(jié)果獎(jiǎng)勵(lì)模型(ORM)。
當(dāng)環(huán)境中無(wú)法提供獎(jiǎng)勵(lì)信號(hào)時(shí),研究者推測(cè),o1可能依賴于從偏好數(shù)據(jù)或?qū)<覕?shù)據(jù)中學(xué)習(xí)。
根據(jù)OpenAI的AGI五階段計(jì)劃,o1已經(jīng)是一個(gè)強(qiáng)大的推理模型,下一階段是訓(xùn)練一個(gè)能夠與世界交互并解決現(xiàn)實(shí)問(wèn)題的智能體。
為了實(shí)現(xiàn)這一目標(biāo),需要一個(gè)獎(jiǎng)勵(lì)模型,為智能體在真實(shí)環(huán)境中的行為提供獎(jiǎng)勵(lì)信號(hào)。
獎(jiǎng)勵(lì)集成:為通用任務(wù)構(gòu)建獎(jiǎng)勵(lì)信號(hào)的一種直觀方式是通過(guò)特定領(lǐng)域的獎(jiǎng)勵(lì)集成。
世界模型:世界模型不僅能夠提供獎(jiǎng)勵(lì)信號(hào),還可以預(yù)測(cè)下一狀態(tài)。有研究認(rèn)為,視頻生成器可以作為一種世界模型,因?yàn)樗軌蝾A(yù)測(cè)未來(lái)時(shí)間步的圖像。
搜索
對(duì)于像o1這樣旨在解決復(fù)雜推理任務(wù)的模型,搜索可能在訓(xùn)練和推理過(guò)程中都發(fā)揮重要作用。
搜索指導(dǎo)
基于內(nèi)部指導(dǎo)的搜索不依賴于來(lái)自外部環(huán)境或代理模型的真實(shí)反饋,而是通過(guò)模型自身的狀態(tài)或評(píng)估能力來(lái)引導(dǎo)搜索過(guò)程。
外部指導(dǎo)通常不依賴于特定策略,僅依賴于與環(huán)境或任務(wù)相關(guān)的信號(hào)來(lái)引導(dǎo)搜索過(guò)程。
同時(shí),內(nèi)部指導(dǎo)和外部指導(dǎo)可以結(jié)合起來(lái)引導(dǎo)搜索過(guò)程,常見(jiàn)的方法是結(jié)合模型自身的不確定性與來(lái)自獎(jiǎng)勵(lì)模型的代理反饋。
搜索策略
研究者將搜索策略分為兩種類型:樹(shù)搜索和序列修正。
樹(shù)搜索是一種全局搜索方法,同時(shí)生成多個(gè)答案,用于探索更廣泛的解決方案范圍。
相比之下,序列修正是一種局部搜索方法,基于先前結(jié)果逐步優(yōu)化每次嘗試,可能具有更高的效率。
樹(shù)搜索通常適用于復(fù)雜問(wèn)題的求解,而序列修正更適合快速迭代優(yōu)化。
搜索在o1中的角色
研究者認(rèn)為,搜索在o1的訓(xùn)練和推理過(guò)程中,都起著至關(guān)重要的作用。
他們將這兩個(gè)階段中的搜索,分別稱為訓(xùn)練時(shí)搜索(training-time search)和推理時(shí)搜索(test-time search)。
在訓(xùn)練階段,在線強(qiáng)化學(xué)習(xí)中的試錯(cuò)過(guò)程也可以被視為一種搜索過(guò)程。
在推理階段,o1表明,通過(guò)增加推理計(jì)算量和延長(zhǎng)思考時(shí)間可以持續(xù)提高模型性能。
研究者認(rèn)為,o1的「多思考」方式可以被視為一種搜索,利用更多的推理計(jì)算時(shí)間來(lái)找到更優(yōu)的答案。
關(guān)于o1搜索的推測(cè)
訓(xùn)練階段搜索:在訓(xùn)練過(guò)程中,o1更可能采用樹(shù)搜索技術(shù),例如BoN或樹(shù)搜索算法,并主要依賴外部指導(dǎo)。
推理階段搜索:在推理過(guò)程中,o1更可能使用序列修正,結(jié)合內(nèi)部指導(dǎo),通過(guò)反思不斷優(yōu)化和修正其搜索過(guò)程。
從o1博客中的示例可以看出,o1的推理風(fēng)格更接近于序列修正。種種跡象表明,o1在推理階段主要依賴內(nèi)部指導(dǎo)。
學(xué)習(xí)
強(qiáng)化學(xué)習(xí)通常使用策略對(duì)軌跡進(jìn)行采樣,并基于獲得的獎(jiǎng)勵(lì)來(lái)改進(jìn)策略。
在o1的背景下,研究者假設(shè)強(qiáng)化學(xué)習(xí)過(guò)程通過(guò)搜索算法生成軌跡,而不僅僅依賴于采樣。
基于這一假設(shè),o1的強(qiáng)化學(xué)習(xí)可能涉及一個(gè)搜索與學(xué)習(xí)的迭代過(guò)程。
在每次迭代中,學(xué)習(xí)階段利用搜索生成的輸出作為訓(xùn)練數(shù)據(jù)來(lái)增強(qiáng)策略,而改進(jìn)后的策略隨后被應(yīng)用于下一次迭代的搜索過(guò)程中。
訓(xùn)練階段的搜索與測(cè)試階段的搜索有所不同。
研究者將搜索輸出的狀態(tài)-動(dòng)作對(duì)集合記為D_search,將搜索中最優(yōu)解決方案的狀態(tài)-動(dòng)作對(duì)集合記為D_expert。因此,D_expert是D_search 的一個(gè)子集。
學(xué)習(xí)方法
給定D_search,可通過(guò)策略梯度方法或行為克隆來(lái)改進(jìn)策略。
近端策略優(yōu)化(PPO)和直接策略優(yōu)化 DPO)是LLM中最常用的強(qiáng)化學(xué)習(xí)技術(shù)。此外,在搜索數(shù)據(jù)上執(zhí)行行為克隆或監(jiān)督學(xué)習(xí)也是常見(jiàn)做法。
研究者認(rèn)為,o1的學(xué)習(xí)可能是多種學(xué)習(xí)方法結(jié)合的結(jié)果。
在這一框架中,他們假設(shè)o1的學(xué)習(xí)過(guò)程從使用行為克隆的預(yù)熱階段開(kāi)始,當(dāng)行為克隆的改進(jìn)效果趨于穩(wěn)定后,轉(zhuǎn)向使用PPO或DPO。
這一流程與LLama2和LLama3中采用的后訓(xùn)練策略一致。
強(qiáng)化學(xué)習(xí)的Scaling Law
在預(yù)訓(xùn)練階段,損失、計(jì)算成本、模型參數(shù)和數(shù)據(jù)規(guī)模之間的關(guān)系,是遵循冪律Scaling Law的。那么,對(duì)于強(qiáng)化學(xué)習(xí),是否也會(huì)表現(xiàn)出來(lái)呢?
根據(jù)OpenAI的博客,推理性能與訓(xùn)練時(shí)間計(jì)算量,確實(shí)呈對(duì)數(shù)線性關(guān)系。然而,除了這一點(diǎn)之外,相關(guān)研究并不多。
為了實(shí)現(xiàn)像o1這樣的大規(guī)模強(qiáng)化學(xué)習(xí),研究LLM強(qiáng)化學(xué)習(xí)的Scaling Law至關(guān)重要。
參考資料:
https://x.com/MatthewBerman/status/1875202596350415332
https://x.com/WesRothMoney/status/1875051479180165489
https://arxiv.org/abs/2412.14135
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.