99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

OpenAI最大秘密,竟被中國(guó)研究者破解?復(fù)旦等驚人揭秘o1路線圖

0
分享至

來(lái)源:新智元

【導(dǎo)讀】OpenAI o1和o3模型的秘密,竟傳出被中國(guó)研究者「破解」?今天,復(fù)旦等機(jī)構(gòu)的這篇論文引起了AI社區(qū)的強(qiáng)烈反響,他們從強(qiáng)化學(xué)習(xí)的角度,分析了實(shí)現(xiàn)o1的路線圖,并總結(jié)了現(xiàn)有的「開(kāi)源版o1」。

就在今天,國(guó)內(nèi)的一篇論文,引得全球AI學(xué)者震驚不已。

推上多位網(wǎng)友表示,OpenAI o1和o3模型背后究竟是何原理——這一未解之謎,被中國(guó)研究者「發(fā)現(xiàn)」了!



注:作者是對(duì)如何逼近此類模型進(jìn)行了理論分析,并未聲稱已經(jīng)「破解」了這個(gè)問(wèn)題

實(shí)際上,在這篇長(zhǎng)達(dá)51頁(yè)的論文中,來(lái)自復(fù)旦大學(xué)等機(jī)構(gòu)的研究人員,從強(qiáng)化學(xué)習(xí)的角度分析了實(shí)現(xiàn)o1的路線圖。

其中,有四個(gè)關(guān)鍵部分需要重點(diǎn)關(guān)注:策略初始化、獎(jiǎng)勵(lì)設(shè)計(jì)、搜索和學(xué)習(xí)。

此外,作為路線圖的一部分,研究者還總結(jié)出了現(xiàn)有的「開(kāi)源版o1」項(xiàng)目。


論文地址:https://arxiv.org/abs/2412.14135


探索OpenAI的「AGI之迷」

概括來(lái)說(shuō),像o1這樣的推理模型,可以被認(rèn)為是LLM和AlphaGo這類模型的結(jié)合。

首先,模型需要通過(guò)「互聯(lián)網(wǎng)數(shù)據(jù)」進(jìn)行訓(xùn)練,使它們能夠理解文本,并達(dá)到一定的智能水平。

然后,再加入強(qiáng)化學(xué)習(xí)方法,讓它們「系統(tǒng)地思考」。

最后,在尋找答案的過(guò)程中,模型會(huì)去「搜索」解決方案空間。這種方法既用于實(shí)際的「測(cè)試時(shí)」回答,也用于改進(jìn)模型,即「學(xué)習(xí)」。


值得一提的是,斯坦福和谷歌在2022年的「STaR: Self-Taught Reasoner」論文中提出,可以利用LLM在回答問(wèn)題之前生成的「推理過(guò)程」來(lái)微調(diào)未來(lái)的模型,從而提高它們回答此類問(wèn)題的能力。

STaR讓AI模型能夠通過(guò)反復(fù)生成自己的訓(xùn)練數(shù)據(jù),自我「引導(dǎo)」到更高的智能水平,理論上,這種方法可以讓語(yǔ)言模型超越人類水平的智能。

因此,讓模型「深入分析解決方案空間」的這一理念,在訓(xùn)練階段和測(cè)試階段都扮演著關(guān)鍵角色。


在這項(xiàng)工作中,研究者主要從以下四個(gè)層面對(duì)o1的實(shí)現(xiàn)進(jìn)行了分析:策略初始化、獎(jiǎng)勵(lì)設(shè)計(jì)、搜索、學(xué)習(xí)

策略初始化

策略初始化使模型能夠發(fā)展出「類人推理行為」,從而具備高效探索復(fù)雜問(wèn)題解空間的能力。

  • 海量文本數(shù)據(jù)預(yù)訓(xùn)練

  • 指令微調(diào)

  • 問(wèn)題分析、任務(wù)分解和自我糾正等學(xué)習(xí)能力


獎(jiǎng)勵(lì)設(shè)計(jì)

獎(jiǎng)勵(lì)設(shè)計(jì)則通過(guò)獎(jiǎng)勵(lì)塑造或建模提供密集有效的信號(hào),指導(dǎo)模型的學(xué)習(xí)和搜索過(guò)程。

  • 結(jié)果獎(jiǎng)勵(lì)(基于最終結(jié)果)

  • 過(guò)程獎(jiǎng)勵(lì)(基于中間步驟)


結(jié)果獎(jiǎng)勵(lì)(左)和過(guò)程獎(jiǎng)勵(lì)(右)

搜索

搜索在訓(xùn)練和測(cè)試中都起著至關(guān)重要的作用,即通過(guò)更多計(jì)算資源可以生成更優(yōu)質(zhì)的解決方案。

  • MCTS等樹(shù)搜索方法探索多種解決方案

  • 連續(xù)修訂迭代改進(jìn)答案

  • 結(jié)合兩種方法可能是最佳選擇


搜索過(guò)程中使用的指導(dǎo)類型:內(nèi)部指導(dǎo)、外部指導(dǎo),以及兩者的結(jié)合

學(xué)習(xí)

從人工專家數(shù)據(jù)中學(xué)習(xí)需要昂貴的數(shù)據(jù)標(biāo)注。相比之下,強(qiáng)化學(xué)習(xí)通過(guò)與環(huán)境的交互進(jìn)行學(xué)習(xí),避免了高昂的數(shù)據(jù)標(biāo)注成本,并有可能實(shí)現(xiàn)超越人類的表現(xiàn)。

  • 政策梯度方法,如PPO和DPO

  • 從高質(zhì)量搜索解決方案克隆行為

  • 迭代搜索和學(xué)習(xí)周期


綜上,正如研究者們?cè)?023年11月所猜測(cè)的,LLM下一個(gè)突破,很可能就是與谷歌Deepmind的Alpha系列(如AlphaGo)的某種結(jié)合。

對(duì)此,有網(wǎng)友表示,這項(xiàng)研究的意義絕不僅僅是發(fā)表了一篇論文,它還為大多數(shù)模型打開(kāi)了大門,讓其他人可以使用RL來(lái)實(shí)現(xiàn)相同的概念,提供不同類型的推理反饋,同時(shí)還開(kāi)發(fā)了AI可以使用的劇本和食譜。


「開(kāi)源版o1」

研究者總結(jié)道,盡管o1尚未發(fā)布技術(shù)報(bào)告,但學(xué)術(shù)界已經(jīng)提供了多個(gè)o1的開(kāi)源實(shí)現(xiàn)。

此外,工業(yè)界也有一些類似o1的模型,例如 k0-math、skywork-o1、Deepseek-R1、QwQ和InternThinker。

  • g1:這項(xiàng)研究可能是最早嘗試重新實(shí)現(xiàn)o1的項(xiàng)目。

  • Thinking Claude:與g1類似,但它通過(guò)更復(fù)雜和細(xì)粒度的操作來(lái)提示LLM。

  • Open-o1:項(xiàng)目提出了一個(gè)SFT數(shù)據(jù)集,其中每個(gè)響應(yīng)都包含CoT。研究者推測(cè),這些數(shù)據(jù)可能來(lái)自人類專家或一個(gè)強(qiáng)大的LLM。

  • o1 Journey:通過(guò)兩篇技術(shù)報(bào)告中進(jìn)行了詳細(xì)描述。第一部分通過(guò)束搜索生成的樹(shù)數(shù)據(jù)進(jìn)行遍歷,特定節(jié)點(diǎn)由GPT-4優(yōu)化后用于SFT,這一策略可以被描述為專家迭代。第二部分則嘗試對(duì)o1-mini進(jìn)行蒸餾,并通過(guò)prompt來(lái)恢復(fù)隱藏的CoT過(guò)程。

  • Open-Reasoner:框架類似于AlphaGo,通過(guò)強(qiáng)化學(xué)習(xí)提升模型性能。

  • 慢思考與LLM:研究同樣分為兩篇技術(shù)報(bào)告。第一部分與Open-Reasoner類似,結(jié)合了強(qiáng)化學(xué)習(xí)和測(cè)試時(shí)的搜索。第二部分從QwQ和Deepseek-R1中蒸餾,并嘗試了兩種強(qiáng)化學(xué)習(xí)方法。

  • Marco-o1:項(xiàng)目將Open-o1的數(shù)據(jù)與模型自身通過(guò)MCTS算法生成的數(shù)據(jù)結(jié)合,用于SFT訓(xùn)練。

  • o1-coder:項(xiàng)目嘗試在代碼生成領(lǐng)域重新實(shí)現(xiàn)o1。


不同開(kāi)源o1項(xiàng)目在策略初始化、獎(jiǎng)勵(lì)設(shè)計(jì)、搜索和學(xué)習(xí)領(lǐng)域的方法對(duì)比

策略初始化

在強(qiáng)化學(xué)習(xí)中,策略定義了智能體如何根據(jù)環(huán)境狀態(tài)選擇行動(dòng)。

其中,LLM的動(dòng)作粒度分為三種級(jí)別:解決方案級(jí)別、步驟級(jí)別和Token級(jí)別。


智能體與環(huán)境在LLM強(qiáng)化學(xué)習(xí)中的交互過(guò)程

對(duì)于LLM的初始化過(guò)程,主要包括兩個(gè)階段:預(yù)訓(xùn)練和指令微調(diào)。

在預(yù)訓(xùn)練階段,模型通過(guò)大規(guī)模網(wǎng)絡(luò)語(yǔ)料庫(kù)的自監(jiān)督學(xué)習(xí),發(fā)展出基本的語(yǔ)言理解能力,并遵循計(jì)算資源與性能之間的既定冪律規(guī)律。

在指令微調(diào)階段,則是將LLM從簡(jiǎn)單的下一個(gè)Token預(yù)測(cè),轉(zhuǎn)變?yōu)樯膳c人類需求一致的響應(yīng)。

對(duì)于像o1這樣的模型,融入類人推理行為對(duì)于更復(fù)雜的解決方案空間探索至關(guān)重要。

預(yù)訓(xùn)練

預(yù)訓(xùn)練通過(guò)大規(guī)模文本語(yǔ)料庫(kù)的接觸,為L(zhǎng)LM建立基本的語(yǔ)言理解和推理能力。

對(duì)于類似o1的模型,這些核心能力是后續(xù)學(xué)習(xí)和搜索中發(fā)展高級(jí)行為的基礎(chǔ)。

  • 語(yǔ)言理解與生成:語(yǔ)言理解是分層次發(fā)展的——句法模式較早涌現(xiàn),而邏輯一致性和抽象推理則在訓(xùn)練的后期階段逐步形成。因此除了模型規(guī)模外,訓(xùn)練時(shí)長(zhǎng)和數(shù)據(jù)組成也至關(guān)重要。

  • 世界知識(shí)獲取與存儲(chǔ):知識(shí)存儲(chǔ)具有高效的壓縮和泛化特性,而抽象概念相比事實(shí)性知識(shí)需要更廣泛的訓(xùn)練。

  • 基礎(chǔ)推理能力:預(yù)訓(xùn)練通過(guò)多樣化的推理模式發(fā)展了基礎(chǔ)推理能力,后者以從簡(jiǎn)單推斷到復(fù)雜推理的層次結(jié)構(gòu)逐步涌現(xiàn)。

指令微調(diào)

指令微調(diào)通過(guò)在多領(lǐng)域的指令-響應(yīng)對(duì)上進(jìn)行專門訓(xùn)練,將預(yù)訓(xùn)練語(yǔ)言模型轉(zhuǎn)變?yōu)槊嫦蛉蝿?wù)的智能體。

這一過(guò)程將模型的行為從單純的下一個(gè)Token預(yù)測(cè),轉(zhuǎn)變?yōu)榫哂忻鞔_目的的行為。

效果主要取決于兩個(gè)關(guān)鍵因素:指令數(shù)據(jù)集的多樣性和指令-響應(yīng)對(duì)的質(zhì)量。

類人推理行為

盡管經(jīng)過(guò)指令微調(diào)的模型展現(xiàn)了通用任務(wù)能力和用戶意圖理解能力,但像o1這樣的模型,需要更復(fù)雜的類人推理能力來(lái)充分發(fā)揮其潛力。

如表1所示,研究者對(duì)o1的行為模式進(jìn)行了分析,識(shí)別出六種類人推理行為。


  • 問(wèn)題分析:問(wèn)題分析是一個(gè)關(guān)鍵的初始化過(guò)程,模型在解決問(wèn)題前會(huì)先重新表述并分析問(wèn)題。

  • 任務(wù)分解:在面對(duì)復(fù)雜問(wèn)題時(shí),人類通常會(huì)將其分解為若干可管理的子任務(wù)。

  • 任務(wù)完成:之后,模型通過(guò)基于明確問(wèn)題和分解子任務(wù)的逐步推理,生成解決方案。

  • 替代方案:當(dāng)面臨推理障礙或思路中斷時(shí),生成多樣化替代解決方案的能力尤為重要。如表1所示,o1在密碼破解中展現(xiàn)了這一能力,能夠系統(tǒng)性地提出多個(gè)選項(xiàng)。

  • 自我評(píng)估:任務(wù)完成后,自我評(píng)估作為關(guān)鍵的驗(yàn)證機(jī)制,用于確認(rèn)所提解決方案的正確性。

  • 自我糾正:當(dāng)推理過(guò)程中出現(xiàn)可控錯(cuò)誤時(shí),模型會(huì)采用自我糾正行為來(lái)解決這些問(wèn)題。在o1的演示中,當(dāng)遇到諸如「No」或「Wait」之類的信號(hào)時(shí),會(huì)觸發(fā)糾正過(guò)程。

關(guān)于o1策略初始化的推測(cè)

策略初始化在開(kāi)發(fā)類似o1的模型中起到了關(guān)鍵作用,因?yàn)樗⒘擞绊懞罄m(xù)學(xué)習(xí)和搜索過(guò)程的基礎(chǔ)能力。

策略初始化階段包括三個(gè)核心組成部分:預(yù)訓(xùn)練、指令微調(diào)以及類人推理行為的開(kāi)發(fā)。

盡管這些推理行為在指令微調(diào)后的LLM中已隱性存在,但其有效部署需要通過(guò)監(jiān)督微調(diào)或精心設(shè)計(jì)的提示詞來(lái)激活。

  • 長(zhǎng)文本生成能力:在推理過(guò)程中,LLM需要精細(xì)的長(zhǎng)文本上下文建模能力。

  • 合理塑造類人推理行為:模型還需要發(fā)展以邏輯連貫方式,有序安排類人推理行為的能力。

  • 自我反思:自我評(píng)估、自我糾正和替代方案提議等行為,可視為模型自我反思能力的表現(xiàn)。

獎(jiǎng)勵(lì)設(shè)計(jì)

在強(qiáng)化學(xué)習(xí)中,智能體從環(huán)境中接收獎(jiǎng)勵(lì)反饋信號(hào),并通過(guò)改進(jìn)策略來(lái)最大化其長(zhǎng)期獎(jiǎng)勵(lì)。

獎(jiǎng)勵(lì)函數(shù)通常表示為r(st, at),表示智能體在時(shí)間步t的狀態(tài)st下執(zhí)行動(dòng)作at所獲得的獎(jiǎng)勵(lì)。

獎(jiǎng)勵(lì)反饋信號(hào)在訓(xùn)練和推理過(guò)程中至關(guān)重要,因?yàn)樗ㄟ^(guò)數(shù)值評(píng)分明確了智能體的期望行為。

結(jié)果獎(jiǎng)勵(lì)與過(guò)程獎(jiǎng)勵(lì)

結(jié)果獎(jiǎng)勵(lì)是基于LLM輸出是否符合預(yù)定義期望來(lái)分配分?jǐn)?shù)的。但由于缺乏對(duì)中間步驟的監(jiān)督,因此可能會(huì)導(dǎo)致LLM生成錯(cuò)誤的解題步驟。

與結(jié)果獎(jiǎng)勵(lì)相比,過(guò)程獎(jiǎng)勵(lì)不僅為最終步驟提供獎(jiǎng)勵(lì)信號(hào),還為中間步驟提供獎(jiǎng)勵(lì)。盡管展現(xiàn)了巨大的潛力,但其學(xué)習(xí)過(guò)程比結(jié)果獎(jiǎng)勵(lì)更具挑戰(zhàn)性。

獎(jiǎng)勵(lì)設(shè)計(jì)方法

由于結(jié)果獎(jiǎng)勵(lì)可以被視為過(guò)程獎(jiǎng)勵(lì)的一種特殊情況,許多獎(jiǎng)勵(lì)設(shè)計(jì)方法可以同時(shí)應(yīng)用于結(jié)果獎(jiǎng)勵(lì)和過(guò)程獎(jiǎng)勵(lì)的建模。

這些模型常被稱為結(jié)果獎(jiǎng)勵(lì)模型(Outcome Reward Model,ORM)和過(guò)程獎(jiǎng)勵(lì)模型(Process Reward Model,PRM)。

  • 來(lái)自環(huán)境的獎(jiǎng)勵(lì):最直接的獎(jiǎng)勵(lì)設(shè)計(jì)方法是直接利用環(huán)境提供的獎(jiǎng)勵(lì)信號(hào),或者學(xué)習(xí)一個(gè)模型來(lái)模擬環(huán)境中的獎(jiǎng)勵(lì)信號(hào)。

  • 從數(shù)據(jù)中建模獎(jiǎng)勵(lì):對(duì)于某些環(huán)境,環(huán)境中的獎(jiǎng)勵(lì)信號(hào)無(wú)法獲取,也無(wú)法進(jìn)行模擬。相比直接提供獎(jiǎng)勵(lì),收集專家數(shù)據(jù)或偏好數(shù)據(jù)更為容易。通過(guò)這些數(shù)據(jù),可以學(xué)習(xí)一個(gè)模型,從而提供有效的獎(jiǎng)勵(lì)。

獎(jiǎng)勵(lì)塑造

在某些環(huán)境中,獎(jiǎng)勵(lì)信號(hào)可能無(wú)法有效傳達(dá)學(xué)習(xí)目標(biāo)。

在這種情況下,可以通過(guò)獎(jiǎng)勵(lì)塑造(reward shaping)對(duì)獎(jiǎng)勵(lì)進(jìn)行重新設(shè)計(jì),使其更豐富且更具信息量。

然而,由于價(jià)值函數(shù)依賴于策略π,從一種策略估計(jì)的價(jià)值函數(shù)可能并不適合作為另一種策略的獎(jiǎng)勵(lì)函數(shù)。

關(guān)于o1獎(jiǎng)勵(lì)設(shè)計(jì)的推測(cè)

鑒于o1能夠處理多任務(wù)推理,其獎(jiǎng)勵(lì)模型可能結(jié)合了多種獎(jiǎng)勵(lì)設(shè)計(jì)方法。

對(duì)于諸如數(shù)學(xué)和代碼等復(fù)雜的推理任務(wù),由于這些任務(wù)的回答通常涉及較長(zhǎng)的推理鏈條,更可能采用過(guò)程獎(jiǎng)勵(lì)模型(PRM)來(lái)監(jiān)督中間過(guò)程,而非結(jié)果獎(jiǎng)勵(lì)模型(ORM)。

當(dāng)環(huán)境中無(wú)法提供獎(jiǎng)勵(lì)信號(hào)時(shí),研究者推測(cè),o1可能依賴于從偏好數(shù)據(jù)或?qū)<覕?shù)據(jù)中學(xué)習(xí)。

根據(jù)OpenAI的AGI五階段計(jì)劃,o1已經(jīng)是一個(gè)強(qiáng)大的推理模型,下一階段是訓(xùn)練一個(gè)能夠與世界交互并解決現(xiàn)實(shí)問(wèn)題的智能體。

為了實(shí)現(xiàn)這一目標(biāo),需要一個(gè)獎(jiǎng)勵(lì)模型,為智能體在真實(shí)環(huán)境中的行為提供獎(jiǎng)勵(lì)信號(hào)。

  • 獎(jiǎng)勵(lì)集成:為通用任務(wù)構(gòu)建獎(jiǎng)勵(lì)信號(hào)的一種直觀方式是通過(guò)特定領(lǐng)域的獎(jiǎng)勵(lì)集成。

  • 世界模型:世界模型不僅能夠提供獎(jiǎng)勵(lì)信號(hào),還可以預(yù)測(cè)下一狀態(tài)。有研究認(rèn)為,視頻生成器可以作為一種世界模型,因?yàn)樗軌蝾A(yù)測(cè)未來(lái)時(shí)間步的圖像。

搜索

對(duì)于像o1這樣旨在解決復(fù)雜推理任務(wù)的模型,搜索可能在訓(xùn)練和推理過(guò)程中都發(fā)揮重要作用。

搜索指導(dǎo)

基于內(nèi)部指導(dǎo)的搜索不依賴于來(lái)自外部環(huán)境或代理模型的真實(shí)反饋,而是通過(guò)模型自身的狀態(tài)或評(píng)估能力來(lái)引導(dǎo)搜索過(guò)程。

外部指導(dǎo)通常不依賴于特定策略,僅依賴于與環(huán)境或任務(wù)相關(guān)的信號(hào)來(lái)引導(dǎo)搜索過(guò)程。

同時(shí),內(nèi)部指導(dǎo)和外部指導(dǎo)可以結(jié)合起來(lái)引導(dǎo)搜索過(guò)程,常見(jiàn)的方法是結(jié)合模型自身的不確定性與來(lái)自獎(jiǎng)勵(lì)模型的代理反饋。

搜索策略

研究者將搜索策略分為兩種類型:樹(shù)搜索和序列修正。

樹(shù)搜索是一種全局搜索方法,同時(shí)生成多個(gè)答案,用于探索更廣泛的解決方案范圍。

相比之下,序列修正是一種局部搜索方法,基于先前結(jié)果逐步優(yōu)化每次嘗試,可能具有更高的效率。

樹(shù)搜索通常適用于復(fù)雜問(wèn)題的求解,而序列修正更適合快速迭代優(yōu)化。


搜索在o1中的角色

研究者認(rèn)為,搜索在o1的訓(xùn)練和推理過(guò)程中,都起著至關(guān)重要的作用。

他們將這兩個(gè)階段中的搜索,分別稱為訓(xùn)練時(shí)搜索(training-time search)和推理時(shí)搜索(test-time search)。

在訓(xùn)練階段,在線強(qiáng)化學(xué)習(xí)中的試錯(cuò)過(guò)程也可以被視為一種搜索過(guò)程。

在推理階段,o1表明,通過(guò)增加推理計(jì)算量和延長(zhǎng)思考時(shí)間可以持續(xù)提高模型性能。

研究者認(rèn)為,o1的「多思考」方式可以被視為一種搜索,利用更多的推理計(jì)算時(shí)間來(lái)找到更優(yōu)的答案。

關(guān)于o1搜索的推測(cè)

  • 訓(xùn)練階段搜索:在訓(xùn)練過(guò)程中,o1更可能采用樹(shù)搜索技術(shù),例如BoN或樹(shù)搜索算法,并主要依賴外部指導(dǎo)。

  • 推理階段搜索:在推理過(guò)程中,o1更可能使用序列修正,結(jié)合內(nèi)部指導(dǎo),通過(guò)反思不斷優(yōu)化和修正其搜索過(guò)程。

從o1博客中的示例可以看出,o1的推理風(fēng)格更接近于序列修正。種種跡象表明,o1在推理階段主要依賴內(nèi)部指導(dǎo)。


學(xué)習(xí)

強(qiáng)化學(xué)習(xí)通常使用策略對(duì)軌跡進(jìn)行采樣,并基于獲得的獎(jiǎng)勵(lì)來(lái)改進(jìn)策略。

在o1的背景下,研究者假設(shè)強(qiáng)化學(xué)習(xí)過(guò)程通過(guò)搜索算法生成軌跡,而不僅僅依賴于采樣。

基于這一假設(shè),o1的強(qiáng)化學(xué)習(xí)可能涉及一個(gè)搜索與學(xué)習(xí)的迭代過(guò)程。

在每次迭代中,學(xué)習(xí)階段利用搜索生成的輸出作為訓(xùn)練數(shù)據(jù)來(lái)增強(qiáng)策略,而改進(jìn)后的策略隨后被應(yīng)用于下一次迭代的搜索過(guò)程中。

訓(xùn)練階段的搜索與測(cè)試階段的搜索有所不同。

研究者將搜索輸出的狀態(tài)-動(dòng)作對(duì)集合記為D_search,將搜索中最優(yōu)解決方案的狀態(tài)-動(dòng)作對(duì)集合記為D_expert。因此,D_expert是D_search 的一個(gè)子集。

學(xué)習(xí)方法

給定D_search,可通過(guò)策略梯度方法或行為克隆來(lái)改進(jìn)策略。

近端策略優(yōu)化(PPO)和直接策略優(yōu)化 DPO)是LLM中最常用的強(qiáng)化學(xué)習(xí)技術(shù)。此外,在搜索數(shù)據(jù)上執(zhí)行行為克隆或監(jiān)督學(xué)習(xí)也是常見(jiàn)做法。

研究者認(rèn)為,o1的學(xué)習(xí)可能是多種學(xué)習(xí)方法結(jié)合的結(jié)果。

在這一框架中,他們假設(shè)o1的學(xué)習(xí)過(guò)程從使用行為克隆的預(yù)熱階段開(kāi)始,當(dāng)行為克隆的改進(jìn)效果趨于穩(wěn)定后,轉(zhuǎn)向使用PPO或DPO。

這一流程與LLama2和LLama3中采用的后訓(xùn)練策略一致。


強(qiáng)化學(xué)習(xí)的Scaling Law

在預(yù)訓(xùn)練階段,損失、計(jì)算成本、模型參數(shù)和數(shù)據(jù)規(guī)模之間的關(guān)系,是遵循冪律Scaling Law的。那么,對(duì)于強(qiáng)化學(xué)習(xí),是否也會(huì)表現(xiàn)出來(lái)呢?

根據(jù)OpenAI的博客,推理性能與訓(xùn)練時(shí)間計(jì)算量,確實(shí)呈對(duì)數(shù)線性關(guān)系。然而,除了這一點(diǎn)之外,相關(guān)研究并不多。

為了實(shí)現(xiàn)像o1這樣的大規(guī)模強(qiáng)化學(xué)習(xí),研究LLM強(qiáng)化學(xué)習(xí)的Scaling Law至關(guān)重要。

參考資料:

https://x.com/MatthewBerman/status/1875202596350415332

https://x.com/WesRothMoney/status/1875051479180165489

https://arxiv.org/abs/2412.14135


特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
利雅得新月主帥不滿光州將帥賽前言論,7-0后對(duì)其做出閉嘴手勢(shì)

利雅得新月主帥不滿光州將帥賽前言論,7-0后對(duì)其做出閉嘴手勢(shì)

雷速體育
2025-04-26 09:30:13
四大壞消息痛擊湖人!賽程針對(duì)詹皇,管理層也背鍋,第4場(chǎng)真懸了

四大壞消息痛擊湖人!賽程針對(duì)詹皇,管理層也背鍋,第4場(chǎng)真懸了

嘴炮體壇
2025-04-26 14:45:46
快船VS掘金G4時(shí)間有變,哈登前隊(duì)友們來(lái)看球,泰倫盧執(zhí)教水平提升

快船VS掘金G4時(shí)間有變,哈登前隊(duì)友們來(lái)看球,泰倫盧執(zhí)教水平提升

體育大學(xué)僧
2025-04-25 20:20:09
夏普:若掘金1-3落后則不可能再逆轉(zhuǎn) 小卡不會(huì)再像園區(qū)那樣拉胯

夏普:若掘金1-3落后則不可能再逆轉(zhuǎn) 小卡不會(huì)再像園區(qū)那樣拉胯

直播吧
2025-04-26 08:05:21
皮爾斯:勇士奪冠窗口已關(guān)閉 因?yàn)榘吞乩諒?fù)出也不是100%狀態(tài)

皮爾斯:勇士奪冠窗口已關(guān)閉 因?yàn)榘吞乩諒?fù)出也不是100%狀態(tài)

直播吧
2025-04-26 06:40:10
解放軍為何接連高調(diào)亮出大殺器:我們可能已與一場(chǎng)大戰(zhàn)擦肩而過(guò)

解放軍為何接連高調(diào)亮出大殺器:我們可能已與一場(chǎng)大戰(zhàn)擦肩而過(guò)

近史閣
2025-04-24 16:42:47
洋媳婦奇娜遺容曝光!躺冰棺像天使,父親唱歌送別,最后火葬走好

洋媳婦奇娜遺容曝光!躺冰棺像天使,父親唱歌送別,最后火葬走好

夢(mèng)史
2025-04-26 10:13:59
船媒:西蒙斯這輪的影響力不容忽視 很好完成了防守約基奇的挑戰(zhàn)

船媒:西蒙斯這輪的影響力不容忽視 很好完成了防守約基奇的挑戰(zhàn)

直播吧
2025-04-25 19:06:03
與張?zhí)鞇?ài)同居6年孕期出軌?37歲當(dāng)?shù)?年離婚,他把一手好牌打稀爛

與張?zhí)鞇?ài)同居6年孕期出軌?37歲當(dāng)?shù)?年離婚,他把一手好牌打稀爛

喜歡歷史的阿繁
2025-04-25 09:37:51
“楊”帆起航!楊瀚森完成NBA選秀報(bào)名獲參選資格 5月3日赴美特訓(xùn)

“楊”帆起航!楊瀚森完成NBA選秀報(bào)名獲參選資格 5月3日赴美特訓(xùn)

羅說(shuō)NBA
2025-04-26 07:04:40
宋丹丹和那英李靜逛SKP被偶遇,幫那英拎包,合影被認(rèn)成小老頭

宋丹丹和那英李靜逛SKP被偶遇,幫那英拎包,合影被認(rèn)成小老頭

明月聊史
2025-04-25 21:30:14
突發(fā)!遼寧某職校宿舍發(fā)生命案,疑似有人傷亡,官方卻保持沉默

突發(fā)!遼寧某職校宿舍發(fā)生命案,疑似有人傷亡,官方卻保持沉默

平老師666
2025-04-26 11:47:47
湖人104-116森林狼,賽后遭遇1喜3憂,八村壘+內(nèi)線+失誤成弊端!

湖人104-116森林狼,賽后遭遇1喜3憂,八村壘+內(nèi)線+失誤成弊端!

籃球資訊達(dá)人
2025-04-26 12:59:05
女朋友身材太好是一種怎樣的體驗(yàn)?答案真實(shí)到扎心...

女朋友身材太好是一種怎樣的體驗(yàn)?答案真實(shí)到扎心...

健身S叔
2025-04-24 09:49:45
不吹不黑!4個(gè)國(guó)貨“中產(chǎn)女裝”品牌,確實(shí)不輸LV、愛(ài)馬仕等大牌

不吹不黑!4個(gè)國(guó)貨“中產(chǎn)女裝”品牌,確實(shí)不輸LV、愛(ài)馬仕等大牌

時(shí)尚搭配師Nicole
2025-04-25 16:27:31
一篇關(guān)于東北“男男性服務(wù)”的研究

一篇關(guān)于東北“男男性服務(wù)”的研究

學(xué)術(shù)那些事兒
2025-04-21 13:31:47
美國(guó)人的屁股為啥人均一米寬?喂牲畜的飼料,全吃到了百姓的身上

美國(guó)人的屁股為啥人均一米寬?喂牲畜的飼料,全吃到了百姓的身上

博覽歷史
2025-04-25 13:45:06
史記?董明珠諜戰(zhàn)王自如

史記?董明珠諜戰(zhàn)王自如

不正確
2025-04-25 17:51:26
澤連斯基徹底跪了!

澤連斯基徹底跪了!

燕梳樓頻道
2025-03-20 19:19:07
教皇葬禮座位安排細(xì)節(jié)曝光:特朗普只能坐“第三排”席位,與澤連斯基相隔甚遠(yuǎn)

教皇葬禮座位安排細(xì)節(jié)曝光:特朗普只能坐“第三排”席位,與澤連斯基相隔甚遠(yuǎn)

爆笑大聰明阿衿
2025-04-25 21:09:14
2025-04-26 15:43:00
人工智能研究 incentive-icons
人工智能研究
分享深度學(xué)習(xí)、CV、NLP
258文章數(shù) 125關(guān)注度
往期回顧 全部

科技要聞

李斌:對(duì)蔚來(lái)公司四季度盈利非常有信心

頭條要聞

男子炒股11年賺6000萬(wàn):初始本金150萬(wàn) 曾1天虧1100萬(wàn)

頭條要聞

男子炒股11年賺6000萬(wàn):初始本金150萬(wàn) 曾1天虧1100萬(wàn)

體育要聞

去更大的舞臺(tái)追夢(mèng) 專訪中國(guó)男籃國(guó)手楊瀚森

娛樂(lè)要聞

金掃帚獎(jiǎng)出爐,包貝爾意外獲“影帝”

財(cái)經(jīng)要聞

韓國(guó)的"宇樹(shù)科技" 是怎樣被財(cái)閥毀掉的?

汽車要聞

充電5分鐘續(xù)航100公里 探訪華為兆瓦超充站

態(tài)度原創(chuàng)

健康
藝術(shù)
數(shù)碼
手機(jī)
軍事航空

唇皰疹和口腔潰瘍是"同伙"嗎?

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

數(shù)碼要聞

NVIDIA 將于5月19日發(fā)布 RTX 5060

手機(jī)要聞

CounterPoint 報(bào)告 2024 全球手機(jī)攝像頭出貨量:索尼領(lǐng)銜

軍事要聞

印巴交火 從“斷水”到“反制”

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 天长市| 河津市| 英吉沙县| 尖扎县| 禄劝| 阿坝| 平和县| 曲松县| 闵行区| 延庆县| 扬中市| 全南县| 酒泉市| 乌鲁木齐县| 建始县| 安塞县| 湘西| 襄城县| 鹤山市| 双流县| 张家界市| 钦州市| 枣阳市| 天门市| 阿拉善盟| 珲春市| 南靖县| 伊宁市| 商南县| 康定县| 英德市| 河南省| 虎林市| 河北省| 德格县| 丹东市| 香港| 崇文区| 寿宁县| 大城县| 仁布县|