99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

大語言模型復(fù)雜推理的自我進(jìn)化機(jī)制:研究綜述與前沿展望

0
分享至


摘要

OpenAI的O1及其后續(xù)競爭者(如DeepSeek R1)的發(fā)布顯著推動(dòng)了大語言模型(Large Language Models,LLMs)在復(fù)雜推理方面的研究,引發(fā)學(xué)術(shù)界與工業(yè)界的雙重關(guān)注。此項(xiàng)進(jìn)展激發(fā)了相關(guān)技術(shù)成果的復(fù)現(xiàn)和在此基礎(chǔ)上的創(chuàng)新。為系統(tǒng)構(gòu)建該領(lǐng)域的研究框架,本文從自我進(jìn)化(self-evolution)的角度系統(tǒng)地分類了現(xiàn)有技術(shù)。我們的調(diào)查發(fā)現(xiàn)分為三個(gè)相互關(guān)聯(lián)的部分:數(shù)據(jù)進(jìn)化(data evolution)、模型進(jìn)化(model evolution)和自我進(jìn)化(self-evolution)。

  • 數(shù)據(jù)進(jìn)化部分改進(jìn)推理訓(xùn)練數(shù)據(jù),這包括任務(wù)進(jìn)化和增強(qiáng)思維鏈(Chain-of-Thought,CoT)推理的推理時(shí)間計(jì)算。

  • 模型進(jìn)化部分通過在訓(xùn)練過程中優(yōu)化模型模塊,以增強(qiáng)復(fù)雜推理能力。

  • 自我進(jìn)化部分則探討其進(jìn)化策略和模式。包括自我進(jìn)化的規(guī)模法則(scaling law)與對 O1 類研究工作的分析。

通過系統(tǒng)梳理相關(guān)研究,我們總結(jié)了前沿方法,并提供了對未來研究方向的前瞻性展望。本文旨在激勵(lì)LLM復(fù)雜推理社區(qū)進(jìn)一步研究,并促進(jìn)對LLM推理能力提升的深入探索。

關(guān)鍵詞:大語言模型、復(fù)雜推理、自我進(jìn)化、數(shù)據(jù)進(jìn)化、模型進(jìn)化、專家迭代、推理計(jì)算、強(qiáng)化學(xué)習(xí)

Tao He, Hao Li, Jingchang Chen等丨作者

Azure丨譯者

論文題目:A Survey on Complex Reasoning of Large Language Models through the Lens of Self-Evolution 論文地址:https://www.researchgate.net/publication/389209259_A_Survey_on_Complex_Reasoning_of_Large_Language_Models_through_the_Lens_of_Self-Evolution

作者 | Tao He, Hao Li, Jingchang Chen, Runxuan Liu, Yixin Cao, Lizi Liao, Zihao Zheng, Zheng Chu, Jiafeng Liang, Ming Liu, Bing Qin

目錄

1. 引言

2. 預(yù)備知識(shí)

3. 數(shù)據(jù)演化

4. 模型演化

5. 自我進(jìn)化

6. 在自我進(jìn)化框架內(nèi)重新解讀代表性O(shè)1類研究

7. 未來挑戰(zhàn)和方向

8. 結(jié)論

摘要

OpenAI的O1及其后續(xù)競爭者(如DeepSeek R1)的發(fā)布顯著推動(dòng)了大語言模型(Large Language Models,LLMs)在復(fù)雜推理方面的研究,引發(fā)學(xué)術(shù)界與工業(yè)界的雙重關(guān)注。此項(xiàng)進(jìn)展激發(fā)了相關(guān)技術(shù)成果的復(fù)現(xiàn)和在此基礎(chǔ)上的創(chuàng)新。為系統(tǒng)構(gòu)建該領(lǐng)域的研究框架,本文從自我進(jìn)化(self-evolution)的角度系統(tǒng)地分類了現(xiàn)有技術(shù)。我們的調(diào)查發(fā)現(xiàn)分為三個(gè)相互關(guān)聯(lián)的部分:數(shù)據(jù)進(jìn)化(data evolution)模型進(jìn)化(model evolution)自我進(jìn)化(self-evolution)

  • 數(shù)據(jù)進(jìn)化部分改進(jìn)推理訓(xùn)練數(shù)據(jù),這包括任務(wù)進(jìn)化和增強(qiáng)思維鏈(Chain-of-Thought,CoT)推理的推理時(shí)間計(jì)算。

  • 模型進(jìn)化部分通過在訓(xùn)練過程中優(yōu)化模型模塊,以增強(qiáng)復(fù)雜推理能力。

  • 自我進(jìn)化部分則探討其進(jìn)化策略和模式。包括自我進(jìn)化的規(guī)模法則(scaling law)與對 O1 類研究工作的分析。

通過系統(tǒng)梳理相關(guān)研究,我們總結(jié)了前沿方法,并提供了對未來研究方向的前瞻性展望。本文旨在激勵(lì)LLM復(fù)雜推理社區(qū)進(jìn)一步研究,并促進(jìn)對LLM推理能力提升的深入探索。

1. 引言

近年來,大語言模型(LLMs)的發(fā)展令人矚目。它們不僅在閱讀理解、故事生成和對話能力等領(lǐng)域超出了預(yù)期,還在需要復(fù)雜邏輯推理的任務(wù)中表現(xiàn)出色,包括代碼生成和數(shù)學(xué)問題解決。2024年下半年,LLM研究迎來了一個(gè)關(guān)鍵時(shí)刻,OpenAI發(fā)布了O1 [OpenAI, 2024a],這標(biāo)志著復(fù)雜推理研究的一個(gè)重要里程碑。O1系列模型能夠生成衍生的推理過程,靈活地分解問題,并在面臨挑戰(zhàn)時(shí)自主澄清、反思和糾正潛在錯(cuò)誤,以及探索替代解決方案——模擬了人類思維特有的細(xì)致、反思性推理過程 [OpenAI, 2024b]。

工業(yè)界和學(xué)術(shù)界都致力于復(fù)現(xiàn)O1,掀起了一股技術(shù)報(bào)告的熱潮。

  • 在工業(yè)界,一系列類似的產(chǎn)品涌現(xiàn),例如DeepSeek R1 [DeepSeek-AI et al.,2025](簡稱R1)、Kimi k1.5 [Team et al., 2025]和QwQ [Team, 2024b],它們都發(fā)布了自己的模型或技術(shù)報(bào)告。這些產(chǎn)品不僅達(dá)到甚至超越了O1,而且其開源貢獻(xiàn)也值得稱贊。此外,這些技術(shù)報(bào)告中強(qiáng)調(diào)的擴(kuò)展強(qiáng)化學(xué)習(xí)(Scaling Reinforcement Learning)等技術(shù),進(jìn)一步拓展了研究類O1工作的方向。

  • 在學(xué)術(shù)界,研究者從不同角度進(jìn)行了多項(xiàng)復(fù)現(xiàn)研究。例如,O1 Journey [Qin等,2024; Huang等,2024] 廣泛討論了思維鏈格式化蒸餾,但對持續(xù)優(yōu)化方法的見解有限。與此同時(shí),OpenR [Wang等,2024e]、O1-Coder [Zhang等,2024j]等工作主要通過強(qiáng)化學(xué)習(xí)的視角研究O1,但忽略了對反思和糾正推理操作的討論。另一方面,Slow Thinking系列工作[Jiang等,2024a; Min等,2024]專注于推理時(shí)計(jì)算,嘗試通過樹搜索技術(shù)提升推理性能。此外,rStar-Math [Guan等,2025] 通過使用自我進(jìn)化框架聯(lián)合訓(xùn)練推理器過程獎(jiǎng)勵(lì)模型(Process Reward Model, PRM),實(shí)現(xiàn)了接近O1的性能,突顯了迭代優(yōu)化在提升推理能力方面的潛力。

盡管這些技術(shù)報(bào)告提供了寶貴的見解,但它們往往僅聚焦于特定技術(shù)領(lǐng)域,缺乏整體性的技術(shù)架構(gòu)和統(tǒng)一的分類標(biāo)準(zhǔn)。因此,我們需要對這些方法進(jìn)行系統(tǒng)性的高層次綜述。O1博客 [OpenAI, 2024a] 和系統(tǒng)卡片 [OpenAI, 2024b] 提示O1采用了強(qiáng)化學(xué)習(xí)(RL)和推理時(shí)計(jì)算。這使我們聯(lián)想到另一個(gè)杰出的人工智能——AlphaGo Zero [Silver等,2017]。AlphaGo Zero通過自我對弈、蒙特卡洛樹搜索(MCTS)和策略模型的迭代學(xué)習(xí)實(shí)現(xiàn)了自我進(jìn)化 [Silver et al., 2017] 。這一過程在無人干預(yù)的情況下提升了其性能,啟發(fā)我們采用類似技術(shù)或許能將復(fù)雜推理能力提升至超越人類的水平。在這個(gè)類比中,訓(xùn)練策略模型對應(yīng)于推理優(yōu)化,而MCTS搜索則對應(yīng)于推理時(shí)計(jì)算。自我進(jìn)化通過循環(huán)這兩個(gè)階段,實(shí)現(xiàn)推理能力的自主提升。此外,高質(zhì)量數(shù)據(jù)的匱乏凸顯了自動(dòng)化數(shù)據(jù)合成框架的迫切需求 [Sutskever, 2024; Wang et al., 2024f],由于推理任務(wù)對邏輯嚴(yán)謹(jǐn)性要求更高,這一挑戰(zhàn)尤為突出。因?yàn)橥评砣蝿?wù)對邏輯嚴(yán)謹(jǐn)性有更高要求。在無人干預(yù)的情況下,自我進(jìn)化不僅能利用合成數(shù)據(jù)來增強(qiáng)系統(tǒng)能力,還可以利用改進(jìn)的系統(tǒng)合成更高質(zhì)量的數(shù)據(jù),創(chuàng)造一個(gè)良性循環(huán)推進(jìn)過程。

鑒于這些考慮,本文希望從自我進(jìn)化的視角對大語言模型的復(fù)雜推理提供全面綜述。大語言模型復(fù)雜推理的自我進(jìn)化,亦稱自我改進(jìn)(self-improvement),其需要在閉環(huán)推理系統(tǒng)中自主合成訓(xùn)練數(shù)據(jù)并持續(xù)提升推理能力 [Tao等,2024; Hu等,2024]。專家迭代(Expert iteration)[Polu等,2022; Zhao等,2024b] 被視為典型的自我進(jìn)化范式。其核心思想是:模型首先生成推理軌跡,再基于標(biāo)準(zhǔn)答案篩選出正確解決方案,最后利用這些解決方案對模型進(jìn)行微調(diào),以提升其推理能力。這一過程進(jìn)行迭代,直至模型收斂。此外,在線強(qiáng)化學(xué)習(xí)框架同樣體現(xiàn)了自我進(jìn)化的理念。智能體首先進(jìn)行探索并生成軌跡,然后利用這些軌跡進(jìn)行自我優(yōu)化,從而在后續(xù)的學(xué)習(xí)周期中發(fā)現(xiàn)更高質(zhì)量的軌跡。


圖1:大語言模型中自我進(jìn)化復(fù)雜推理能力的概念框架。我們在完整的自我進(jìn)化框架中識(shí)別出三個(gè)組成部分:數(shù)據(jù)進(jìn)化、模型進(jìn)化以及進(jìn)化策略和模式。

如圖 1 所示,本綜述的結(jié)構(gòu)由三個(gè)部分組成:數(shù)據(jù)進(jìn)化、模型進(jìn)化和自我進(jìn)化。數(shù)據(jù)進(jìn)化探索合成高質(zhì)量數(shù)據(jù),包含兩個(gè)階段:(1)任務(wù)進(jìn)化生成推理系統(tǒng)尚未能有效處理的任務(wù),(2)思維鏈(CoT)進(jìn)化通過擴(kuò)展推理時(shí)計(jì)算 [Snell等,2024] 擴(kuò)展大語言模型的性能邊界,并通過思維鏈(Chain-of-Thought, CoT)[Wei等,2022] 推理生成更好的解決方案。然而,性能的提升可能源于啟發(fā)式搜索算法而非模型的固有能力,這從模型無法持續(xù)生成高質(zhì)量思維鏈的證據(jù)可見一斑。模型進(jìn)化通過提升系統(tǒng)模塊來解決這些問題。一方面,模型專門針對它們曾經(jīng)困難的任務(wù)進(jìn)行訓(xùn)練;另一方面,它們從收集的數(shù)據(jù)中有選擇地學(xué)習(xí),以真正擴(kuò)展其能力邊界。前兩種進(jìn)化代表了探索性和發(fā)散性努力,旨在研究實(shí)現(xiàn)數(shù)據(jù)和模型進(jìn)化的有前景技術(shù)和挑戰(zhàn)。這為自我進(jìn)化奠定了數(shù)據(jù)合成策略和優(yōu)化方法的技術(shù)基礎(chǔ)。在第三部分,我們專注于推理系統(tǒng)的自我進(jìn)化框架。通過迭代進(jìn)行數(shù)據(jù)進(jìn)化和模型進(jìn)化,推理系統(tǒng)實(shí)現(xiàn)自我進(jìn)化:數(shù)據(jù)進(jìn)化基于當(dāng)前模型生成更有針對性、更高質(zhì)量的數(shù)據(jù),而模型進(jìn)化則利用收集的數(shù)據(jù)進(jìn)一步強(qiáng)化模型,為下一輪數(shù)據(jù)進(jìn)化提供更堅(jiān)實(shí)的基礎(chǔ)。

我們的貢獻(xiàn)可總結(jié)如下:(1)全面綜述:這是首個(gè)聚焦于推理自我進(jìn)化的大語言模型綜述;(2)分類體系:我們在圖2中構(gòu)建了一個(gè)詳細(xì)的分類體系;(3)理論基礎(chǔ):我們整理了相關(guān)的基礎(chǔ)理論,并探討了自我進(jìn)化的規(guī)模法則;(4)前沿與未來:我們分析了自我進(jìn)化框架內(nèi)的最新開源研究,并為未來研究指明方向。


圖2:先進(jìn)方法的分類,包括數(shù)據(jù)進(jìn)化、模型進(jìn)化和自我進(jìn)化。

2. 預(yù)備知識(shí)

2.1 背景

本綜述聚焦于大語言模型促成的復(fù)雜推理任務(wù)。具體而言,我們關(guān)注思維鏈推理,即大語言模型在預(yù)測最終答案之前生成逐步推理過程(即思維鏈,Chain-of-Thought, CoT)。

為便于后續(xù)討論,我們將任務(wù)及其解決過程形式化如下:

給定任務(wù) q,大語言模型 PLLM 首先生成逐步思維鏈 y,然后基于 y 預(yù)測最終答案 z。這一過程可以用數(shù)學(xué)表達(dá)式表示為:


由于在實(shí)踐中 y 和 z 通常按順序出現(xiàn),我們有時(shí)會(huì)用 y 來表示解決方案,或者同時(shí)代表思維鏈和最終答案。


2.2 推理系統(tǒng)模塊

借鑒現(xiàn)有推理研究的見解,我們首先描述了閉環(huán)自我進(jìn)化推理(closed-loop self-evolution reasoning)框架的基本組件。具體而言,我們確定了以下四個(gè)關(guān)鍵模塊:

  • 任務(wù)創(chuàng)建器(Task Creator):推理系統(tǒng)需要任務(wù)作為輸入。任務(wù)創(chuàng)建器最直接的實(shí)現(xiàn)方式是從固定任務(wù)集中抽樣。然而,與單輪推理改進(jìn)不同,自我進(jìn)化需要通過迭代優(yōu)化持續(xù)提升推理能力。固定任務(wù)集可能導(dǎo)致性能快速收斂[Jiang等,2024a],因?yàn)橄到y(tǒng)學(xué)會(huì)識(shí)別針對特定任務(wù)的"捷徑",從而降低模型泛化能力。因此,生成多樣化任務(wù)對緩解這一問題并促進(jìn)自我進(jìn)化至關(guān)重要。

  • 推理器(Reasoner):推理器是系統(tǒng)的核心角色,負(fù)責(zé)接收來自任務(wù)創(chuàng)建器的輸入并通過逐步推理生成解決方案。在本研究中,推理器由大語言模型實(shí)現(xiàn)。

  • 評估器(Evaluator):評估器負(fù)責(zé)評估和驗(yàn)證推理器生成的推理過程。這一輔助模塊有幾個(gè)關(guān)鍵功能:在訓(xùn)練階段,它提供基于分?jǐn)?shù)的反饋來微調(diào)推理器,例如拒絕微調(diào)或強(qiáng)化學(xué)習(xí);在推理階段,它評估推理過程,從而指導(dǎo)推理時(shí)計(jì)算和后處理步驟。

  • 后處理器(Post-Processor):后處理器基于評估器反饋,處理推理器生成的解決方案。最簡單的操作是直接過濾掉錯(cuò)誤的解決方案;然而,這種方法可能導(dǎo)致數(shù)據(jù)浪費(fèi),且與人類處理錯(cuò)誤的方式不盡相同。后處理分為兩個(gè)階段:在生成過程中,它可以通過修正錯(cuò)誤的步驟或回溯來優(yōu)化部分思維鏈;在生成后,它利用系統(tǒng)的糾正能力來完善完整的解決方案。

值得注意的是,這些模塊在邏輯上是不同的,而非物理上。由于大語言模型強(qiáng)大的指令遵循能力,單個(gè)模型可以在實(shí)現(xiàn)過程中同時(shí)履行多個(gè)角色。在接下來的章節(jié)中,我們將探討它們在數(shù)據(jù)進(jìn)化(共同生成高質(zhì)量數(shù)據(jù))、模型進(jìn)化(優(yōu)化每個(gè)模塊)和自我進(jìn)化(模塊的聯(lián)合進(jìn)化)中的重要作用。

3. 數(shù)據(jù)進(jìn)化


圖3:數(shù)據(jù)進(jìn)化流程由任務(wù)進(jìn)化和思維鏈進(jìn)化組成。在思維鏈進(jìn)化中,我們定義了三種元操作符,使兩種搜索范式能夠生成更高質(zhì)量的思維鏈。

如圖3所示,數(shù)據(jù)進(jìn)化分為兩個(gè)不同階段:任務(wù)進(jìn)化思維鏈進(jìn)化。任務(wù)進(jìn)化的核心是通過解決關(guān)鍵因素來提高推理任務(wù)的質(zhì)量,如:難度、多樣性和有效性等。通過優(yōu)化這些維度,該系統(tǒng)不被局限于任務(wù)范圍,從而顯著提升泛化能力。思維鏈進(jìn)化(推理時(shí)計(jì)算)旨在提高推理階段的推理過程質(zhì)量。這種提升主要體現(xiàn)在推理的準(zhǔn)確性、邏輯連貫性以及系統(tǒng)自主評估和修正錯(cuò)誤的能力上。


3.1 任務(wù)進(jìn)化

任務(wù)進(jìn)化(Task evolution)專注于生成新任務(wù),提高訓(xùn)練數(shù)據(jù)的多樣性和難度,以增強(qiáng)模型的推理和泛化能力。這種方法類似于學(xué)生通過練習(xí)各種習(xí)題來提高技能。盡管任務(wù)進(jìn)化至關(guān)重要,但我們觀察到現(xiàn)有研究很少探索這一維度。因此,我們將任務(wù)進(jìn)化作為起點(diǎn)。作為數(shù)據(jù)合成的關(guān)鍵組成部分,任務(wù)進(jìn)化通常涉及創(chuàng)建新任務(wù),例如利用更先進(jìn)的大語言模型來制定新挑戰(zhàn) [Li等2024a]。在本節(jié)中,我們專注于增強(qiáng)任務(wù)多樣性(task diversity)復(fù)雜性(task complexity)可靠性(task reliability),以有效支持任務(wù)進(jìn)化。

  • 任務(wù)多樣性 :為了增強(qiáng)任務(wù)多樣性,Haluptzok等[2022]、Madaan等[2023a]使用大語言模型修改參考問題的數(shù)據(jù)類型和邏輯操作,生成結(jié)構(gòu)相似但邏輯不同的任務(wù)。Yu等[2023b]則使用大語言模型重新表述參考問題來創(chuàng)建新問題。然而,此類方法受限于對參考數(shù)據(jù)的依賴,從而限制了全新任務(wù)的生成,并削弱了多樣性和創(chuàng)造性。為突破這一局限,有人提出從高方差分布中采樣數(shù)據(jù)或引入聚焦多樣性的提示詞。例如,Liu等[2023]采用溫度采樣和注重多樣性的提示詞來生成多樣化的問題,而Xu等[2023]則明確指示大語言模型創(chuàng)建罕見的、特定領(lǐng)域的問題。此外,Self-Instruct[Wang等,2022]通過結(jié)合人工編寫和模型生成的任務(wù)來生成新的任務(wù)指令,并使用特定的提示模板引導(dǎo)生成過程。

  • 任務(wù)復(fù)雜性:Xu等[2023]提出了幾種基于示例問題生成復(fù)雜任務(wù)的方法:1) 添加約束:通過引入額外的約束或要求來提高任務(wù)難度,從而增強(qiáng)模型的靈活性和適應(yīng)性;2) 深化:擴(kuò)展示例中查詢的深度和廣度,以提升模型的推理能力;3) 具體化:將問題中的一般概念替換為具體概念,使指令更加清晰,從而提高響應(yīng)的準(zhǔn)確性和相關(guān)性;4) 增加推理步驟:重新制定簡單問題,要求額外的推理步驟,從而增強(qiáng)模型的邏輯思維能力;5) 增加輸入復(fù)雜性:通過修改問題條件,引入結(jié)構(gòu)化數(shù)據(jù)或特定輸入格式(如代碼、表格、XML等),將問題從直接可計(jì)算轉(zhuǎn)變?yōu)樾枰~外數(shù)據(jù)解析或操作的形式,從而提升模型的魯棒性和泛化能力。

此外,Shi等[2023]通過引入無關(guān)條件來增加推理難度,迫使模型識(shí)別并聚焦于關(guān)鍵條件,而Mitra等[2024]則通過在問題中嵌入答案,將問題重新表述為陳述性語句,并借助自動(dòng)化建議(如引入額外變量)來指導(dǎo)生成更復(fù)雜的問題。

  • 任務(wù)可靠性:自動(dòng)生成任務(wù)可能會(huì)產(chǎn)生無法解決的任務(wù)或不正確的答案。為解決這一問題,Li 等 [2023a] 采用微調(diào)的大語言模型(LLMs)對任務(wù)進(jìn)行評分并篩選高質(zhì)量任務(wù)。類似地,Liu 等 [2024a] 和 Xu 等 [2023] 基于原始問題生成多種任務(wù),并通過驗(yàn)證答案來過濾不一致的任務(wù)。Haluptzok 等 [2022] 和 Liu 等 [2023] 則利用 Python 解釋器和預(yù)定義規(guī)則(如檢查任務(wù)長度或數(shù)值內(nèi)容)來驗(yàn)證正確性,從而確保任務(wù)質(zhì)量。Kreber 和 Hahn [2021] 提出了一種基于 Transformer 編碼器的生成對抗網(wǎng)絡(luò)(GAN)[Goodfellow 等,2014],通過隨機(jī)噪聲生成符號任務(wù)。評判器評估生成任務(wù)與真實(shí)數(shù)據(jù)之間的相似性,并提供反饋以優(yōu)化生成器,從而提高任務(wù)可靠性。此外,Wei 等 [2023] 和 Lu 等 [2024b] 探索了反向任務(wù)生成方法,利用大語言模型從解決方案中推導(dǎo)問題。具體而言,Lu 等 [2024b] 從數(shù)學(xué)參考解決方案中迭代生成新答案,定義約束條件和邏輯關(guān)系,并將這些答案轉(zhuǎn)化為任務(wù),從而確保生成問題的可靠性。類似地,Wei 等 [2023] 利用高質(zhì)量的開源代碼,通過大語言模型生成編程任務(wù)。


3.2 思維鏈進(jìn)化

在開始推理過程之前,需要構(gòu)思推理鏈(Chain of Thoughts, CoT)的理想形態(tài),以及它應(yīng)該包含哪些元操作。推理鏈的格式?jīng)Q定了系統(tǒng)推理能力的上限。在本節(jié)中,我們首先定義三個(gè)元操作,以構(gòu)建更強(qiáng)大的推理鏈,包括逐步推理(Step-by-Step Reasoning)、評估(Evaluation)和后處理(Post-Processing)

我們回顧了推理中的計(jì)算方法,這些方法通常通過搜索生成更高質(zhì)量的思維鏈,分為顯式樹搜索(explicit tree search)隱式試錯(cuò)搜索(implicit trial-and-error search)兩類。早期研究集中在顯式樹搜索上,但隨著O1及其后續(xù)開源項(xiàng)目(如 R1 [DeepSeek-AI 等,2025]、Kimi k1.5 [Team 等,2025] 和 T1 [Hou 等,2025]),研究逐漸轉(zhuǎn)向試錯(cuò)搜索。O1提供的思維鏈?zhǔn)纠砻鳎茉诎l(fā)現(xiàn)錯(cuò)誤時(shí)自我糾正或回溯,并記錄整個(gè)推理過程,模仿人類在回答前的深思熟慮。O1 Journey [Qin 等,2024] 早期探討了這一點(diǎn),提出了“捷徑學(xué)習(xí)”(Shortcut Learning)[Geirhos 等,2020] 概念,描述追求每一步都正確的思維鏈,并通過“旅程學(xué)習(xí)”(Journey Learning)[Qin 等,2024] 表示推理過程中的自我驗(yàn)證、錯(cuò)誤檢測和修正。Kimi k1.5[Team 等,2025] 和Redstar[Xu 等,2025] 進(jìn)一步研究這一概念,并稱之為“長思維鏈”(Long CoT)。與此一致,我們將捷徑學(xué)習(xí)的結(jié)果稱為“短思維鏈”(Short CoT)。

3.2.1 元操作符

思維鏈推理的潛力已被廣泛探索。雖然普通思維鏈(vanilla CoT)在簡單任務(wù)上表現(xiàn)良好,但在更復(fù)雜任務(wù)中表現(xiàn)不佳。增強(qiáng)思維鏈推理的一種方法是設(shè)計(jì)受人類認(rèn)知啟發(fā)的更復(fù)雜且高效的推理鏈。對類 O1 系統(tǒng) [Qin 等,2024; Zeng 等,2024b] 的觀察引發(fā)了對分解、逐步推理、自我評估、自我糾正和回溯等操作的討論。因此,我們總結(jié)并歸納了三個(gè)關(guān)鍵元操作:逐步推理(Step-by-step Reasoning)評估(Evaluation)后處理(Post-processing)

我們聚焦這三個(gè)元操作符,并回顧前一節(jié)(§2.2)中提到的模塊,可以將思維鏈格式與推理系統(tǒng)模塊相連接。推理器(Reasoner)通過逐步分解生成推理過程,搜索算法作為其擴(kuò)展技術(shù)。評估器(Evaluator)和后處理器(Post-Processor)分別管理思維鏈中的評估和糾正過程。整合這三個(gè)模塊后,我們可以構(gòu)建一個(gè)全面且穩(wěn)健的推理系統(tǒng)。

逐步推理

逐步推理將問題分解為依序步驟,這需要強(qiáng)大的規(guī)劃能力,然后通過基于鏈的推理過程逐步解決問題 [Chu 等,2023]。此外,分解過程應(yīng)該是遞歸的,從而使系統(tǒng)能夠迭代地分解復(fù)雜的子問題。

思維鏈

[Wei 等,2022] 代表了一種直接的線性搜索方法,利用少樣本(few-shot)或零樣本(zero-shot)提示來逐步解決問題。Plan-and-Solve [Wang 等,2023b] 采用零樣本提示引導(dǎo)模型在單一生成過程中生成計(jì)劃,隨后基于生成的計(jì)劃進(jìn)行鏈?zhǔn)酵评怼纳俚蕉嗵崾荆↙east-to-Most Prompting)[Zhou 等,2022] 采用兩階段方法:第一階段,問題被明確分解為多個(gè)子問題;第二階段,這些子問題被順序解決。前一步的結(jié)果被添加至上下文,引導(dǎo)模型繼續(xù)解決后續(xù)子問題。。與基于規(guī)劃的方法不同,連續(xù)提示(Successive Prompting)[Dua 等,2022] 采用迭代分解過程。在每次迭代中,一個(gè)新的子問題被提出并在當(dāng)前步驟中解決。這一兩步過程重復(fù)進(jìn)行,直到整個(gè)問題被解決。ReACT [Yao 等,2022] 將迭代推理與行動(dòng)相結(jié)合。在每一步中,模型基于其推理生成一個(gè)行動(dòng)。該行動(dòng)可能涉及調(diào)用外部工具(如計(jì)算器)或與環(huán)境交互。隨后,模型使用來自這些外部工具或環(huán)境的反饋進(jìn)行下一步,直到達(dá)到最終目標(biāo)。通過引入行動(dòng),ReACT 使模型能夠與外部系統(tǒng)交互,從而增強(qiáng)大語言模型的推理過程。

評估

一個(gè)穩(wěn)健的推理系統(tǒng)須具備自我評估能力,使其能夠在任務(wù)執(zhí)行期間和之后評估其推理過程。在推理過程中,系統(tǒng)應(yīng)識(shí)別并終止錯(cuò)誤的探索路徑以進(jìn)行后處理。在啟發(fā)式搜索中,評估結(jié)果進(jìn)一步用于指導(dǎo)搜索。完成推理過程后,可能會(huì)生成多個(gè)候選答案,這就需要進(jìn)行徹底評估,以有效地評估和驗(yàn)證不同的解決方案。我們從三個(gè)粒度回顧現(xiàn)有研究:結(jié)果級(outcome-level)步驟級(step-level)詞元級(token-level)

  • 結(jié)果級評估 早期工作主要關(guān)注結(jié)果級評估,即在推理完成后對完整解決方案進(jìn)行評估 [Cobbe 等,2021; Wang 等,2023c; Lee 等,2024a]。這些方法的主要區(qū)別在于評估的形式和目的。在訓(xùn)練階段,當(dāng)正確答案可用時(shí),一些工作對照標(biāo)準(zhǔn)答案對解決方案進(jìn)行直接的正確性評估 [Cobbe 等,2021; Hosseini 等,2024]。除了單純的答案準(zhǔn)確性外,R1 [DeepSeek-AI 等,2025] 和 T1 [Hou 等,2025] 還融入了基于格式的結(jié)果獎(jiǎng)勵(lì)來指導(dǎo)推理格式學(xué)習(xí)。在推理階段,Cobbe 等 [2021]、Hosseini 等 [2024] 利用訓(xùn)練好的驗(yàn)證器對候選解決方案進(jìn)行評分和排名,從而選擇最優(yōu)解。此外,一些方法使用大語言模型對解決方案提供自然語言反饋。例如,Madaan 等 [2023b]、Zhang 等 [2024b] 直接生成批評,而 Peng 等 [2023]、Shinn 等 [2023]、Gou 等 [2024] 在批評生成中包含內(nèi)部和外部環(huán)境信息。此外,Ankner 等 [2024b]、Yu 等 [2024b] 將自然語言批評與評分機(jī)制相結(jié)合,以提高評估的可靠性和可解釋性。一些研究還采用基于一致性的評估框架。例如,Wang 等 [2023c] 采用投票系統(tǒng)從多個(gè)解決方案候選中確定最終答案,而 Jiang 等 [2024b]、Weng 等 [2023] 通過確保前向和后向推理過程之間的一致性來評估答案質(zhì)量。

  • 步驟級評估 雖然結(jié)果級評估實(shí)施簡單,但在實(shí)踐中應(yīng)用有限,往往需要更細(xì)致的評估。其中,步驟級評估已成為一種特別突出的方法,強(qiáng)調(diào)對單個(gè)推理步驟的評估 [Lightman 等,2024; Wang 等,2024g,m; Gao 等,2024a; Lu 等,2024a; Li 等,2023b]。在樹搜索算法中,過程評估被廣泛用于指導(dǎo)搜索軌跡。例如,Tian 等 [2024] 在蒙特卡洛樹搜索(MCTS)中使用狀態(tài)評分來指導(dǎo)搜索過程,而 Xie 等 [2023] 在束搜索中實(shí)現(xiàn)狀態(tài)評分以優(yōu)化路徑選擇。此外,步驟級評估在錯(cuò)誤糾正和推理步驟總結(jié)方面都證明了其有效性。值得注意的是,Zheng 等 [2024]、Xi 等 [2024] 已開發(fā)出能夠精確定位特定推理步驟中的不準(zhǔn)確之處的方法,從而提供更精確和可操作的反饋,用于全面評估。

  • 詞元級評估 一些研究認(rèn)為,步驟級評估的粒度對于全面的推理評估仍然不足 [Yoon 等,2024; Chen 等,2024h]。這促使了詞元級評估框架的發(fā)展,提供了更高細(xì)粒度的分析。Yoon 等 [2024] 引入了一種方法,利用強(qiáng)大的大語言模型在詞元級別上迭代修改思維鏈推理。他們的方法根據(jù)修改操作為詞元分配不同的獎(jiǎng)勵(lì),并利用這些獎(jiǎng)勵(lì)來訓(xùn)練詞元級獎(jiǎng)勵(lì)模型。類似地,Chen 等 [2024h] 提出了一個(gè)兩階段框架,首先訓(xùn)練一個(gè)糾正模型來識(shí)別和糾正錯(cuò)誤的推理步驟。通過將低生成概率與錯(cuò)誤詞元關(guān)聯(lián),將高概率與正確詞元關(guān)聯(lián),他們的方法能夠構(gòu)建精確的詞元級獎(jiǎng)勵(lì)信號。此外,Lee 等 [2024d] 提出了一個(gè)詞元監(jiān)督的價(jià)值模型,該模型監(jiān)督單個(gè)詞元以提供對解決方案正確性的更準(zhǔn)確評估。同時(shí),Yang 等 [2024b] 基于最大熵強(qiáng)化學(xué)習(xí)原理推導(dǎo)出了一種詞元級評估方案。他們的方法通過基于排名的截?cái)嘤?jì)算詞元級價(jià)值,為每個(gè)詞元分配 +1、0 或 -1 的離散獎(jiǎng)勵(lì),從而實(shí)現(xiàn)對推理過程的細(xì)粒度優(yōu)化。

基于評估反饋的呈現(xiàn)格式,現(xiàn)有的評估方法可分為兩種不同范式:驗(yàn)證器(verifier)評論器(critic)。驗(yàn)證器專注于通過標(biāo)量評分量化解決方案質(zhì)量,而評論器則以自然語言提供口頭反饋。

  • 驗(yàn)證器 驗(yàn)證器范式通過分配量化分?jǐn)?shù)來評估解決方案的正確性。例如,Cobbe 等[2021]使用驗(yàn)證器來估計(jì)解決方案正確的概率,而Hosseini 等[2024]利用經(jīng)過訓(xùn)練的DPO驗(yàn)證器生成反映解決方案有效性的似然分?jǐn)?shù)。此外,[Lightman 等,2024; Wang 等,2024g; Lu 等,2024a]采用步驟級評分機(jī)制,對單個(gè)推理步驟分配分?jǐn)?shù),并使用最小值或平均值等指標(biāo)聚合它們,以得出整體解決方案質(zhì)量評估。[Tian 等,2024; Xie 等,2023]為樹搜索過程中的每個(gè)狀態(tài)分配分?jǐn)?shù),以優(yōu)化搜索路徑。為了更細(xì)的粒度,[Yoon 等,2024; Chen 等,2024h; Lee 等,2024d; Yang 等,2024b]引入了詞元級評分機(jī)制,為單個(gè)詞元分配連續(xù)或離散分?jǐn)?shù)(如中性、正確或錯(cuò)誤)。

  • 評論器 評論器范式生成自然語言反饋,以促進(jìn)錯(cuò)誤澄清并提高評分機(jī)制的可解釋性。例如,Madaan 等[2023b]利用模型固有的能力對其自身解決方案產(chǎn)生批判性反饋,實(shí)現(xiàn)迭代改進(jìn)。同時(shí),[Peng 等,2023; Shinn 等,2023; Gou 等,2024]通過結(jié)合內(nèi)部模型狀態(tài)和外部環(huán)境信息來擴(kuò)展這種方法,生成全面的批評,不僅識(shí)別錯(cuò)誤,還指導(dǎo)后續(xù)改進(jìn)。進(jìn)一步推進(jìn)這一工作,[Zheng 等,2024; Xi 等,2024]進(jìn)行粒度化、逐步的批判性分析,以更詳細(xì)地定位和糾正錯(cuò)誤。[Ankner 等,2024b; Yu 等,2024b]將批評生成與評分機(jī)制整合。通過在分配分?jǐn)?shù)之前生成自然語言批評,這些方法增強(qiáng)了評估過程的透明度和可靠性,為評估解決方案質(zhì)量提供了更可解釋和穩(wěn)健的框架。此外,MCTS-Judge Wang 等[2025b]也將自我評估建模為一系列子任務(wù),并使用蒙特卡洛樹搜索將問題分解為更簡單的多角度評估任務(wù)。


圖4:評估后的三種后處理方法:過濾(Filter)、總結(jié)(Summary)和糾正(Correction)。

評估的挑戰(zhàn):獎(jiǎng)勵(lì)欺騙 獎(jiǎng)勵(lì)欺騙被定義為策略模型利用獎(jiǎng)勵(lì)定義中的模糊性或漏洞獲得高獎(jiǎng)勵(lì),而實(shí)際上并未學(xué)習(xí)所需能力的情況 [Weng,2024]。針對特定階段,有兩條主要路徑可以緩解獎(jiǎng)勵(lì)欺騙。在獎(jiǎng)勵(lì)建模階段,設(shè)計(jì)更復(fù)雜的過程獎(jiǎng)勵(lì)可能有助于緩解這一問題。然而,過于復(fù)雜的獎(jiǎng)勵(lì)信號也可能改變收斂目標(biāo)。另一種方法是放棄細(xì)粒度的過程獎(jiǎng)勵(lì)模型(PRM)而僅依賴結(jié)果獎(jiǎng)勵(lì)模型(ORM),這對推理任務(wù)尤為適用。例如,R1 [DeepSeek-AI 等,2025]和T1 [Hou 等,2025]僅采用基于答案正確性和格式合規(guī)性的規(guī)則型結(jié)果獎(jiǎng)勵(lì),有效緩解了使用過程獎(jiǎng)勵(lì)模型時(shí)的獎(jiǎng)勵(lì)欺騙問題。此外,使用更大規(guī)模的大語言模型作為基礎(chǔ)獎(jiǎng)勵(lì)模型可以提高其泛化能力并降低利用漏洞的風(fēng)險(xiǎn)。同時(shí),在強(qiáng)化學(xué)習(xí)訓(xùn)練過程中,裁剪和獎(jiǎng)勵(lì)塑造等機(jī)制可以在一定程度上幫助緩解這一問題 [Gao 等,2024b]。

評估的挑戰(zhàn):泛化性 此外,獎(jiǎng)勵(lì)模型的泛化能力同樣至關(guān)重要。參數(shù)化評估器(如獎(jiǎng)勵(lì)模型)通常在特定數(shù)據(jù)分布上訓(xùn)練,這限制了它們在分布外(out-of-distribution, OOD)任務(wù)上的適用性。這種限制可能導(dǎo)致對新任務(wù)的評估出現(xiàn)偏差或不穩(wěn)定,進(jìn)一步阻礙任務(wù)泛化 [DeepSeek-AI 等,2025; Cui 等,2025]。因此,增強(qiáng)獎(jiǎng)勵(lì)模型的泛化能力,以在更廣泛的任務(wù)范圍內(nèi)提供可靠反饋,對于提高任務(wù)泛化至關(guān)重要。一方面,可以優(yōu)先考慮非參數(shù)化評估器,如答案正確性或格式準(zhǔn)確性,以緩解這些問題 [DeepSeek-AI 等,2025; Hou 等,2025]。另一方面,如果必須使用參數(shù)化評估器,確保其持續(xù)更新至關(guān)重要。一個(gè)關(guān)鍵挑戰(zhàn)在于高效且經(jīng)濟(jì)地構(gòu)建這些評估器的訓(xùn)練數(shù)據(jù)。

盡管像 R1 [DeepSeek-AI 等,2025] 這樣的工作通過基于規(guī)則的結(jié)果獎(jiǎng)勵(lì)規(guī)避了現(xiàn)有評估器中的獎(jiǎng)勵(lì)欺騙和泛化限制問題,但也暴露了新的挑戰(zhàn),如過長的思維鏈、低效的反思和過度思考。這些問題表明,僅依賴結(jié)果獎(jiǎng)勵(lì)可能不足。更高細(xì)粒度的步驟級評估可能有助于解決這些缺點(diǎn)。結(jié)合過程獎(jiǎng)勵(lì)模型(PRMs)和結(jié)果獎(jiǎng)勵(lì)模型(ORMs)的優(yōu)勢,既能緩解獎(jiǎng)勵(lì)欺騙并確保泛化,又能實(shí)現(xiàn)細(xì)粒度評估,仍然是未來研究中的重要挑戰(zhàn)。

后處理

如圖4所示,評估后的推理解決方案可以進(jìn)一步處理以提高其質(zhì)量和可靠性。首先,可以使用總結(jié)知識(shí)(Summary Knowledge)從推理過程中提煉和總結(jié)關(guān)鍵信息。對于低質(zhì)量的推理解決方案,常見的處理方法包括過濾(Filtering)和糾正(Correcting)。過濾直接移除不可靠的解決方案,而糾正通過修正錯(cuò)誤或恢復(fù)到正確狀態(tài)來優(yōu)化推理過程。這兩種方法各有優(yōu)勢,其中糾正在提高推理準(zhǔn)確性的同時(shí)特別有效地保留有用信息。通過納入這些后處理操作,系統(tǒng)可以有效避免陷入邏輯死角和重復(fù)失敗的推理路徑,從而在復(fù)雜問題解決場景中增強(qiáng)整體穩(wěn)健性和可靠性。以下討論將更詳細(xì)地深入探討這些核心策略。

從思維鏈中總結(jié)知識(shí)

為提高模型在推理任務(wù)中的表現(xiàn),一些研究專注于總結(jié)先前解決方案的經(jīng)驗(yàn)來指導(dǎo)后續(xù)推理。例如,Zhang 等[2024k]在訓(xùn)練實(shí)例中納入反思組件,如通過類比和推理的替代解決方案或問題擴(kuò)展,引導(dǎo)模型從不同角度理解問題并積累多樣化的推理經(jīng)驗(yàn)。而Wang 等[2024l]通過訓(xùn)練對齊將反思見解整合到代碼本模塊中,使模型能夠主動(dòng)檢索相關(guān)反思來輔助推理過程。在樹搜索推理中,Hui 等[2024]識(shí)別重要節(jié)點(diǎn)并反思后續(xù)行動(dòng)和結(jié)果,生成任務(wù)級指導(dǎo)方針以優(yōu)化搜索效率并避免重復(fù)錯(cuò)誤。同時(shí),Liu 等[2024c]引入了用于行動(dòng)選擇的文本原則,通過迭代反思不斷完善這些原則,靈活指導(dǎo)行動(dòng)執(zhí)行。此外,Zhang 等[2025a]提出了基于思維鏈的合成器(CoT-based Synthesizer),通過結(jié)合多個(gè)候選解決方案的互補(bǔ)信息來改進(jìn)推理,即使所有候選解決方案都有缺陷也能生成更好的解決方案。

過濾低質(zhì)量思維鏈

當(dāng)在評估階段識(shí)別出低質(zhì)量解決方案時(shí),最簡單的方法是直接過濾。例如,當(dāng)標(biāo)準(zhǔn)答案可用時(shí),可以基于答案正確性過濾低質(zhì)量解決方案 [Singh 等,2023; Gulcehre 等,2023]。在沒有標(biāo)準(zhǔn)答案的情況下,過濾策略可以基于一致性進(jìn)行完善,如困惑度(perplexity)[Min 等,2024]、基于投票的一致性 [Wang 等,2023c; Chen 等,2023a]、前向-后向一致性 [Jiang 等,2024b; Weng 等,2023],或通過構(gòu)建針對多項(xiàng)選擇題性質(zhì)的后續(xù)問題來評估解決方案一致性 [Ankner 等,2024a; Lee 等,2024b]。此外,可學(xué)習(xí)的驗(yàn)證器 [Cobbe 等,2021; Yu 等,2023a; Stiennon 等,2020]可以用來進(jìn)一步增強(qiáng)過濾過程。雖然簡單過濾既高效又易于實(shí)施,但通常會(huì)導(dǎo)致大量推理數(shù)據(jù)浪費(fèi)。

糾正低質(zhì)量思維鏈

除了直接過濾外,糾正不正確的解決方案有助于最大限度地利用已有數(shù)據(jù),因此低質(zhì)量解決方案的改進(jìn)已成為研究的關(guān)鍵方向。早期研究主要依賴模型的內(nèi)在能力對解決方案進(jìn)行優(yōu)化。例如,Madaan 等 [2023b] 使用自生成反饋對初始輸出進(jìn)行迭代優(yōu)化;Zhang 等 [2024g] 則通過大語言模型比較多個(gè)方案,并將差異整理為對照清單,以增強(qiáng)自我反思過程的一致性與可靠性。然而,僅依賴內(nèi)在糾正方法往往難以充分優(yōu)化結(jié)果,表明引入外部信息對于提升改進(jìn)效果至關(guān)重要。

最近的研究提出多種策略增強(qiáng)糾正性能。Ferraz 等[2024]、Wu 等[2024b]通過細(xì)粒度約束分解和后向推理優(yōu)化糾正過程。Gou 等[2024]利用外部工具反饋,Li 等[2024b]、Gao 等[2024c]、Chen 等[2023b]、Yuan 等[2024a]借助Python解釋器迭代執(zhí)行代碼,直至成功評估。Ramji 等[2024]采用策略指標(biāo)作為質(zhì)量反饋,迭代優(yōu)化答案。Wu 等[2024c]訓(xùn)練PSV模型識(shí)別并糾正錯(cuò)誤步驟,確保準(zhǔn)確性。Shridhar 等[2024]訓(xùn)練提問者模型生成子問題以輔助糾正。為增強(qiáng)模型的批評與改進(jìn)能力,Zheng 等[2024]、Xi 等[2024]、Yan 等[2024]、Zhang 等[2024i]提出訓(xùn)練模型提供批評以推動(dòng)改進(jìn)。

從理論角度看,迭代糾正方法可視為通過線性搜索進(jìn)行的馬爾可夫決策過程(Markov Decision Process, MDP),其中解決方案為狀態(tài),糾正操作則為狀態(tài)轉(zhuǎn)移的行動(dòng)。簡單的線性搜索通常效果平平,但更復(fù)雜的樹搜索方法理論上能獲得更優(yōu)結(jié)果。例如,Zhang 等[2024e,d]將蒙特卡洛樹搜索(Monte Carlo Tree Search, MCTS)與自我進(jìn)化機(jī)制結(jié)合,優(yōu)化復(fù)雜數(shù)學(xué)推理任務(wù)的解決方案。該算法初始化根節(jié)點(diǎn),并通過價(jià)值函數(shù) Q 選擇最具潛力的節(jié)點(diǎn)進(jìn)行擴(kuò)展。在自我進(jìn)化階段,模型通過反饋糾正答案并生成更優(yōu)解,隨后通過自我評估打分,這些分?jǐn)?shù)用于更新樹中節(jié)點(diǎn)的價(jià)值評估。節(jié)點(diǎn)的樹上置信上界(Upper Confidence Bound for Trees,UCT)值通過改進(jìn)的公式進(jìn)行更新。該過程持續(xù)進(jìn)行,直到滿足終止條件,既提升了解決方案質(zhì)量,也不斷探索新的可能性。

其他方法

除上述糾正、過濾與總結(jié)操作外,還可采用其他后處理方式,如回溯機(jī)制 [Qin 等,2024;Yang 等,2025b]。當(dāng)系統(tǒng)檢測到錯(cuò)誤時(shí),可回溯至先前狀態(tài),重新探索替代的推理路徑。


3.2.2 用于短思維鏈的顯式樹搜索

在本小節(jié)中,我們將“短思維鏈”(Short CoT)定義為僅包含邏輯推理步驟、不涉及評估與糾正等行為的思維鏈。短思維鏈體現(xiàn)了一種從任務(wù)提示直接通向標(biāo)準(zhǔn)答案的精簡推理過程,要求每個(gè)中間步驟均為正確。針對傳統(tǒng)思維鏈準(zhǔn)確率較低的問題,研究者提出基于啟發(fā)式搜索(尤其是樹搜索)的增強(qiáng)方法,以提高對短思維鏈的搜索效率。我們將此類方法統(tǒng)一歸納為“顯式樹搜索”(Explicit Tree Search)框架。

盡管短思維鏈本身不包含評估等行為,但在搜索過程中仍可引入評估機(jī)制輔助推理。搜索過程中,評估函數(shù)用于引導(dǎo)探索方向并執(zhí)行剪枝,從而優(yōu)先保留最具潛力的路徑。該方法在提升搜索效率的同時(shí),亦保持了所生成思維鏈的準(zhǔn)確性與簡潔性。根據(jù)底層搜索策略的不同,顯式樹搜索算法可分為若干類型:樸素的廣度優(yōu)先/深度優(yōu)先搜索(naive BFS/DFS)束搜索(Beam Search)A*算法以及蒙特卡洛樹搜索(MCTS)

廣度優(yōu)先/深度優(yōu)先搜索:思維樹(Tree-of-Thoughts, ToT)[Yao 等,2023] 將問題分解為多個(gè)思維節(jié)點(diǎn),并利用經(jīng)典搜索算法——廣度優(yōu)先搜索(BFS)和深度優(yōu)先搜索(DFS)——探索多樣化的推理路徑,顯著增強(qiáng)了語言模型在復(fù)雜任務(wù)中的問題解決能力。Qin 等 [2023] 將搜索過程與工具使用相結(jié)合,采用 DFS 處理工具組合與錯(cuò)誤管理,從而提升模型在真實(shí)任務(wù)中的表現(xiàn)。上述方法依賴外部程序(如 Python 代碼)定義搜索邏輯。然而,這些被動(dòng)搜索方法效率較低,靈活性有限。自主樹搜索(Autonomous Tree-Search)[Zhang 等,2023b] 通過提示直接引導(dǎo)大語言模型獨(dú)立執(zhí)行 BFS 或 DFS,自主探索多條解決路徑,提升推理靈活性。思維算法(Algorithm-of-Thought, AoT)[Sel 等,2023] 則利用 BFS/DFS 的整個(gè)搜索路徑作為提示,整合思維鏈與思維樹的優(yōu)勢,使模型在推理過程中能動(dòng)態(tài)調(diào)整路徑,從而更高效地發(fā)現(xiàn)解法。此外,AoT 避免了 ToT 所需的多輪查詢,降低了推理開銷。

束搜索:束搜索作為廣度優(yōu)先搜索的一種變體,在搜索過程中維護(hù)k個(gè)候選序列(稱為束),實(shí)現(xiàn)了搜索準(zhǔn)確性和計(jì)算效率之間的有效平衡。其與大語言模型自回歸生成的契合使其特別適合在解碼過程中指導(dǎo)前向搜索。根據(jù)搜索的粒度,束搜索可分為三個(gè)層次:詞元級(token-level)、步驟級(step-level)和解決方案級(solution-level)。

  • 詞元級束搜索在模型生成的最小單位上操作,直接與大語言模型解碼過程對齊。雖然傳統(tǒng)束搜索基于詞元對數(shù)概率對序列進(jìn)行排序,但這種方法優(yōu)先考慮自然語言流暢性而非推理質(zhì)量。為解決這一局限性,Lee 等[2024c]引入了詞元監(jiān)督價(jià)值模型,對詞元進(jìn)行評分以提高數(shù)學(xué)推理的準(zhǔn)確性。此外,為緩解生成序列多樣性不足的問題,Vijayakumar 等[2016]提出多樣化束搜索,將束分成多個(gè)組,在每個(gè)組內(nèi)獨(dú)立優(yōu)化,并在組間引入多樣性懲罰,以鼓勵(lì)生成更多樣的推理路徑。

  • 步驟級束搜索將多步推理分解為子步驟,對每個(gè)子步驟進(jìn)行評分和驗(yàn)證,以維持高質(zhì)量的候選路徑。例如,Wang 等[2024i]、Ma 等[2023]使用過程獎(jiǎng)勵(lì)模型(PRM)對子步驟進(jìn)行打分,利用這些分?jǐn)?shù)引導(dǎo)搜索朝有希望的推理路徑發(fā)展。類似地,Chen 等[2024b]、Yu 等[2023a]利用學(xué)習(xí)的價(jià)值模型在步驟級別增強(qiáng)搜索效率,避免了蒙特卡洛樹搜索的計(jì)算開銷。Setlur 等[2024]進(jìn)一步結(jié)合過程優(yōu)勢來完善搜索過程。與外部評估方法不同,Xie 等[2023]利用模型本身進(jìn)行自我驗(yàn)證,提示它驗(yàn)證步驟正確性,同時(shí)通過溫度調(diào)整的隨機(jī)化引入多樣性。

  • 解決方案級束搜索獨(dú)立評估整個(gè)推理路徑,通過避免中間操作提供更快的推理。例如,Best-of-N(BoN)采樣生成多個(gè)完整解決方案,并使用獎(jiǎng)勵(lì)模型選擇評分最高的解。然而,Wang 等[2024i]強(qiáng)調(diào)了獎(jiǎng)勵(lì)模型在區(qū)分相似推理過程方面的局限性,提出了一種成對偏好模型以實(shí)現(xiàn)更有效的排名。同時(shí),Wang 和 Zhou [2024]觀察到模型可以通過采樣自動(dòng)生成思維鏈推理,而基于思維鏈得出的答案表現(xiàn)出更高的置信度。利用這一見解,他們引入了思維鏈解碼(CoT-decoding),這是一種通過改變解碼過程隱式執(zhí)行思維鏈推理的方法,通過top-k采樣生成多個(gè)序列,并基于答案置信度選擇最佳序列。

A*搜索:A*算法通過使用評估函數(shù)f(n) = g(n) + h(n) 擴(kuò)展最具潛力的節(jié)點(diǎn),從而提升搜索效率。其中,g(n) 表示從初始狀態(tài)到當(dāng)前節(jié)點(diǎn)的累積代價(jià),h(n) 是用于估計(jì)從當(dāng)前節(jié)點(diǎn)到目標(biāo)狀態(tài)的啟發(fā)式代價(jià)函數(shù)。該框架已被改造以增強(qiáng)大語言模型的多步推理能力,在搜索效率方面優(yōu)于傳統(tǒng)的思維樹(ToT)方法。

已有多項(xiàng)研究將 A* 原則整合進(jìn)大語言模型的推理過程。Zhuang 等 [2023] 提出 ToolChain*,為特定任務(wù)維護(hù)一套“長期記憶”機(jī)制,用于存儲(chǔ)推理經(jīng)驗(yàn)。該記憶系統(tǒng)初始由示例數(shù)據(jù)預(yù)置,并在推理過程中不斷吸收正確的解路徑,從而實(shí)現(xiàn)動(dòng)態(tài)擴(kuò)展。ToolChain* 通過最長公共子序列(Longest Common Subsequence)將新任務(wù)與歷史經(jīng)驗(yàn)匹配,進(jìn)而估計(jì)累積與未來成本,實(shí)現(xiàn)對復(fù)雜規(guī)劃與推理任務(wù)中最優(yōu)解的高效識(shí)別。相比之下,Wang 等 [2024a] 引入了 Q*,該方法采用訓(xùn)練得到的 Q 值模型為每個(gè)狀態(tài)計(jì)算啟發(fā)式值 h(x),從而使 A* 算法可擴(kuò)展至數(shù)學(xué)、編程等領(lǐng)域。

進(jìn)一步的研究利用大語言模型的固有能力對 A* 搜索進(jìn)行優(yōu)化。Meng 等 [2024a] 提出 LLM-A*,該方法利用大語言模型的全局理解生成中間引導(dǎo)點(diǎn)(waypoints),以引導(dǎo) A* 搜索方向并減少冗余狀態(tài)的探索。Gupta 和 Li [2024] 訓(xùn)練大語言模型學(xué)習(xí)真實(shí)代價(jià) h?(n) 與啟發(fā)式估計(jì) h(x) 之間的殘差(差),通過減少迭代次數(shù)加快搜索收斂。Lehnert 等 [2024] 提出 Searchformer,將 A* 的執(zhí)行軌跡轉(zhuǎn)化為標(biāo)記序列,進(jìn)而引導(dǎo) Transformer 模型迭代采樣更短路徑。類似地,Su 等 [2024] 提出 Dualformer,在 A* 搜索過程中引入隨機(jī)信息丟棄機(jī)制,使模型在搜索過程中實(shí)現(xiàn)快思維與慢思維的動(dòng)態(tài)平衡,從而優(yōu)化搜索策略。

蒙特卡洛樹搜索:蒙特卡洛樹搜索(Monte Carlo Tree Search, MCTS)是一種在探索與利用之間實(shí)現(xiàn)平衡的搜索算法,在以馬爾可夫決策過程(Markov Decision Process, MDP)建模的任務(wù)中表現(xiàn)出色[Chen 等,2024b; Wu 等,2024a]。這類任務(wù)通常要求 MCTS 在龐大的狀態(tài)-行動(dòng)空間中發(fā)揮其探索與利用平衡的優(yōu)勢,以發(fā)現(xiàn)高價(jià)值的行動(dòng)軌跡。 AlphaGo Zero [Silver 等,2017]是其中代表,該系統(tǒng)基于 MCTS 實(shí)現(xiàn),在圍棋任務(wù)中搜索高質(zhì)量的落子序列,不斷優(yōu)化策略網(wǎng)絡(luò)的性能。受 AlphaGo Zero 啟發(fā),研究者提出了在復(fù)雜行動(dòng)空間中使用 MCTS 搜索高質(zhì)量推理路徑的思路。經(jīng)典MCTS通常包含以下四個(gè)步驟[Browne 等,2012]:

  • 選擇(Selection) 從根節(jié)點(diǎn)開始,MCTS 在探索與利用之間進(jìn)行權(quán)衡,并據(jù)此計(jì)算各子節(jié)點(diǎn)的權(quán)重。常見的權(quán)重計(jì)算策略包括上置信界(Upper Confidence Bound, UCB)和預(yù)測器上置信樹界(Predictor Upper Confidence Tree Bound, PUCT)[Rosin, 2011]。 UCB 公式為:
    ; PUCT公式為:。其中Q(s,a)表示從狀態(tài) s 采取行動(dòng) a 后的累積獎(jiǎng)勵(lì),πprior(a|s) 為在狀態(tài) s 下選擇行動(dòng) a 的先驗(yàn)概率, N(s) 是當(dāng)前上下文中狀態(tài) s 被探索的次數(shù), N(s,a) 是行動(dòng) a 在狀態(tài) s 被探索的次數(shù)。權(quán)重函數(shù)同時(shí)考慮探索(未訪問節(jié)點(diǎn)將獲得更高探索值)與利用(歷史上高回報(bào)節(jié)點(diǎn)獲得更高利用值)。每輪選擇會(huì)推進(jìn)到得分最高的子節(jié)點(diǎn),直至到達(dá)葉節(jié)點(diǎn)。

  • 擴(kuò)展 (Expansion) 一旦到達(dá)葉節(jié)點(diǎn),若該節(jié)點(diǎn)不是終止?fàn)顟B(tài)(例如尚未得出最終答案),MCTS 將基于當(dāng)前狀態(tài)執(zhí)行新的行動(dòng),擴(kuò)展生成多個(gè)子節(jié)點(diǎn)。擴(kuò)展質(zhì)量主要取決于行動(dòng)空間的定義。在圍棋中,行動(dòng)為落子;而在大語言模型推理中,不同任務(wù)需定義不同的行動(dòng)空間。即使在同一任務(wù)下,不同粒度的行動(dòng)空間也可能導(dǎo)致完全不同的搜索行為和結(jié)果。

  • 評估(Evaluation) 到達(dá)葉節(jié)點(diǎn)后,需對其狀態(tài)值進(jìn)行評估。常見方法包括: 1)蒙特卡洛采樣估值:將從根到當(dāng)前節(jié)點(diǎn)的狀態(tài)-行動(dòng)路徑作為上下文,采樣多個(gè)完整軌跡,并基于其統(tǒng)計(jì)指標(biāo)(如成功率)計(jì)算狀態(tài)值。該方法無偏但方差高、計(jì)算成本大,難以用于采樣代價(jià)高的任務(wù); 2)訓(xùn)練價(jià)值模型估值:利用預(yù)訓(xùn)練模型直接估計(jì)狀態(tài)值,但訓(xùn)練價(jià)值模型比獎(jiǎng)勵(lì)模型更具挑戰(zhàn),因?yàn)樗桀A(yù)測未來的預(yù)期累積獎(jiǎng)勵(lì)。

  • 反向傳播(Backpropagation) 一旦完成狀態(tài)值評估,MCTS 將從葉節(jié)點(diǎn)向根節(jié)點(diǎn)回傳該值,更新路徑中所有節(jié)點(diǎn)的狀態(tài)估計(jì)。隨著模擬次數(shù)的增加,這些估值愈發(fā)精確。該過程重復(fù)執(zhí)行,直到達(dá)到設(shè)定的最大模擬次數(shù),最終形成一棵記錄每個(gè)節(jié)點(diǎn)狀態(tài)值與訪問次數(shù)的搜索樹。由于不同任務(wù)和方法的設(shè)計(jì)差異,MCTS 在大語言模型推理中的實(shí)現(xiàn)方式也有所不同。


3.2.3 于長思維鏈的隱式試錯(cuò)搜索

在前一節(jié)中,我們介紹了基于短思維鏈(Short CoT)的方法,其特點(diǎn)是每一步推理均為正確。所有被判定為“無前途”(unpromising)的推理步驟將由算法控制進(jìn)行剪枝,使搜索聚焦于更有希望的分支,確保最終僅保留通向正確解的推理軌跡。

與此相對,長思維鏈(Long CoT)[DeepSeek-AI 等,2025;Team 等,2025;Hou 等,2025;Xu 等,2025] 并不要求每一步都正確,而是允許模型在推理過程中通過試錯(cuò)進(jìn)行探索。我們將長思維鏈定義為模擬人類認(rèn)知過程的思維鏈。與短思維鏈不同,長思維鏈不僅包含逐步邏輯推理,還在整個(gè)推理過程中集成了自我評估和自我糾正等行為。相應(yīng)地,我們將R1和類似工作用于探索長思維鏈的過程稱為隱式試錯(cuò)搜索(Implicit Trial-and-Error Search)。在此過程中,不需要外部評估器或精煉器;大語言模型自主觸發(fā)其自我評估機(jī)制,并利用自我糾正和回溯能力來調(diào)整推理路徑,這對提高推理性能至關(guān)重要。 盡管長思維鏈在表面上呈現(xiàn)為線性結(jié)構(gòu),但由于糾錯(cuò)與回溯機(jī)制的存在,其本質(zhì)邏輯形態(tài)更接近于樹狀結(jié)構(gòu)。因此,我們將其稱為隱式搜索。

為實(shí)現(xiàn) Long CoT 的生成,O1 項(xiàng)目 [Huang 等,2024] 提出了基于蒸餾的訓(xùn)練方法。然而,該方法僅模仿了試錯(cuò)行為的模式,未能真正賦予模型深入思考的能力。為此,多個(gè)團(tuán)隊(duì)陸續(xù)引入基于強(qiáng)化學(xué)習(xí)的優(yōu)化策略。DeepSeek-R1 在 PPO [Schulman 等,2017] 的基礎(chǔ)上采用 GRPO [Shao 等,2024] 進(jìn)行改進(jìn);Kimi k1.5 借助在線策略鏡像變體 [Lazic 等,2019];T1 應(yīng)用了 RLOO 算法 [Ahmadian 等,2024] 進(jìn)行優(yōu)化。這些優(yōu)化將在 §4 詳細(xì)討論。

值得注意的是,這些開源研究普遍選擇以結(jié)果獎(jiǎng)勵(lì)模型(Outcome Reward Model, ORM)替代過程獎(jiǎng)勵(lì)模型(Process Reward Model, PRM),以指導(dǎo)大語言模型自主探索解空間。這一策略性轉(zhuǎn)變使模型在性能上達(dá)到了與 O1 相當(dāng)甚至超越的水平。放棄 PRM 的決定,主要源于其泛化能力有限以及獎(jiǎng)勵(lì)欺騙(reward hacking)問題嚴(yán)重,相關(guān)內(nèi)容已在 §3.2.1 中詳盡討論。 隨著強(qiáng)化學(xué)習(xí)訓(xùn)練的不斷推進(jìn),模型生成的思維鏈顯著延長,推理準(zhǔn)確性與泛化能力持續(xù)提升。在此過程中,模型甚至展現(xiàn)出“頓悟時(shí)刻”[DeepSeek-AI 等,2025]:能夠自主完成解的驗(yàn)證與替代推理路徑的探索,表現(xiàn)出接近人類“靈感式”認(rèn)知的推理能力。

3.2.4 顯式樹搜索與隱式試錯(cuò)搜索的差異與統(tǒng)一

顯式樹搜索與隱式試錯(cuò)搜索的差異

在深入比較之前,我們簡要總結(jié)顯式樹搜索用于短思維鏈和試錯(cuò)搜索用于長思維鏈在程序上的區(qū)別:


圖5:兩種搜索范式的說明。顯式樹搜索通過同時(shí)擴(kuò)展多個(gè)步驟并優(yōu)先處理最有希望的步驟來提高搜索效率,從而識(shí)別邏輯連貫的短思維鏈。相比之下,隱式試錯(cuò)搜索通過逐步推理、試錯(cuò)和回溯到過去的狀態(tài)來探索替代思路,模仿人類思考。

  • 如圖5所示,顯式樹搜索采用啟發(fā)式搜索算法(如蒙特卡洛樹搜索、A*和束搜索)來探索解決方案空間。在每個(gè)狀態(tài),都會(huì)擴(kuò)展多個(gè)行動(dòng)以獲得候選狀態(tài),形成樹結(jié)構(gòu)的搜索過程。在此過程中,推理系統(tǒng)被動(dòng)調(diào)用評估和剪枝等操作。生成的思維鏈中的每個(gè)推理步驟都保證是正確的,而評估、剪枝和錯(cuò)誤糾正等行為不會(huì)在短思維鏈(Short CoT)中呈現(xiàn)。

  • 相比之下,隱式試錯(cuò)搜索不依賴啟發(fā)式算法。相反,大語言模型在推理過程中主動(dòng)調(diào)用自我評估和自我糾正等能力,并用自然語言表達(dá)這些操作。因此,試錯(cuò)搜索中的長思維鏈不僅包含逐步推理,還融合自我評估、自我糾正與回溯操作,使整體推理過程更加透明且具有動(dòng)態(tài)調(diào)整能力。

在性能方面,樹搜索也有成功的實(shí)現(xiàn),如rStar-Math [Guan 等,2025],它使用蒙特卡洛樹搜索和過程獎(jiǎng)勵(lì)模型以及自我進(jìn)化訓(xùn)練,使小型大語言模型在性能上達(dá)到與O1相當(dāng)?shù)乃健H欢罱拈_源項(xiàng)目,包括DeepSeek R1 [Team, 2024a]和Kimi k1.5 [Team 等,2025],都選擇了試錯(cuò)搜索路線,獲得了顯著的泛化能力[Yeo 等,2025]。這些開源項(xiàng)目放棄使用短思維鏈的顯式樹搜索,轉(zhuǎn)而采用長思維鏈的試錯(cuò)搜索的原因可以從其技術(shù)報(bào)告中推斷:

  • 首先,樹搜索通常依賴獎(jiǎng)勵(lì)模型或價(jià)值模型等驗(yàn)證器提供評分,以實(shí)現(xiàn)細(xì)粒度的評估指導(dǎo)。然而,這些驗(yàn)證器普遍存在泛化能力弱與獎(jiǎng)勵(lì)欺騙嚴(yán)重的問題。這可能導(dǎo)致中間評估不準(zhǔn)確,甚至因 LLM 利用捷徑最大化獎(jiǎng)勵(lì)而引發(fā)訓(xùn)練崩潰。相比之下,R1、Kimi k1.5和T1在搜索過程中利用自我評估能力,并在訓(xùn)練過程中采用基于規(guī)則的結(jié)果獎(jiǎng)勵(lì),顯著減輕了獎(jiǎng)勵(lì)欺騙并提高了泛化能力。

  • 此外,樹搜索中驗(yàn)證器的分?jǐn)?shù)僅反映推理的相對質(zhì)量,未能指出錯(cuò)誤或原因,導(dǎo)致評估質(zhì)量有限。相比之下,R1和類似項(xiàng)目通過自我評估生成口頭評估反饋,提供更豐富和更有信息的反饋。

  • 最后,雖然樹搜索可以同時(shí)探索多條路徑,但這些路徑是獨(dú)立的。因此,中間經(jīng)驗(yàn)無法在它們之間共享,降低了并行推理過程的利用率。這使得樹搜索與人類推理有顯著差異,因?yàn)樵谌祟愅评碇校^去錯(cuò)誤的見解指導(dǎo)后續(xù)推理,這在長思維鏈(Long CoT)的試錯(cuò)搜索中可以看到。

雖然上述討論強(qiáng)調(diào)了與試錯(cuò)搜索相比,顯式樹搜索的弱點(diǎn),但并不意味著試錯(cuò)搜索沒有缺點(diǎn)。

  • 在試錯(cuò)搜索中應(yīng)用長思維鏈可能在兩個(gè)關(guān)鍵方面引入效率低下。1) 對于簡單任務(wù),長思維鏈方法往往表現(xiàn)出過度思考。正如[Chen 等,2024f]所指出的,QwQ [Team, 2024b]和R1 [DeepSeek-AI 等,2025]等方法通常會(huì)探索多個(gè)潛在解決方案,即使初始解決方案通常已經(jīng)足夠。這種過度探索行為會(huì)引入顯著的計(jì)算資源消耗。2) 對于復(fù)雜任務(wù),Wang 等[2025a]觀察到QwQ和R1容易思考不足。這些方法往往在未充分驗(yàn)證當(dāng)前推理路徑有效性前即過早放棄,導(dǎo)致策略頻繁切換,導(dǎo)致搜索過程不穩(wěn)定且效率低下,伴隨著不必要的冗長推理鏈。相比之下,基于短思維鏈的方法產(chǎn)生更簡潔的推理路徑,提供明顯的效率優(yōu)勢。[Wu 等,2025b; Xie 等,2025a]進(jìn)一步論證,更長的思維鏈不一定能改善推理性能;相反,每個(gè)模型和任務(wù)都存在最佳思維鏈長度。因此,試錯(cuò)搜索的低效率不僅增加了詞元使用和計(jì)算成本,還降低了性能。

  • 此外,隱式試錯(cuò)搜索嚴(yán)重依賴大語言模型的自我評估和自我糾正能力。一方面,這些能力的背景機(jī)制仍是需要進(jìn)一步研究的領(lǐng)域;另一方面,這些能力在大語言模型的學(xué)習(xí)過程中尚未被特別優(yōu)化。R1 [DeepSeek-AI 等,2025]、kimi k1.5 [Team 等,2025]和T1 [Hou 等,2025]等模型在同一行動(dòng)空間中僅使用結(jié)果級獎(jiǎng)勵(lì)同時(shí)學(xué)習(xí)推理、評估、反思和錯(cuò)誤糾正,但缺乏專門的獎(jiǎng)勵(lì)信號來指導(dǎo)評估、反思和糾正能力的學(xué)習(xí)。結(jié)果,大語言模型中的這些能力沒有得到特別優(yōu)化,一個(gè)后果是,即使大語言模型在早期階段進(jìn)行低質(zhì)量的反思或錯(cuò)誤糾正,只要最終答案正確,它們?nèi)匀豢梢垣@得積極獎(jiǎng)勵(lì)。此外,自我評估能力的不足是R1等方法經(jīng)常無法準(zhǔn)確評估推理路徑,從而過早放棄有希望路徑的原因之一。

為解決效率低下問題,Kimi k1.5 [Team 等,2025]引入了長度懲罰作為長度獎(jiǎng)勵(lì)的一部分,用于控制響應(yīng)長度。Yeo 等[2025]設(shè)計(jì)了余弦獎(jiǎng)勵(lì)函數(shù),對于正確響應(yīng),獎(jiǎng)勵(lì)隨著長度縮短而增加,而對于錯(cuò)誤響應(yīng),獎(jiǎng)勵(lì)隨著長度增加而增加。Luo 等[2025]提出長度協(xié)調(diào)獎(jiǎng)勵(lì),抑制過長的響應(yīng)。除引入新的獎(jiǎng)勵(lì)函數(shù)外,Chen 等[2024f]采用偏好學(xué)習(xí),將最短響應(yīng)視為正例,最長響應(yīng)視為負(fù)例,從而鼓勵(lì)大語言模型生成更短的思維鏈,抑制過長思維鏈的生成。我們在表1中簡要總結(jié)了這兩種搜索方法的差異。


表 1:兩種搜索范式的比較。

顯式樹搜索與隱式試錯(cuò)搜索的統(tǒng)一這兩種搜索策略——樹搜索和試錯(cuò)搜索——各自提供獨(dú)特優(yōu)勢,引發(fā)一個(gè)關(guān)鍵問題:它們之間的關(guān)系是什么,能否統(tǒng)一?我們從兩個(gè)角度探討這個(gè)問題。首先,我們從行動(dòng)空間的角度分析這兩種搜索的相關(guān)性,重點(diǎn)關(guān)注不同元操作符的角色。

  • 最初,兩種策略都包括逐步推理,短思維鏈主要由邏輯連貫的推理步驟組成。

  • 然而,兩種策略在評估機(jī)制上有顯著差異。顯式樹搜索通常需要學(xué)習(xí)過程獎(jiǎng)勵(lì)模型或價(jià)值模型來評估推理質(zhì)量,由于這些模型泛化能力差而引入高偏差。相比之下,試錯(cuò)搜索依靠大語言模型的內(nèi)在自我評估能力來評估推理狀態(tài)。

  • 關(guān)于后處理,我們以"糾正"為例進(jìn)行分析。樹搜索通常缺乏直接糾正操作,盡管分支間切換可被視為一種形式上的錯(cuò)誤糾正。然而,這種"糾正"無法利用先前嘗試的內(nèi)容,因?yàn)樗鼈儍H是在先前擴(kuò)展階段預(yù)先采樣的,不同嘗試彼此獨(dú)立。例如,在蒙特卡洛樹搜索的擴(kuò)展階段,同時(shí)采樣多個(gè)子候選行動(dòng)。在隨后的選擇階段,當(dāng)前狀態(tài)中選擇的行動(dòng)可能與前一模擬中的不同,這可視為一種"糾正"。然而,此次模擬中選擇的新行動(dòng)并非基于前一模擬中所選行動(dòng)的評估反饋生成;相反,兩種行動(dòng)都是在擴(kuò)展階段獨(dú)立采樣的。

因此,與試錯(cuò)搜索相比,當(dāng)前樹搜索方法的主要限制主要在于其受限的行動(dòng)空間。如果擴(kuò)展樹搜索的行動(dòng)空間以納入評估和糾正等行動(dòng),理論上它也可以促進(jìn)長思維鏈的探索[Lin 等,2025]。

從推理能力進(jìn)化的角度看,長思維鏈?zhǔn)墙鉀Q新問題的有效方法,而短思維鏈代表通過對長思維鏈的持續(xù)訓(xùn)練實(shí)現(xiàn)的最終目標(biāo)。具體而言,人類在面對復(fù)雜任務(wù)時(shí),通常先通過試錯(cuò)探索,最終歸納出高效的求解路徑。可以學(xué)習(xí)這些有效途徑以減少不必要的試錯(cuò),從而縮短長思維鏈。因此,長思維鏈可視為處理復(fù)雜任務(wù)的初始和中間解決方案。一旦解決任務(wù),從長思維鏈提煉的知識(shí)可用于學(xué)習(xí)短思維鏈,而短思維鏈又作為先驗(yàn)知識(shí),在處理更復(fù)雜任務(wù)時(shí)減少長思維鏈的試錯(cuò)迭代。總之,強(qiáng)大的推理系統(tǒng)應(yīng)具備動(dòng)態(tài)切換長思維鏈與短思維鏈的能力,以實(shí)現(xiàn)探索性與高效性的自適應(yīng)平衡。

4. 模型進(jìn)化

在收集高質(zhì)量推理數(shù)據(jù)后,下一步是提升系統(tǒng)中各模型能力,為后續(xù)數(shù)據(jù)優(yōu)化打下基礎(chǔ)。由于任務(wù)創(chuàng)建器研究較少,本文聚焦于推理器、評估器和后處理器的訓(xùn)練方法,并從強(qiáng)化學(xué)習(xí)視角總結(jié)現(xiàn)有工作,涵蓋行為克隆(Behavior Cloning)、偏好優(yōu)化(Preference Optimization)和強(qiáng)化學(xué)習(xí)(Reinforcement Learning)。


4.1 強(qiáng)化學(xué)習(xí)背景知識(shí)

為便于正文引用,本節(jié)先介紹幾種典型的強(qiáng)化學(xué)習(xí)算法。


4.1.1 從人類反饋強(qiáng)化學(xué)習(xí)(RLHF)出發(fā)

鑒于 ChatGPT [Ouyang 等,2022] 與 Claude OpenAI [2024a] 等產(chǎn)品的成功,本文從大語言模型后訓(xùn)練中的人類反饋強(qiáng)化學(xué)習(xí)(Reinforcement Learning with Human Feedback, RLHF)[Ouyang 等,2022] 介紹強(qiáng)化學(xué)習(xí)方法。RLHF 是一種基于偏好的強(qiáng)化學(xué)習(xí)框架,包含兩個(gè)關(guān)鍵階段 [Wang 等,2024h]:

  • 獎(jiǎng)勵(lì)建模(Rewarding):收集偏好數(shù)據(jù)訓(xùn)練獎(jiǎng)勵(lì)模型 rθ。早期方法通過人工標(biāo)注同一提示下的多個(gè)響應(yīng),并按質(zhì)量排序以表示人類偏好關(guān)系。
    訓(xùn)練目標(biāo)如下:


  • 策略優(yōu)化(Policy Optimization):將大語言模型微調(diào)為策略模型 πref ,目標(biāo)是最大化其所獲獎(jiǎng)勵(lì)。過程包括生成內(nèi)容、通過獎(jiǎng)勵(lì)模型評分,并使用 PPO [Schulman 等,2017] 進(jìn)行優(yōu)化:


其中參考模型πref通常經(jīng)監(jiān)督微調(diào)(SFT)后凍結(jié)參數(shù)。KL散度項(xiàng) 用于限制偏離并保持多樣性,防止策略塌縮。

盡管 RLHF 最初用于對齊任務(wù),該框架也可用于優(yōu)化推理能力。通過構(gòu)建基于推理正確性的偏好數(shù)據(jù),可引導(dǎo)模型偏向生成正確推理路徑,抑制錯(cuò)誤路徑,從而提升推理表現(xiàn)。

4.1.2 從 RLHF 到更高細(xì)粒度的 PPO

盡管 RLHF 使用 PPO 進(jìn)行優(yōu)化,但在實(shí)際應(yīng)用中,經(jīng)典 RLHF 通常被視為一種賭博機(jī)(bandit)方法,即將整句話視為一個(gè)整體動(dòng)作 [Zhong 等,2024]。這是因?yàn)?RLHF 僅依賴結(jié)果級獎(jiǎng)勵(lì),缺乏細(xì)粒度的優(yōu)化信號。

相較于密集獎(jiǎng)勵(lì),稀疏獎(jiǎng)勵(lì)會(huì)顯著增加學(xué)習(xí)難度 [Andrychowicz 等,2017],在復(fù)雜推理任務(wù)中尤為明顯。例如,在多步推理中,解答失敗并不意味著每一步都出錯(cuò),可能前幾步是正確的,僅后續(xù)步驟有誤。而僅使用結(jié)果獎(jiǎng)勵(lì),會(huì)在訓(xùn)練中抑制那些正確的中間推理。為充分發(fā)揮強(qiáng)化學(xué)習(xí)潛力,需引入步驟級甚至詞元級獎(jiǎng)勵(lì)作為更細(xì)粒度的優(yōu)化信號。要實(shí)現(xiàn)這一點(diǎn),需要重新審視 PPO 算法的設(shè)計(jì)。

PPO [Schulman 等,2017] 是一種經(jīng)典的 on-policy 算法,在多個(gè)領(lǐng)域表現(xiàn)出良好的穩(wěn)定性與效果。其通用訓(xùn)練目標(biāo)為:


其中 y 表示策略模型生成的文本, |y| 表示其字符數(shù)。優(yōu)勢函數(shù)定義為 At = Q(st, yt) - V(st) 是優(yōu)勢函數(shù),即將動(dòng)作值函數(shù) Q(st, yt) 歸一化至狀態(tài)值基線 V(st) ,以降低方差、提高學(xué)習(xí)穩(wěn)定性。實(shí)際訓(xùn)練中常用廣義優(yōu)勢估計(jì)勢函數(shù)(Generalized Advantage Estimation, GAE)形式,以平衡偏差與方差:


其中 γ 是折扣因子,λ 是位于區(qū)間 [0, 1]的超參數(shù)。當(dāng) γ = 0 時(shí),。

盡管 PPO 在 RLHF 中表現(xiàn)良好,但其對訓(xùn)練資源的高要求限制了其在推理優(yōu)化中的應(yīng)用。完整 PPO 框架包含四個(gè)模塊:策略模型(policy model)、參考模型(reference model)、價(jià)值模型(value model)和獎(jiǎng)勵(lì)模型(reward model)。后兩者的初始化更進(jìn)一步增加了訓(xùn)練復(fù)雜度,并影響策略模型穩(wěn)定性。為簡化 PPO 框架,已有研究提出多種改進(jìn)方法,如跳過對價(jià)值模型 [Shao 等,2024] 或獎(jiǎng)勵(lì)模型 [Rafailov 等,2023] 的顯式建模與訓(xùn)練。下面將介紹若干代表性工作,展示如何簡化 PPO 訓(xùn)練流程以支持更高效的推理優(yōu)化。

4.1.3 從 PPO 到 REINFORCE

為降低訓(xùn)練資源開銷,近期研究重新審視了 REINFORCE [Sutton 等,1999] 在大語言模型優(yōu)化中的潛力 [Li 等,2023d;Ahmadian 等,2024]。REINFORCE 是一種經(jīng)典的策略梯度算法,其傳統(tǒng)優(yōu)化目標(biāo)為:


其中, 為累積獎(jiǎng)勵(lì),用于控制策略梯度更新的方向與步長。

然而,REINFORCE存在高方差問題,尤其體現(xiàn)在 R(st,at) 上,導(dǎo)致訓(xùn)練過程不穩(wěn)定。為降低方差,常通過替換為動(dòng)作值函數(shù) Q(st,at) 或優(yōu)勢函數(shù) A(st,at)(如 PPO 所采用),或引入基線項(xiàng)實(shí)現(xiàn)修正:


基線 b(st) 有多種實(shí)現(xiàn)方式。為避免額外訓(xùn)練價(jià)值模型,ReMax [Li 等,2023d] 采用概率最高動(dòng)作的獎(jiǎng)勵(lì)作為基線:


Ahmadian 等 [2024] 提出 RLOO(REINFORCE Leave-One-Out)估計(jì)器。對于一個(gè)任務(wù) qqq,RLOO 采樣多個(gè)響應(yīng) {r1,r2,...,rK},并使用除當(dāng)前響應(yīng)外其余軌跡的平均值作為基線:


在僅有結(jié)果級獎(jiǎng)勵(lì)的 Bandit 場景中,Ahmadian 等 [2024] 發(fā)現(xiàn) RLOO 優(yōu)于 PPO。其原因可能在于,經(jīng)過大規(guī)模預(yù)訓(xùn)練與微調(diào)的大語言模型本身就是強(qiáng)初始化策略,采樣軌跡的句子級方差較小。同時(shí),RLOO 通過采樣估計(jì)價(jià)值函數(shù),減少了方差,并避免了顯式學(xué)習(xí)價(jià)值函數(shù)所帶來的偏差。

然而,這一優(yōu)勢主要體現(xiàn)在 bandit 設(shè)置中。對于多跳推理等需步驟級或詞元級密集獎(jiǎng)勵(lì)的任務(wù),RLOO 可能因方差過大而表現(xiàn)不佳。雖然 REINFORCE 簡化了結(jié)構(gòu)并降低成本,但其穩(wěn)定性仍受限于獎(jiǎng)勵(lì)信號的稀疏程度。


表 2:五種強(qiáng)化學(xué)習(xí)算法對比:PPO、RLOO、GRPO、DPO、PRIME (VM:價(jià)值模型;RM:獎(jiǎng)勵(lì)模型;RefM:參考模型)

4.1.4 從 PPO 到 GRPO

在具備步驟級或詞元級獎(jiǎng)勵(lì)的場景下,PPO 是微調(diào)策略模型的理想選擇,因其通過優(yōu)勢函數(shù)與裁剪操作保障訓(xùn)練穩(wěn)定性。但如公式(5)所示,計(jì)算優(yōu)勢函數(shù) 需同時(shí)依賴獎(jiǎng)勵(lì)模型與價(jià)值模型 V(st) 。通常,價(jià)值模型規(guī)模與推理器相當(dāng),訓(xùn)練困難、易不穩(wěn)定,且大幅增加資源負(fù)擔(dān)。

為此,Shao 等 [2024] 提出 GRPO,利用蒙特卡洛(MC)采樣替代價(jià)值模型,對 PPO 進(jìn)行改造。具體而言,對每個(gè)任務(wù) q,GRPO 同時(shí)采樣 G 個(gè)完整解 y1, y2,…,yG,根據(jù)獎(jiǎng)勵(lì)函數(shù)對每個(gè)解給予獎(jiǎng)勵(lì)。

兩種獎(jiǎng)勵(lì)版本:

  • 使用 PRM 時(shí),為每步分配獎(jiǎng)勵(lì),構(gòu)造獎(jiǎng)勵(lì)集:


    其中 ki 表示 yi 中的步驟數(shù), 表示 yi 的第 j 步中結(jié)束詞元的索引。此時(shí),優(yōu)勢函數(shù)計(jì)算如下:


  • 使用 ORM 時(shí),為每個(gè)解分配一個(gè)獎(jiǎng)勵(lì) ri,優(yōu)勢函數(shù)簡化為:


無論使用哪種模型,GRPO都將組內(nèi)獎(jiǎng)勵(lì)標(biāo)準(zhǔn)化,以平均值替代價(jià)值模型作為基線,從而在訓(xùn)練中抑制低質(zhì)量行為,強(qiáng)化高質(zhì)量行為。

最終,GRPO的優(yōu)化目標(biāo)為:


其中是上一輪的參考模型。此外,為提高穩(wěn)定性,GRPO 在 PPO 基礎(chǔ)上加入 KL 散度項(xiàng),但采用 Schulman [2020] 提出的無偏估計(jì)方法:


總結(jié),GRPO 通過 MC 采樣估算優(yōu)勢函數(shù),無需引入價(jià)值模型,簡化了訓(xùn)練架構(gòu),僅需策略模型、參考模型和獎(jiǎng)勵(lì)模型。它繼承了 PPO 的穩(wěn)定性,同時(shí)利用 LLM 的強(qiáng)先驗(yàn)性弱化了方差問題。MC 采樣帶來無偏估計(jì),組內(nèi)標(biāo)準(zhǔn)化強(qiáng)化高質(zhì)量軌跡,顯著提升訓(xùn)練穩(wěn)定性。GRPO 已在多個(gè)類 O1 的開源項(xiàng)目中成功應(yīng)用,如 [Shao 等,2024;Yang 等,2024a;Wang 等,2024e;DeepSeek-AI 等,2025]。

4.1.5 從PPO到DPO

RLHF 需顯式建模并預(yù)訓(xùn)練獎(jiǎng)勵(lì)模型,增加了計(jì)算資源消耗與訓(xùn)練復(fù)雜度。為此,DPO 首先指出了等式(3)的閉式解:


該結(jié)論說明,最優(yōu)策略模型 π*(y|x) 與獎(jiǎng)勵(lì)模型 r( x, y) 緊密耦合。即設(shè)定獎(jiǎng)勵(lì)模型即可對應(yīng)一個(gè)最優(yōu)策略,最大化其隱含的最優(yōu)軌跡概率。DPO 將等式(14)變換為:


這意味著,獎(jiǎng)勵(lì)函數(shù) r( x, y) 可由策略模型 π(y|x) 表達(dá)。因此,Rafailov 等 [2023] 提出:與其先訓(xùn)練獎(jiǎng)勵(lì)模型 r( x, y) 再優(yōu)化策略 π(y|x),不如直接優(yōu)化策略模型 π(y|x) 來的高效。在 RLHF 中,獎(jiǎng)勵(lì)模型訓(xùn)練通常基于 Bradley-Terry 偏好建模:


將等式(15)代入等式(16)后,DPO 可直接將該目標(biāo)轉(zhuǎn)化為策略學(xué)習(xí)目標(biāo):


雖然 DPO 省去了獎(jiǎng)勵(lì)模型建模,簡化 RLHF,降低了 LLM 優(yōu)化門檻。但后續(xù)研究也揭示了若干問題:

  • 優(yōu)化粒度粗糙 原始 DPO 只在響應(yīng)級別優(yōu)化偏好,難以精細(xì)區(qū)分復(fù)雜推理中的正確與錯(cuò)誤步驟,容易將部分正確的響應(yīng)也標(biāo)記為負(fù)例。為此,后續(xù)提出了 step-DPO、token-DPO 等細(xì)粒度方法(詳見 §4.2.2)。

  • 數(shù)據(jù)分布偏移:DPO 通常在離線場景訓(xùn)練,先使用參考模型 πref 收集一批固定的偏好數(shù)據(jù)集,再用 DPO 訓(xùn)練策略模型 πΦ 。該方法雖具有較高的訓(xùn)練效率,但完全依賴靜態(tài)離線數(shù)據(jù)可能限制模型的持續(xù)學(xué)習(xí)能力 [Chen 等,2024a]。為緩解此問題,有研究將 DPO 拓展到在線學(xué)習(xí)框架。具體做法是:每輪先收集一批偏好數(shù)據(jù),使用 DPO 訓(xùn)練策略模型,然后將新訓(xùn)練得到的模型 πΦ 替換為下一輪數(shù)據(jù)收集的參考模型 πref,實(shí)現(xiàn)策略的持續(xù)迭代優(yōu)化。

  • 正樣本被抑制 DPO 在訓(xùn)練中不僅會(huì)降低負(fù)樣本概率,也可能誤傷正樣本,尤其當(dāng)正負(fù)差異不顯著時(shí)。為解決該問題,研究者引入正則化項(xiàng)以強(qiáng)化對正負(fù)樣本質(zhì)量差異的建模 [Azar 等,2023;Le 等,2024]。

  • 獎(jiǎng)勵(lì)信號利用不足 DPO 未對偏好程度進(jìn)行顯式建模,在獎(jiǎng)勵(lì)數(shù)值可用的情況下,僅通過比較獎(jiǎng)勵(lì)高低構(gòu)造偏好對,而未直接利用獎(jiǎng)勵(lì)信號本身,導(dǎo)致信息利用不足。同時(shí),對偏好對數(shù)據(jù)的依賴也提高了訓(xùn)練數(shù)據(jù)的構(gòu)造成本。為解決這一問題,OREO [Wang 等,2024b] 提出一種全新的離線強(qiáng)化學(xué)習(xí)算法,僅依賴獎(jiǎng)勵(lì)信號進(jìn)行優(yōu)化,完全無需偏好對數(shù)據(jù)。

盡管 DPO 簡化了訓(xùn)練流程,但其泛化能力仍不如 PPO [Li 等,2023c],甚至某些任務(wù)中不如直接 SFT [Yuan 等,2024b;Chen 等,2024d]。因此,多項(xiàng)擴(kuò)展方法被提出:

  • fDPO:引入散度約束,增強(qiáng)偏好表達(dá)能力與魯棒性 [Wang 等,2023a]

  • cDPO:提升在噪聲反饋環(huán)境下的穩(wěn)定性 [Chowdhury 等,2024]

  • KTO:基于 Kahneman-Tversky 心理模型結(jié)合人類決策偏好 [Ethayarajh 等,2024]

  • GPO:用凸函數(shù)族參數(shù)化損失函數(shù),統(tǒng)一偏好學(xué)習(xí)框架 [Tang 等,2024]

  • ORPO:去除參考模型,僅使用偏好信息優(yōu)化策略,進(jìn)一步簡化流程 [Hong 等,2024]


4.1.6 從 PPO 到 PRIME

Rafailov 等[2024]進(jìn)一步分析DPO,并引入隱式獎(jiǎng)勵(lì)(Implicit Reward)概念,其公式如下:



Rafailov 等[2024]認(rèn)為,DPO 所訓(xùn)練的策略模型實(shí)質(zhì)上充當(dāng)了一個(gè)詞元級獎(jiǎng)勵(lì)函數(shù),其中每個(gè)詞元的獎(jiǎng)勵(lì)正是由該公式定義的隱式獎(jiǎng)勵(lì)。這一機(jī)制的有效性已在多項(xiàng)工作中得到驗(yàn)證 [Zhong 等,2024;Chen 等,2024a]。

Yuan 等 [2024c] 證明,若將結(jié)果獎(jiǎng)勵(lì)函數(shù)定義為,則所得的 ORM 可直接用于計(jì)算詞元級獎(jiǎng)勵(lì)。換句話說,按此格式訓(xùn)練出的 ORM 本質(zhì)上也可作為過程獎(jiǎng)勵(lì)模型(PRM)使用。具體而言,PRIME [Cui 等,2025] 包含四個(gè)核心組件:策略模型 πΦ、結(jié)果獎(jiǎng)勵(lì)驗(yàn)證器 ro、過程獎(jiǎng)勵(lì)模型 πθ 及其對應(yīng)的參考模型 πref。在生成響應(yīng) y 后,PRIME首先獲取結(jié)果級獎(jiǎng)勵(lì) ro(y) ,并通過交叉熵?fù)p失訓(xùn)練 rθ(y):

其中 rθ(y) 被優(yōu)化以逼近真實(shí)的結(jié)果獎(jiǎng)勵(lì)。該訓(xùn)練過程中,過程獎(jiǎng)勵(lì)模型 πθ 也同步更新,并可用于為每個(gè)詞元 yt 提供詞元級獎(jiǎng)勵(lì):


這正是隱式獎(jiǎng)勵(lì)的計(jì)算形式。基于訓(xùn)練好的 πθ,PRIME 可為策略模型 πΦ 提供精細(xì)的詞元級獎(jiǎng)勵(lì),從而與如 RLOO 等多種強(qiáng)化學(xué)習(xí)算法無縫對接(如原論文所示)。

PRIME 的核心思想是將整體結(jié)果獎(jiǎng)勵(lì)分解到每個(gè)詞元,借助大規(guī)模采樣過程學(xué)習(xí)詞元級獎(jiǎng)勵(lì)。對最終結(jié)果貢獻(xiàn)較大的詞元將獲得更高獎(jiǎng)勵(lì)。該方法無需人工標(biāo)注,可同時(shí)訓(xùn)練策略模型與獎(jiǎng)勵(lì)模型,既避免了獎(jiǎng)勵(lì)欺騙問題,也提升了獎(jiǎng)勵(lì)模型的泛化能力。

4.2 推理器優(yōu)化
4.2.1 行為克隆

在收集推理過程數(shù)據(jù)后,最直接的優(yōu)化方式是行為克隆(Behavior Cloning, BC),即監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)。然而,從理論上講,BC只能在正確的數(shù)據(jù)上進(jìn)行。Yuan 等[2023a]和 Tong 等[2024]提出了拒絕微調(diào)(Rejection Fine-Tuning),通過答案標(biāo)簽過濾錯(cuò)誤的推理軌跡,僅在正確軌跡上進(jìn)行微調(diào)。盡管這種方法能保證訓(xùn)練數(shù)據(jù)的質(zhì)量,但會(huì)造成大量數(shù)據(jù)浪費(fèi)。

為提升正確樣本的數(shù)量,Zelikman 等[2022]提出在錯(cuò)誤解的基礎(chǔ)上引入“合理化(Rationalization)”步驟來重生成推理過程。Zhang 等[2023a]提出HIR(Hindsight Instruction Relabeling),通過重標(biāo)指令使錯(cuò)誤解可用,例如將“生成正確答案”改為“生成錯(cuò)誤答案”,從而無需引入額...

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
中國不給臺(tái)階下,特朗普逼日本接盤,美日談判前夕,日本付出代價(jià)

中國不給臺(tái)階下,特朗普逼日本接盤,美日談判前夕,日本付出代價(jià)

時(shí)尚的弄潮
2025-04-29 01:53:05
市場監(jiān)管總局:長和港口交易各方不得采取任何方式規(guī)避反壟斷審查

市場監(jiān)管總局:長和港口交易各方不得采取任何方式規(guī)避反壟斷審查

財(cái)聯(lián)社
2025-04-27 17:02:07
被炒到1000元!網(wǎng)友質(zhì)疑“五月天聯(lián)名杯具”饑餓營銷,星巴克否認(rèn)

被炒到1000元!網(wǎng)友質(zhì)疑“五月天聯(lián)名杯具”饑餓營銷,星巴克否認(rèn)

瀟湘晨報(bào)
2025-04-28 21:42:08
中國選手晉級世錦賽8強(qiáng),10-13惜敗世界名將

中國選手晉級世錦賽8強(qiáng),10-13惜敗世界名將

世間一分鐘
2025-04-29 00:04:12
央視曝光假進(jìn)口保健品:警惕!保稅倉發(fā)貨不等于真進(jìn)口

央視曝光假進(jìn)口保健品:警惕!保稅倉發(fā)貨不等于真進(jìn)口

澎湃新聞
2025-04-27 21:24:16
日產(chǎn)開竅如開掛!11.99萬起的N7必成爆款!

日產(chǎn)開竅如開掛!11.99萬起的N7必成爆款!

玩車情報(bào)
2025-04-27 22:27:41
苜蓿:戰(zhàn)略物資級別的草,我國被美國綁架16年!至今還在大量進(jìn)口

苜蓿:戰(zhàn)略物資級別的草,我國被美國綁架16年!至今還在大量進(jìn)口

阿傖說事
2025-04-26 21:19:18
“貿(mào)易戰(zhàn)”開打半個(gè)多月,俄羅斯打破沉默,在中美之間做出了選擇

“貿(mào)易戰(zhàn)”開打半個(gè)多月,俄羅斯打破沉默,在中美之間做出了選擇

冷眼觀察
2025-04-29 02:00:03
黃渤青島做東請客!王寶強(qiáng)坐主賓,陳坤喝到臉紅,桌上全人情世故

黃渤青島做東請客!王寶強(qiáng)坐主賓,陳坤喝到臉紅,桌上全人情世故

泠泠說史
2025-04-28 16:54:25
徐子淇露臉了,她牽著李家誠的手站邊上,李兆基五個(gè)子女全來了!

徐子淇露臉了,她牽著李家誠的手站邊上,李兆基五個(gè)子女全來了!

逍遙史記
2025-04-28 13:45:45
3699元!華為新品官宣 :4月28日,正式發(fā)售!

3699元!華為新品官宣 :4月28日,正式發(fā)售!

科技堡壘
2025-04-28 11:43:32
網(wǎng)傳四川芬達(dá)被判賠償120萬,賬號也停更了快一個(gè)月

網(wǎng)傳四川芬達(dá)被判賠償120萬,賬號也停更了快一個(gè)月

映射生活的身影
2025-04-29 02:12:58
臨終將“私生子”交給何超瓊,賭王下的這盤大棋,五年后才看懂

臨終將“私生子”交給何超瓊,賭王下的這盤大棋,五年后才看懂

紅香娛
2025-04-28 09:12:34
大部分人都是被最親的人給慢性折磨死的,很多病是不和諧相處得的

大部分人都是被最親的人給慢性折磨死的,很多病是不和諧相處得的

詩詞中國
2025-04-11 13:14:11
官宣!武漢新城為城市中心!與武昌漢口同級!

官宣!武漢新城為城市中心!與武昌漢口同級!

武漢生活薈
2025-04-28 19:02:34
明明都是兄弟國家,中國可以賣戰(zhàn)機(jī)給巴基斯坦,為何不賣給朝鮮?

明明都是兄弟國家,中國可以賣戰(zhàn)機(jī)給巴基斯坦,為何不賣給朝鮮?

野山歷史
2025-03-25 11:41:09
“高潮針”打過的都說好?提高G點(diǎn)敏感度2倍,手指一彎就想尿

“高潮針”打過的都說好?提高G點(diǎn)敏感度2倍,手指一彎就想尿

社會(huì)醬
2025-04-28 16:29:35
董明珠,讓一幫牛鬼蛇神蹦了出來

董明珠,讓一幫牛鬼蛇神蹦了出來

阿鳧愛吐槽
2025-04-26 08:03:35
教皇封棺畫面公開,生前決定不要三層棺木,侄子沒錢出席米萊挨批

教皇封棺畫面公開,生前決定不要三層棺木,侄子沒錢出席米萊挨批

曉風(fēng)說
2025-04-26 20:23:12
林心如,徹底失控了

林心如,徹底失控了

于小戈
2025-04-26 23:35:17
2025-04-29 03:35:00
集智俱樂部 incentive-icons
集智俱樂部
科普人工智能相關(guān)知識(shí)技能
5067文章數(shù) 4630關(guān)注度
往期回顧 全部

科技要聞

傳騰訊阿里從字節(jié)搶購算力資源 字節(jié)否認(rèn)

頭條要聞

媒體:新央企中國雅江集團(tuán)正籌備

頭條要聞

媒體:新央企中國雅江集團(tuán)正籌備

體育要聞

“我們欠球迷一個(gè)冠軍慶典,現(xiàn)在可以狂歡了”

娛樂要聞

黃渤青島做東請客 桌上全人情世故

財(cái)經(jīng)要聞

外賣平臺(tái)陷入內(nèi)卷,傷害的是誰?

汽車要聞

東風(fēng)日產(chǎn),重新起跑

態(tài)度原創(chuàng)

手機(jī)
親子
游戲
家居
公開課

手機(jī)要聞

或成為最薄折疊屏手機(jī),曝三星Galaxy Z Fold7折疊狀態(tài)下厚度為8.2毫米

親子要聞

推拿孩子的大拇指和食指,助長高

《艾爾登法環(huán)》全球銷量突破3000萬!褪色者集結(jié)!

家居要聞

慢度設(shè)計(jì) 溫暖與沉靜的體驗(yàn)

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 南汇区| 宝鸡市| 成都市| 高邑县| 阳东县| 岳西县| 林西县| 江源县| 依安县| 德兴市| 龙南县| 繁昌县| 湖州市| 庄河市| 凤城市| 津南区| 鄯善县| 察雅县| 正安县| 重庆市| 图们市| 葫芦岛市| 调兵山市| 青河县| 宣威市| 中山市| 柳林县| 陕西省| 广宗县| 淳化县| 威海市| 稷山县| 尼木县| 鲁山县| 丰台区| 保山市| 安溪县| 扶风县| 翁牛特旗| 宣威市| 且末县|