99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

DeepSeek-R1大模型論文詳細(xì)解讀

0
分享至

一、引子

最近拜讀了《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs viaReinforcement Learning》,該論文討論了DeepSeek-R1模型,該模型旨在通過(guò)強(qiáng)化學(xué)習(xí)(RL)提升大語(yǔ)言模型(LLM)的推理能力。


二、論文的關(guān)鍵要點(diǎn)總結(jié)

  1. DeepSeek-R1 和 DeepSeek-R1-Zero 模型

  • DeepSeek-R1-Zero通過(guò)純強(qiáng)化學(xué)習(xí)訓(xùn)練,完全不依賴(lài)于監(jiān)督微調(diào)(SFT)。該模型展示了令人印象深刻的推理能力,如自我驗(yàn)證和反思,但存在可讀性差和語(yǔ)言混合等問(wèn)題。

  • 為了解決這些問(wèn)題,DeepSeek-R1引入了多階段訓(xùn)練流程,首先使用冷啟動(dòng)數(shù)據(jù)對(duì)基礎(chǔ)模型進(jìn)行微調(diào),然后使用推理導(dǎo)向的強(qiáng)化學(xué)習(xí)(RL)和監(jiān)督微調(diào)(SFT)。這種方法提高了模型的可讀性和性能,使其在推理任務(wù)上達(dá)到與OpenAI模型(如OpenAI-o1-1217)相當(dāng)?shù)乃健?/p>

推理能力的蒸餾

  • 論文探索了如何將大模型(如DeepSeek-R1)學(xué)到的推理模式蒸餾到小模型中。這一蒸餾方法使得小模型在推理任務(wù)上表現(xiàn)出色,超越了一些最先進(jìn)的模型。

  • 從DeepSeek-R1蒸餾出的較小模型(1.5B、7B、14B、32B、70B)在AIME 2024和MATH-500等基準(zhǔn)測(cè)試上表現(xiàn)良好,為小模型提供了增強(qiáng)推理能力的有效方法,而不需要直接進(jìn)行RL訓(xùn)練。

模型評(píng)估與基準(zhǔn)測(cè)試

  • DeepSeek-R1在多個(gè)推理任務(wù)上的表現(xiàn)進(jìn)行了評(píng)估,包括AIME 2024、MATH-500、Codeforces等。DeepSeek-R1在數(shù)學(xué)推理和編程任務(wù)中表現(xiàn)出色,在多個(gè)任務(wù)中超過(guò)了現(xiàn)有的OpenAI模型(如o1-1217)。

  • 蒸餾后的模型在這些基準(zhǔn)測(cè)試上也取得了競(jìng)爭(zhēng)力的成績(jī),像DeepSeek-R1-Distill-Qwen-7B這樣的較小模型超過(guò)了QwQ-32B-Preview等模型。

挑戰(zhàn)與未來(lái)工作

  • 盡管DeepSeek-R1取得了成功,但它仍面臨一些挑戰(zhàn),如語(yǔ)言混合問(wèn)題以及對(duì)提示結(jié)構(gòu)(尤其是少量樣本提示)的敏感性。此外,模型在軟件工程任務(wù)上的能力仍然有限,因?yàn)樵诖祟?lèi)領(lǐng)域進(jìn)行RL訓(xùn)練效率較低。

  • 未來(lái)的工作將集中在改善語(yǔ)言一致性、增強(qiáng)非推理任務(wù)的表現(xiàn),并優(yōu)化RL應(yīng)用以提高在軟件工程任務(wù)中的性能。

該論文的關(guān)鍵創(chuàng)新點(diǎn)在于使用強(qiáng)化學(xué)習(xí)直接訓(xùn)練大語(yǔ)言模型的推理能力,繞過(guò)了監(jiān)督數(shù)據(jù)的需求,同時(shí)成功地將推理能力蒸餾到較小的模型中。

三、摘要

論文摘要:簡(jiǎn)潔地介紹了兩款推理模型:DeepSeek-R1-ZeroDeepSeek-R1,它們的主要特點(diǎn)和發(fā)展過(guò)程如下:

  1. DeepSeek-R1-Zero
    這是第一代推理模型,采用了大規(guī)模的強(qiáng)化學(xué)習(xí)(RL)進(jìn)行訓(xùn)練,而沒(méi)有使用監(jiān)督微調(diào)(SFT)作為前期步驟。通過(guò)強(qiáng)化學(xué)習(xí),DeepSeek-R1-Zero自然地展現(xiàn)出了強(qiáng)大的推理能力,能夠完成許多復(fù)雜的推理任務(wù)。但它也存在一些問(wèn)題,比如可讀性差,且有時(shí)會(huì)出現(xiàn)語(yǔ)言混合的問(wèn)題。


  2. DeepSeek-R1
    為了解決DeepSeek-R1-Zero中的這些問(wèn)題,作者引入了DeepSeek-R1,這款模型在強(qiáng)化學(xué)習(xí)之前加入了多階段訓(xùn)練和冷啟動(dòng)數(shù)據(jù)(即使用一些初步的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練),從而提高了推理能力和模型的可讀性。最終,DeepSeek-R1的推理表現(xiàn)與OpenAI-o1-1217相當(dāng)。

  3. 開(kāi)源貢獻(xiàn):為了支持科研社區(qū),作者開(kāi)源了DeepSeek-R1-ZeroDeepSeek-R1以及從DeepSeek-R1蒸餾出來(lái)的六個(gè)較小模型(參數(shù)規(guī)模分別為 1.5B、7B、8B、14B、32B 和 70B),這些模型基于QwenLlama

四:目錄和正文


Introduction:簡(jiǎn)要說(shuō)明了近年來(lái)大型語(yǔ)言模型(LLMs)的發(fā)展,特別是推理能力的提升。

  1. 語(yǔ)言模型的快速發(fā)展

  • 近年來(lái),大型語(yǔ)言模型(LLMs)在不斷更新迭代,逐漸縮小了與人工通用智能(AGI)的差距。AGI指的是可以像人類(lèi)一樣處理任何任務(wù)的智能系統(tǒng)。

后期訓(xùn)練(Post-training)

  • 后期訓(xùn)練已成為模型訓(xùn)練流程中的一個(gè)重要環(huán)節(jié)。它能夠提升模型在推理任務(wù)上的準(zhǔn)確性,同時(shí)與社會(huì)價(jià)值對(duì)齊,適應(yīng)用戶(hù)的需求,而且相對(duì)于前期訓(xùn)練所需的計(jì)算資源要少得多。

推理能力的挑戰(zhàn)

  • OpenAI的模型通過(guò)增加“思維鏈”(Chain-of-Thought, CoT)的長(zhǎng)度,在推理任務(wù)中取得了顯著的進(jìn)展。這種方法幫助模型在數(shù)學(xué)、編程和科學(xué)推理等領(lǐng)域取得了顯著成效。但如何在測(cè)試時(shí)擴(kuò)展推理能力仍然是一個(gè)開(kāi)放的問(wèn)題。

提出的創(chuàng)新方法

  • 該論文提出了一種通過(guò)強(qiáng)化學(xué)習(xí)(RL)直接提升語(yǔ)言模型推理能力的方法,不依賴(lài)于任何監(jiān)督數(shù)據(jù)(即不使用標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練)。他們使用一個(gè)名為DeepSeek-V3-Base的基礎(chǔ)模型,并用GRPO(一種強(qiáng)化學(xué)習(xí)算法)框架來(lái)提升推理表現(xiàn)。

  • 在訓(xùn)練過(guò)程中,DeepSeek-R1-Zero(該模型的第一個(gè)版本)表現(xiàn)出強(qiáng)大的推理行為,經(jīng)過(guò)數(shù)千次的強(qiáng)化學(xué)習(xí)訓(xùn)練,它在推理任務(wù)上的表現(xiàn)顯著提升。例如,在AIME 2024基準(zhǔn)測(cè)試中的得分從最初的15.6%提升到71.0%,通過(guò)多數(shù)投票后,得分進(jìn)一步提升至86.7%,達(dá)到了與OpenAI的模型o1-0912相當(dāng)?shù)乃健?/p>

遇到的挑戰(zhàn)和優(yōu)化

  • 盡管DeepSeek-R1-Zero表現(xiàn)優(yōu)秀,但它的可讀性較差,且有時(shí)會(huì)出現(xiàn)語(yǔ)言混合的問(wèn)題。為了改善這些問(wèn)題,論文作者引入了DeepSeek-R1模型,采用了多階段訓(xùn)練和冷啟動(dòng)數(shù)據(jù)(即使用一些初步數(shù)據(jù)進(jìn)行訓(xùn)練)來(lái)進(jìn)一步提高推理能力。

  • 訓(xùn)練過(guò)程中,首先使用冷啟動(dòng)數(shù)據(jù)對(duì)基礎(chǔ)模型進(jìn)行微調(diào),然后進(jìn)行推理導(dǎo)向的強(qiáng)化學(xué)習(xí)(與DeepSeek-R1-Zero類(lèi)似)。接著,創(chuàng)建新的數(shù)據(jù)集來(lái)進(jìn)行監(jiān)督微調(diào),并將其用于訓(xùn)練模型,最后再進(jìn)行一次強(qiáng)化學(xué)習(xí)訓(xùn)練,從而得到DeepSeek-R1,其推理能力與OpenAI的模型相當(dāng)。

蒸餾技術(shù)的探索

  • 論文還探討了從DeepSeek-R1蒸餾(提取)推理能力到更小的模型。通過(guò)直接蒸餾,使用較小的基礎(chǔ)模型(例如Qwen2.5-32B)獲得的效果比直接應(yīng)用強(qiáng)化學(xué)習(xí)更好。

  • 通過(guò)這種蒸餾方法,作者成功提升了較小模型(如14B和32B)的推理能力,并在推理基準(zhǔn)測(cè)試中創(chuàng)下了新紀(jì)錄。

Contributions:總結(jié)了模型在各類(lèi)任務(wù)中的評(píng)估結(jié)果。以下是對(duì)該部分的解讀:

1.主要貢獻(xiàn)

  1. 后期訓(xùn)練與強(qiáng)化學(xué)習(xí)(RL)應(yīng)用:

  • 論文的一個(gè)關(guān)鍵創(chuàng)新是,DeepSeek-R1通過(guò)直接應(yīng)用強(qiáng)化學(xué)習(xí)(RL)在基礎(chǔ)模型上進(jìn)行訓(xùn)練,而不依賴(lài)傳統(tǒng)的監(jiān)督微調(diào)(SFT)。這種方法允許模型通過(guò)“思維鏈”(Chain-of-Thought, CoT)來(lái)解決復(fù)雜問(wèn)題,推動(dòng)了DeepSeek-R1-Zero的發(fā)展。

  • DeepSeek-R1-Zero展現(xiàn)了自我驗(yàn)證、反思能力和生成長(zhǎng)思維鏈的能力,這標(biāo)志著在推理任務(wù)中的一個(gè)重要進(jìn)步。

  • 這是首次通過(guò)純粹的RL方法提升大語(yǔ)言模型的推理能力,而不需要監(jiān)督微調(diào)(SFT),為未來(lái)的研究開(kāi)辟了新方向。

DeepSeek-R1模型的改進(jìn):

  • DeepSeek-R1DeepSeek-R1-Zero的基礎(chǔ)上進(jìn)行了進(jìn)一步改進(jìn),引入了多階段訓(xùn)練和冷啟動(dòng)數(shù)據(jù),優(yōu)化了模型的推理能力,并且增加了與人類(lèi)偏好對(duì)齊的強(qiáng)化學(xué)習(xí)階段,同時(shí)繼續(xù)使用 SFT 階段來(lái)優(yōu)化模型的推理和非推理能力。

  • 這個(gè)改進(jìn)的流程能夠?yàn)闃I(yè)界帶來(lái)更好的推理能力,提升模型的普適性和效果。

蒸餾技術(shù)的應(yīng)用:

  • 論文還展示了如何將較大模型的推理模式蒸餾到更小的模型中,并證明蒸餾出的較小模型在推理任務(wù)中比直接通過(guò)RL訓(xùn)練的小模型表現(xiàn)更好。

  • 使用DeepSeek-R1生成的推理數(shù)據(jù),作者對(duì)多個(gè)常用的稠密模型進(jìn)行了微調(diào),結(jié)果顯示這些蒸餾后的模型在基準(zhǔn)測(cè)試中表現(xiàn)異常優(yōu)秀,超過(guò)了之前一些開(kāi)放源代碼模型的表現(xiàn)。

  • 比如,DeepSeek-R1-Distill-Qwen-7B在 AIME 2024 基準(zhǔn)測(cè)試中達(dá)到了 55.5% 的 Pass@1,超越了QwQ-32B-Preview。另外,DeepSeek-R1-Distill-Qwen-32B在多個(gè)測(cè)試中也有很好的表現(xiàn),分別在 AIME 2024 和 MATH-500 上取得了 72.6% 和 94.3%的成績(jī)。

評(píng)估結(jié)果概述
  1. 推理任務(wù):

  • DeepSeek-R1AIME 2024上取得了 79.8% 的 Pass@1,略微超過(guò)了 OpenAI 的o1-1217。在MATH-500上,表現(xiàn)十分出色,達(dá)到了 97.3%,與 OpenAI 的o1-1217相當(dāng)。

  • 在編程相關(guān)任務(wù)上,DeepSeek-R1的表現(xiàn)堪稱(chēng)專(zhuān)家級(jí),在Codeforces上達(dá)到了 2029 的 Elo 評(píng)分,超越了 96.3%的參賽者。

知識(shí)處理能力:

  • 在多個(gè)知識(shí)類(lèi)基準(zhǔn)測(cè)試(如MMLUMMLU-ProGPQA Diamond)中,DeepSeek-R1的表現(xiàn)超過(guò)了DeepSeek-V3,在MMLU上得分為 90.8%,在GPQA Diamond上為 71.5%。雖然在這些基準(zhǔn)測(cè)試上稍微遜色于OpenAI-o1-1217,但DeepSeek-R1的表現(xiàn)仍然優(yōu)于其他閉源模型,顯示出它在教育任務(wù)上的競(jìng)爭(zhēng)力。

  • 在事實(shí)性問(wèn)題的基準(zhǔn)測(cè)試SimpleQA上,DeepSeek-R1超越了DeepSeek-V3,展現(xiàn)了其處理事實(shí)性問(wèn)題的能力。

其他任務(wù):

  • DeepSeek-R1在創(chuàng)意寫(xiě)作、問(wèn)答、編輯、總結(jié)等任務(wù)中也表現(xiàn)出色,特別是在非考試類(lèi)任務(wù)上,展示了其強(qiáng)大的處理能力。比如,在AlpacaEval 2.0上,它以 87.6%的長(zhǎng)度控制勝率表現(xiàn)出色,在ArenaHard上的勝率為 92.3%。

  • 另外,DeepSeek-R1在需要長(zhǎng)上下文理解的任務(wù)中,顯著超越了DeepSeek-V3,表現(xiàn)出了它在處理長(zhǎng)文本方面的優(yōu)勢(shì)。小結(jié)

  • DeepSeek-R1模型通過(guò)引入強(qiáng)化學(xué)習(xí)(RL)和蒸餾技術(shù),顯著提升了推理能力,并且在多個(gè)任務(wù)中超過(guò)了之前的模型,尤其是在數(shù)學(xué)、編程和知識(shí)處理等領(lǐng)域。

  • 論文中展示的多階段訓(xùn)練方法和冷啟動(dòng)數(shù)據(jù)的結(jié)合,以及推理能力的蒸餾方法,為未來(lái)語(yǔ)言模型的發(fā)展提供了新的思路和技術(shù)路徑。

Approach:詳細(xì)闡述了DeepSeek-R1DeepSeek-R1-Zero的訓(xùn)練方法和過(guò)程,尤其是通過(guò)強(qiáng)化學(xué)習(xí)(RL)提升推理能力的具體步驟。以下是該部分的解讀:

1.方法概述

  • 過(guò)去的工作通常依賴(lài)大量的監(jiān)督數(shù)據(jù)來(lái)提升模型性能,而本文展示了即使沒(méi)有監(jiān)督微調(diào)(SFT)數(shù)據(jù),通過(guò)大規(guī)模的強(qiáng)化學(xué)習(xí)(RL)也能顯著提升推理能力。

  • 通過(guò)這種方法,模型能夠自我演化,并通過(guò)強(qiáng)化學(xué)習(xí)學(xué)習(xí)到推理模式。具體來(lái)說(shuō),本文介紹了以下三個(gè)關(guān)鍵步驟:

  1. DeepSeek-R1-Zero:直接對(duì)基礎(chǔ)模型應(yīng)用強(qiáng)化學(xué)習(xí)(RL),而不使用任何監(jiān)督微調(diào)數(shù)據(jù)。

  2. DeepSeek-R1:在經(jīng)過(guò)長(zhǎng)鏈思維(Chain-of-Thought,CoT)示例微調(diào)的檢查點(diǎn)基礎(chǔ)上應(yīng)用RL。

  3. 蒸餾:將DeepSeek-R1的推理能力蒸餾到較小的稠密模型中。

2.DeepSeek-R1-Zero:基礎(chǔ)模型上的強(qiáng)化學(xué)習(xí)2.2.1強(qiáng)化學(xué)習(xí)算法:
  • 為了節(jié)省訓(xùn)練成本,作者采用了Group Relative Policy Optimization (GRPO)算法。這種算法避免了使用與策略模型大小相同的評(píng)論模型(critic model),而是通過(guò)對(duì)一組輸出結(jié)果進(jìn)行評(píng)分來(lái)估計(jì)基線(xiàn)。

  • 具體來(lái)說(shuō),GRPO 對(duì)每個(gè)問(wèn)題通過(guò)從舊的策略模型中抽取一組輸出進(jìn)行優(yōu)化,并通過(guò)最大化預(yù)設(shè)目標(biāo)來(lái)優(yōu)化策略模型。

2.2.2獎(jiǎng)勵(lì)建模:
  • 獎(jiǎng)勵(lì)系統(tǒng)是強(qiáng)化學(xué)習(xí)中的核心,決定了優(yōu)化方向。為了訓(xùn)練DeepSeek-R1-Zero,作者設(shè)計(jì)了兩種獎(jiǎng)勵(lì):

    • 準(zhǔn)確度獎(jiǎng)勵(lì)(Accuracy rewards):評(píng)估模型的回答是否正確。例如,對(duì)于數(shù)學(xué)題,模型必須以特定格式給出最終答案,以便通過(guò)規(guī)則驗(yàn)證其正確性。

    • 格式獎(jiǎng)勵(lì)(Format rewards):強(qiáng)制模型將其思維過(guò)程置于 和標(biāo)簽之間,這有助于結(jié)構(gòu)化推理過(guò)程并保持格式一致性。

  • 作者沒(méi)有使用基于神經(jīng)網(wǎng)絡(luò)的獎(jiǎng)勵(lì)模型,因?yàn)檫@可能導(dǎo)致獎(jiǎng)勵(lì)作弊(reward hacking),而且重新訓(xùn)練獎(jiǎng)勵(lì)模型會(huì)消耗大量計(jì)算資源。

2.2.3訓(xùn)練模板:
  • 在訓(xùn)練DeepSeek-R1-Zero時(shí),作者設(shè)計(jì)了一個(gè)簡(jiǎn)單的模板,要求模型首先生成思維過(guò)程,然后給出最終答案。這個(gè)模板避免了內(nèi)容特定的偏見(jiàn),如強(qiáng)制要求反思性推理或采用特定的解題策略,目的是準(zhǔn)確地觀察模型在強(qiáng)化學(xué)習(xí)過(guò)程中的自然進(jìn)展。

2.2.4性能、自我演化過(guò)程與“頓悟時(shí)刻”:
  • DeepSeek-R1-ZeroAIME 2024基準(zhǔn)測(cè)試中的表現(xiàn)逐步提升,Pass@1 分?jǐn)?shù)從 15.6% 提升到 71.0%,并最終通過(guò)多數(shù)投票進(jìn)一步提高到 86.7%,超越了OpenAI-o1-0912的表現(xiàn)。

  • DeepSeek-R1-Zero展示了在沒(méi)有監(jiān)督微調(diào)數(shù)據(jù)的情況下,通過(guò)強(qiáng)化學(xué)習(xí)(RL)獲得強(qiáng)大推理能力的能力,這證明了其自我學(xué)習(xí)和推廣的潛力。

  • 強(qiáng)化學(xué)習(xí)通過(guò)增強(qiáng)DeepSeek-R1-Zero的推理能力,使其能夠有效解決各種復(fù)雜問(wèn)題。此外,通過(guò)使用多數(shù)投票,模型的推理結(jié)果變得更加可靠,進(jìn)一步提高了其性能。

小結(jié)。這一部分介紹了DeepSeek-R1-Zero的訓(xùn)練過(guò)程,突出了強(qiáng)化學(xué)習(xí)在提升大語(yǔ)言模型(LLMs)推理能力中的應(yīng)用。通過(guò)采用GRPO算法和規(guī)則獎(jiǎng)勵(lì)系統(tǒng),DeepSeek-R1-Zero在沒(méi)有監(jiān)督微調(diào)的情況下成功地通過(guò)強(qiáng)化學(xué)習(xí)自我演化,并在多個(gè)推理任務(wù)上表現(xiàn)出色。這個(gè)過(guò)程的一個(gè)關(guān)鍵突破是,DeepSeek-R1-Zero不僅通過(guò)強(qiáng)化學(xué)習(xí)提升了推理能力,還能夠通過(guò)投票進(jìn)一步增強(qiáng)其性能,標(biāo)志著推理能力的進(jìn)一步發(fā)展。解讀 DeepSeek-R1-Zero 的自我進(jìn)化過(guò)程1. 自我進(jìn)化過(guò)程(Self-evolution Process of DeepSeek-R1-Zero)
  • 這一部分展示了DeepSeek-R1-Zero如何通過(guò)強(qiáng)化學(xué)習(xí)(RL)自主提高其推理能力,而無(wú)需監(jiān)督微調(diào)(SFT)。

  • 由于強(qiáng)化學(xué)習(xí)直接從基礎(chǔ)模型開(kāi)始,我們可以清晰地觀察模型在訓(xùn)練過(guò)程中的變化,特別是在處理復(fù)雜推理任務(wù)方面的進(jìn)展。

關(guān)鍵發(fā)現(xiàn)
  • 模型思考時(shí)間的增加

    • 隨著訓(xùn)練的進(jìn)行,DeepSeek-R1-Zero在回答問(wèn)題時(shí)的推理時(shí)間(即生成的推理步驟長(zhǎng)度)逐步增加。

    • 這表明模型在處理推理任務(wù)時(shí),會(huì)主動(dòng)延長(zhǎng)思考時(shí)間,以解決更復(fù)雜的問(wèn)題。

    • 這種增長(zhǎng)并不是通過(guò)人為調(diào)整參數(shù)實(shí)現(xiàn)的,而是模型在強(qiáng)化學(xué)習(xí)環(huán)境中自主發(fā)展的能力

  • 自發(fā)行為的出現(xiàn)

    • 反思(Reflection):模型會(huì)回顧并重新評(píng)估自己的推理步驟,類(lèi)似于人類(lèi)在解題時(shí)發(fā)現(xiàn)錯(cuò)誤后進(jìn)行修正的行為。

    • 探索不同解法:模型會(huì)嘗試多種方法來(lái)解決同一個(gè)問(wèn)題,而不是只遵循固定的套路。

    • 這些行為并不是人為編碼的規(guī)則,而是模型在強(qiáng)化學(xué)習(xí)過(guò)程中自發(fā)涌現(xiàn)的能力,這也是強(qiáng)化學(xué)習(xí)的強(qiáng)大之處。

2. “頓悟時(shí)刻”(Aha Moment of DeepSeek-R1-Zero)
  • 論文提到了訓(xùn)練過(guò)程中出現(xiàn)的一個(gè)有趣現(xiàn)象,被稱(chēng)為"Aha Moment"(頓悟時(shí)刻)

  • 在某個(gè)訓(xùn)練階段,DeepSeek-R1-Zero 突然學(xué)會(huì)了重新審視自己的解題過(guò)程,并在必要時(shí)調(diào)整思維策略。

  • 這一行為類(lèi)似于人類(lèi)在解題時(shí),突然意識(shí)到之前的思路可能有問(wèn)題,從而停下來(lái)重新思考

“頓悟時(shí)刻”的意義
  • 這種行為表明,強(qiáng)化學(xué)習(xí)不僅可以提高模型的推理能力,還可以讓模型在沒(méi)有明確指導(dǎo)的情況下,自主發(fā)展出更高級(jí)的解題策略。

  • 這種能力不是通過(guò)硬編碼規(guī)則實(shí)現(xiàn)的,而是模型在強(qiáng)化學(xué)習(xí)環(huán)境中通過(guò)試錯(cuò)學(xué)習(xí)到的,這說(shuō)明強(qiáng)化學(xué)習(xí)有助于推動(dòng)人工智能向更高級(jí)的智能水平發(fā)展

  • 研究人員在觀察到這個(gè)現(xiàn)象時(shí),也感到驚喜,因?yàn)檫@表明強(qiáng)化學(xué)習(xí)能夠引導(dǎo) AI 發(fā)展出意想不到的智能行為

3. DeepSeek-R1-Zero 的局限性

盡管DeepSeek-R1-Zero展示了強(qiáng)大的推理能力,并能夠自主發(fā)展復(fù)雜的思維模式,但它仍然存在一些問(wèn)題:

  1. 可讀性差

  • 由于模型主要關(guān)注推理能力,而不是語(yǔ)言表達(dá),最終生成的推理過(guò)程可能不夠清晰,難以閱讀和理解。

語(yǔ)言混合

  • 由于訓(xùn)練過(guò)程中涉及多種語(yǔ)言,DeepSeek-R1-Zero可能會(huì)在推理過(guò)程中混合使用不同的語(yǔ)言,使得輸出內(nèi)容難以解析。

4. 解決方案:DeepSeek-R1
  • 為了解決DeepSeek-R1-Zero在可讀性和語(yǔ)言混合方面的問(wèn)題,研究團(tuán)隊(duì)開(kāi)發(fā)了DeepSeek-R1

  • DeepSeek-R1 結(jié)合了強(qiáng)化學(xué)習(xí)和人類(lèi)友好的冷啟動(dòng)數(shù)據(jù)(cold-start data),使得推理過(guò)程更加清晰,輸出更易閱讀,同時(shí)減少語(yǔ)言混合的問(wèn)題。

小結(jié)
  • DeepSeek-R1-Zero通過(guò)強(qiáng)化學(xué)習(xí)自主提升推理能力,能夠在沒(méi)有監(jiān)督數(shù)據(jù)的情況下發(fā)展出復(fù)雜的推理策略,如反思和多種解題方法

  • “頓悟時(shí)刻”證明了 AI 在強(qiáng)化學(xué)習(xí)的引導(dǎo)下可以產(chǎn)生自發(fā)的智能行為,進(jìn)一步提升了 AI 在推理任務(wù)中的表現(xiàn)。

  • DeepSeek-R1-Zero 的局限性:可讀性較差,且在推理過(guò)程中可能會(huì)混用多種語(yǔ)言,影響理解。

  • 解決方案:DeepSeek-R1采用更友好的冷啟動(dòng)數(shù)據(jù),以提高可讀性并減少語(yǔ)言混合問(wèn)題。

這部分內(nèi)容突出了強(qiáng)化學(xué)習(xí)的潛力,以及 AI 在無(wú)監(jiān)督環(huán)境下如何通過(guò)試錯(cuò)進(jìn)化出更強(qiáng)的推理能力,同時(shí)也展現(xiàn)了強(qiáng)化學(xué)習(xí)在 AI 研究中的突破性貢獻(xiàn)。

這部分內(nèi)容詳細(xì)介紹了DeepSeek-R1模型的訓(xùn)練方法,特別是通過(guò)冷啟動(dòng)數(shù)據(jù)(cold start)和強(qiáng)化學(xué)習(xí)(RL)來(lái)提升推理能力的過(guò)程。以下是該部分的詳細(xì)解讀:

1. DeepSeek-R1: 強(qiáng)化學(xué)習(xí)與冷啟動(dòng)1.1 引入冷啟動(dòng)數(shù)據(jù)的目的

DeepSeek-R1-Zero的基礎(chǔ)上,研究者提出了通過(guò)引入冷啟動(dòng)數(shù)據(jù)來(lái)加速推理性能的提升。兩大關(guān)鍵問(wèn)題是:

  • 如何通過(guò)引入少量高質(zhì)量數(shù)據(jù)來(lái)加速推理性能的提高或訓(xùn)練收斂的速度?

  • 如何訓(xùn)練一個(gè)既能清晰表達(dá)推理過(guò)程(CoT),又具備強(qiáng)大通用能力的用戶(hù)友好模型?

為了回答這些問(wèn)題,作者設(shè)計(jì)了一個(gè)包含四個(gè)階段的訓(xùn)練流程,用于訓(xùn)練DeepSeek-R1

1.2 Cold Start - 冷啟動(dòng)

  • DeepSeek-R1的訓(xùn)練中,冷啟動(dòng)數(shù)據(jù)的引入起到了關(guān)鍵作用,尤其是在DeepSeek-R1-Zero的早期不穩(wěn)定訓(xùn)練階段。研究者收集了一些長(zhǎng)鏈思維(CoT)數(shù)據(jù),并用這些數(shù)據(jù)對(duì)基礎(chǔ)模型進(jìn)行微調(diào),作為強(qiáng)化學(xué)習(xí)的初始步驟。

  • 冷啟動(dòng)數(shù)據(jù)的收集方式

    • 使用少量示例提示(few-shot prompting)生成長(zhǎng)鏈思維。

    • 直接提示模型生成詳細(xì)的答案,并加入反思和驗(yàn)證步驟。

    • DeepSeek-R1-Zero的輸出中收集數(shù)據(jù),并通過(guò)人工后處理優(yōu)化結(jié)果。

冷啟動(dòng)數(shù)據(jù)的優(yōu)勢(shì)

  • 可讀性:相比DeepSeek-R1-Zero生成的難以閱讀的推理過(guò)程,DeepSeek-R1在生成冷啟動(dòng)數(shù)據(jù)時(shí),設(shè)計(jì)了更易讀的格式,每個(gè)回答結(jié)尾都有一個(gè)總結(jié)部分,并過(guò)濾掉不易閱讀的內(nèi)容。

  • 潛力:通過(guò)精心設(shè)計(jì)冷啟動(dòng)數(shù)據(jù)模式,DeepSeek-R1在性能上優(yōu)于DeepSeek-R1-Zero,證明了這種迭代訓(xùn)練方法的有效性。

1.3 Reasoning-oriented Reinforcement Learning - 推理導(dǎo)向的強(qiáng)化學(xué)習(xí)
  • 在對(duì)基礎(chǔ)模型進(jìn)行冷啟動(dòng)微調(diào)后,作者使用與DeepSeek-R1-Zero相同的大規(guī)模強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練方法,進(jìn)一步提升推理能力,尤其在數(shù)學(xué)、編程、科學(xué)和邏輯推理等任務(wù)上。

  • 語(yǔ)言混合問(wèn)題:在強(qiáng)化學(xué)習(xí)訓(xùn)練過(guò)程中,常常出現(xiàn)語(yǔ)言混合的問(wèn)題,尤其是在多語(yǔ)言提示的情況下。為了解決這個(gè)問(wèn)題,研究者引入了語(yǔ)言一致性獎(jiǎng)勵(lì),即在推理過(guò)程中鼓勵(lì)模型保持目標(biāo)語(yǔ)言的一致性。

  • 獎(jiǎng)勵(lì)機(jī)制:通過(guò)結(jié)合推理任務(wù)的準(zhǔn)確度獎(jiǎng)勵(lì)和語(yǔ)言一致性獎(jiǎng)勵(lì),模型不斷優(yōu)化,最終達(dá)到了在推理任務(wù)上的收斂。

1.4 Rejection Sampling 和監(jiān)督微調(diào)
  • 拒絕采樣(Rejection Sampling):當(dāng)推理導(dǎo)向的強(qiáng)化學(xué)習(xí)訓(xùn)練收斂后,研究者使用該檢查點(diǎn)收集監(jiān)督微調(diào)(SFT)數(shù)據(jù),進(jìn)一步改進(jìn)模型的表現(xiàn)。

    • 推理數(shù)據(jù):通過(guò)拒絕采樣從 RL 訓(xùn)練的檢查點(diǎn)生成推理數(shù)據(jù),并對(duì)生成的數(shù)據(jù)進(jìn)行人工篩選,確保數(shù)據(jù)的高質(zhì)量。

    • 非推理數(shù)據(jù):包括寫(xiě)作、事實(shí)性問(wèn)答、自我認(rèn)知和翻譯等任務(wù),結(jié)合DeepSeek-V3的數(shù)據(jù)進(jìn)行微調(diào)。

1.5 Reinforcement Learning for all Scenarios - 全場(chǎng)景強(qiáng)化學(xué)習(xí)
  • 為了進(jìn)一步提高模型對(duì)人類(lèi)偏好的適應(yīng)性,作者實(shí)施了第二階段的強(qiáng)化學(xué)習(xí),旨在優(yōu)化模型的有用性無(wú)害性,同時(shí)繼續(xù)完善推理能力。

    • 有用性:重點(diǎn)確保模型的回答對(duì)用戶(hù)有實(shí)際幫助,評(píng)估時(shí)僅關(guān)注最終總結(jié)部分。

    • 無(wú)害性:評(píng)估整個(gè)回答的內(nèi)容,識(shí)別并消除潛在的偏見(jiàn)或有害內(nèi)容。

2. 蒸餾技術(shù):賦能小模型推理能力2.1 蒸餾技術(shù)
  • 為了讓更小的模型具備推理能力,作者采用了蒸餾方法,將DeepSeek-R1的推理能力傳遞給更小的模型。

  • 研究者將DeepSeek-R1用來(lái)微調(diào)開(kāi)源的模型如QwenLlama,并使用約 80 萬(wàn)個(gè)訓(xùn)練樣本進(jìn)行蒸餾。實(shí)驗(yàn)表明,這種蒸餾方法顯著提升了小模型的推理能力。

2.2 蒸餾過(guò)程
  • 通過(guò)簡(jiǎn)單的蒸餾方法,小模型如QwenLlama的推理能力得到了極大的增強(qiáng)。雖然作者并未在蒸餾后的模型中使用強(qiáng)化學(xué)習(xí)(RL),但他們認(rèn)為這項(xiàng)工作展示了蒸餾技術(shù)的有效性,并為未來(lái)的強(qiáng)化學(xué)習(xí)探索留給了廣泛的研究社區(qū)。

小結(jié)。這部分介紹了DeepSeek-R1的訓(xùn)練流程,強(qiáng)調(diào)了通過(guò)引入冷啟動(dòng)數(shù)據(jù)和強(qiáng)化學(xué)習(xí)(RL)來(lái)提升推理能力的重要性。通過(guò)設(shè)計(jì)冷啟動(dòng)數(shù)據(jù),解決了DeepSeek-R1-Zero中的可讀性問(wèn)題,并通過(guò)強(qiáng)化學(xué)習(xí)進(jìn)一步優(yōu)化模型的推理能力和語(yǔ)言一致性。此外,作者還展示了將DeepSeek-R1的推理能力蒸餾到更小模型中的有效性,這一過(guò)程證明了蒸餾技術(shù)在提升推理能力方面的巨大潛力。

Experiment:詳細(xì)介紹了DeepSeek-R1和蒸餾后的模型在多個(gè)基準(zhǔn)測(cè)試上的評(píng)估方法和實(shí)驗(yàn)設(shè)置。

1. 基準(zhǔn)測(cè)試(Benchmarks)

  • 評(píng)估任務(wù):作者在多個(gè)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試上評(píng)估了模型的表現(xiàn),涵蓋了不同領(lǐng)域的任務(wù),包括推理、編程、數(shù)學(xué)、問(wèn)答等。具體的測(cè)試基準(zhǔn)包括:

    • MMLUMMLU-ReduxMMLU-ProC-EvalCMMLUSimpleQAAIME 2024Codeforces等。

    • 開(kāi)放式生成任務(wù):如AlpacaEval 2.0Arena-Hard,這些任務(wù)使用 GPT-4-Turbo-1106 作為評(píng)估判定者,進(jìn)行對(duì)比分析。

  • 數(shù)據(jù)集:對(duì)于代碼和數(shù)學(xué)相關(guān)的基準(zhǔn)測(cè)試,使用了HumanEval-Mul數(shù)據(jù)集,涵蓋了包括 Python、Java、C++、JavaScript 等在內(nèi)的八種主流編程語(yǔ)言。

  • 評(píng)價(jià)方法:實(shí)驗(yàn)中對(duì)不同模型進(jìn)行了廣泛的評(píng)估,主要包括推理任務(wù)(如數(shù)學(xué)、編程和科學(xué)推理)以及開(kāi)放生成任務(wù)。蒸餾模型的表現(xiàn)也在 AIME 2024、MATH-500、Codeforces 等基準(zhǔn)上進(jìn)行了測(cè)試。

2. 評(píng)估提示(Evaluation Prompts)
  • 標(biāo)準(zhǔn)基準(zhǔn)測(cè)試的評(píng)估設(shè)置:使用了DeepSeek-V3中的提示,并結(jié)合simpleevals框架進(jìn)行標(biāo)準(zhǔn)基準(zhǔn)測(cè)試的評(píng)估。針對(duì)一些特殊的基準(zhǔn)(如MMLU-ReduxMMLU-Pr),作者修改了原始的提示格式,使用零樣本(zero-shot)設(shè)置進(jìn)行評(píng)估。

  • 推理任務(wù)的評(píng)估:對(duì)于推理任務(wù)(如數(shù)學(xué)、編程等),評(píng)估使用了基于 Chain-of-Thought(CoT)格式的提示。不同任務(wù)根據(jù)其特點(diǎn)調(diào)整了提示格式,以確保能夠準(zhǔn)確評(píng)估模型的推理能力。

3. 評(píng)估設(shè)置(Evaluation Setup)
  • 生成長(zhǎng)度限制:設(shè)置了最大生成長(zhǎng)度為 32,768 個(gè)標(biāo)記(tokens),確保模型在生成長(zhǎng)文本時(shí)不會(huì)被截?cái)唷?/p>

  • 解碼方法:為了避免使用貪婪解碼(greedy decoding)導(dǎo)致的高重復(fù)率和不同檢查點(diǎn)之間的顯著變化,實(shí)驗(yàn)中采用了pass@k評(píng)估方法。具體來(lái)說(shuō),使用了非零溫度(temperature = 0.6)和top-p 采樣(top-p = 0.95)來(lái)生成多個(gè)(通常是 4 到 64 個(gè))響應(yīng),并計(jì)算pass@1的得分。

  • 結(jié)果評(píng)估

    • Pass@k:對(duì)于每個(gè)問(wèn)題,生成多個(gè)響應(yīng),計(jì)算其中正確響應(yīng)的比例(pass@1),這種方法可以提供更可靠的性能估計(jì)。

    • 共識(shí)投票(Consensus Voting):對(duì)于AIME 2024基準(zhǔn)測(cè)試,使用 64 個(gè)樣本進(jìn)行多數(shù)投票(cons@64)計(jì)算,從而提高評(píng)估的穩(wěn)定性和可靠性。

4. 基準(zhǔn)測(cè)試的比較與結(jié)果
  • 基準(zhǔn)比較:作者與多個(gè)強(qiáng)基準(zhǔn)模型進(jìn)行了比較,包括DeepSeek-V3Claude-Sonnet-3.5GT-40-0513OpenAI-o1-miniOpenAI-o1-1217等,展示了DeepSeek-R1和蒸餾模型的表現(xiàn)。

  • 蒸餾模型的表現(xiàn):對(duì)于蒸餾模型(如QwenLlama),在AIME 2024MATH-500Codeforces等基準(zhǔn)上報(bào)告了代表性的結(jié)果。

5. 結(jié)果的意義
  • Pass@1 和共識(shí)投票:通過(guò)使用pass@1cons@64評(píng)估方法,模型在多個(gè)推理任務(wù)中的表現(xiàn)得到了更加穩(wěn)定和可靠的評(píng)估。

  • 基準(zhǔn)測(cè)試的綜合評(píng)估:通過(guò)多種標(biāo)準(zhǔn)的推理基準(zhǔn)測(cè)試,證明了DeepSeek-R1及其蒸餾模型在推理任務(wù)中的強(qiáng)大能力,特別是在數(shù)學(xué)、編程、邏輯推理等任務(wù)上表現(xiàn)突出。

小結(jié)。這部分描述了DeepSeek-R1和蒸餾模型在多個(gè)基準(zhǔn)測(cè)試上的評(píng)估過(guò)程。通過(guò)采用pass@1共識(shí)投票等評(píng)估方法,確保了模型在復(fù)雜推理任務(wù)中的表現(xiàn)可靠且穩(wěn)定。此外,作者還通過(guò)與多個(gè)強(qiáng)基準(zhǔn)模型的比較,驗(yàn)證了DeepSeek-R1在推理任務(wù)中的優(yōu)勢(shì),并進(jìn)一步證明了蒸餾技術(shù)在提升小模型推理能力方面的有效性。

這部分內(nèi)容展示了DeepSeek-R1模型在多個(gè)基準(zhǔn)測(cè)試中的評(píng)估結(jié)果,并與其他代表性模型進(jìn)行了比較。以下是詳細(xì)解讀:

1. DeepSeek-R1 評(píng)估結(jié)果1.1 教育相關(guān)基準(zhǔn)測(cè)試(如 MMLU, MMLU-Pro, GPOA Diamond)

  • DeepSeek-R1在與DeepSeek-V3的比較中,顯示出顯著的性能提升,尤其是在STEM(科學(xué)、技術(shù)、工程和數(shù)學(xué))相關(guān)問(wèn)題上。通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練,模型在這些領(lǐng)域取得了顯著的準(zhǔn)確性提高。

  • FRAMES 基準(zhǔn):這是一個(gè)長(zhǎng)上下文依賴(lài)的問(wèn)答任務(wù),DeepSeek-R1在此任務(wù)中表現(xiàn)出色,展示了其強(qiáng)大的文檔分析能力,表明推理模型在 AI 驅(qū)動(dòng)的搜索和數(shù)據(jù)分析任務(wù)中具有潛力。

1.2 事實(shí)性基準(zhǔn)(如 SimpleQA)
  • SimpleQA這一基準(zhǔn)測(cè)試上,DeepSeek-R1超過(guò)了DeepSeek-V3,證明了其在處理事實(shí)性查詢(xún)方面的能力。類(lèi)似地,OpenAI的o1系列模型在這一基準(zhǔn)測(cè)試上也優(yōu)于GPT-4o

  • 然而,DeepSeek-R1在中文版本的SimpleQA測(cè)試中表現(xiàn)不佳,原因是它在安全強(qiáng)化學(xué)習(xí)(RL)后傾向于拒絕回答某些查詢(xún)。沒(méi)有應(yīng)用安全 RL 時(shí),DeepSeek-R1的準(zhǔn)確率可以超過(guò) 70%。

1.3 IF-Eval 和 AlpacaEval 2.0 等任務(wù)
  • IF-Eval基準(zhǔn)測(cè)試衡量了模型執(zhí)行格式指令的能力,DeepSeek-R1在此基準(zhǔn)上表現(xiàn)優(yōu)秀。其提升與最終階段的監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)數(shù)據(jù)的加入密切相關(guān)。

  • AlpacaEval 2.0ArenaHard等開(kāi)放領(lǐng)域問(wèn)題回答任務(wù)中,DeepSeek-R1同樣展現(xiàn)了強(qiáng)大的寫(xiě)作能力和開(kāi)放領(lǐng)域問(wèn)答能力,遠(yuǎn)超DeepSeek-V3,并且其生成的總結(jié)文本避免了長(zhǎng)度偏差,生成的平均長(zhǎng)度為689 tokens(ArenaHard)和2,218 characters(AlpacaEval 2.0)。

1.4 數(shù)學(xué)和編程任務(wù)
  • 在數(shù)學(xué)任務(wù)中,DeepSeek-R1的表現(xiàn)與OpenAI-o1-1217相當(dāng),顯著超過(guò)了其他模型。

  • 在編程算法任務(wù)上(如LiveCodeBenchCodeforces),推理導(dǎo)向的模型(如DeepSeek-R1)主導(dǎo)了這些基準(zhǔn)測(cè)試,證明了推理能力對(duì)編程任務(wù)的有效支持。

  • 在面向工程的編程任務(wù)(如AiderSWE Verified)中,OpenAI-o1-1217Aider上表現(xiàn)優(yōu)于DeepSeek-R1,但在SWE Verified上與DeepSeek-R1的表現(xiàn)相當(dāng)。隨著更多相關(guān)的強(qiáng)化學(xué)習(xí)訓(xùn)練數(shù)據(jù)的加入,預(yù)計(jì)DeepSeek-R1在工程任務(wù)中的表現(xiàn)將進(jìn)一步提升。

2. 蒸餾模型評(píng)估2.1 蒸餾模型的比較
  • DeepSeek-R1 蒸餾模型(如DeepSeek-R1-7B,DeepSeek-R1-14B,DeepSeek-R1-32B, 和DeepSeek-R1-70B)在推理相關(guān)的基準(zhǔn)測(cè)試中表現(xiàn)突出,超越了非推理導(dǎo)向模型(如GPT-4-0513)以及其他一些強(qiáng)基準(zhǔn)模型:

    • DeepSeek-R1-7B超過(guò)了GPT-4-0513

    • DeepSeek-R1-14B在所有評(píng)估指標(biāo)上超越了QwQ-32B-Preview

    • DeepSeek-R1-32BDeepSeek-R1-70B在大多數(shù)基準(zhǔn)上顯著超過(guò)了OpenAI-o1-mini

2.2 蒸餾與強(qiáng)化學(xué)習(xí)的結(jié)合
  • 研究還發(fā)現(xiàn),將強(qiáng)化學(xué)習(xí)(RL)應(yīng)用于蒸餾后的模型,會(huì)帶來(lái)顯著的性能提升。盡管目前的實(shí)驗(yàn)只展示了簡(jiǎn)單的SFT 蒸餾結(jié)果,作者認(rèn)為這為進(jìn)一步探索 RL 在蒸餾模型中的應(yīng)用提供了一個(gè)重要的研究方向。

  • DeepSeek-R1在多個(gè)教育和推理基準(zhǔn)上表現(xiàn)出色,特別是在 STEM 領(lǐng)域、長(zhǎng)文檔分析(FRAMES)和事實(shí)性問(wèn)答(SimpleQA)方面相較于DeepSeek-V3提升顯著。

  • 在數(shù)學(xué)、編程和開(kāi)放領(lǐng)域問(wèn)題回答任務(wù)中,DeepSeek-R1展現(xiàn)了強(qiáng)大的推理能力,特別是在LiveCodeBenchCodeforces等編程基準(zhǔn)測(cè)試中表現(xiàn)突出。

  • 蒸餾技術(shù)在小模型中表現(xiàn)出色,DeepSeek-R1的蒸餾模型超越了許多傳統(tǒng)非推理模型,并通過(guò)進(jìn)一步結(jié)合強(qiáng)化學(xué)習(xí),進(jìn)一步提升了推理能力。

這表明,通過(guò)強(qiáng)化學(xué)習(xí)的應(yīng)用和蒸餾技術(shù),DeepSeek-R1在多任務(wù)和多個(gè)領(lǐng)域中展示了廣泛的適用性和強(qiáng)大的性能。

Discussion:討論了DeepSeek-R1在開(kāi)發(fā)過(guò)程中遇到的一些挑戰(zhàn)、嘗試的失敗方法以及與蒸餾技術(shù)和強(qiáng)化學(xué)習(xí)(RL)之間的對(duì)比。以下是詳細(xì)解讀:

1. 蒸餾 vs 強(qiáng)化學(xué)習(xí)(Distillation vs. Reinforcement Learning)1.1 蒸餾和強(qiáng)化學(xué)習(xí)的對(duì)比

  • DeepSeek-R1的開(kāi)發(fā)過(guò)程中,作者探索了兩種主要的提升模型推理能力的方法:蒸餾(Distillation)和強(qiáng)化學(xué)習(xí)(RL)

  • 通過(guò)對(duì)Qwen-32B-Base進(jìn)行大規(guī)模強(qiáng)化學(xué)習(xí)訓(xùn)練,作者開(kāi)發(fā)了DeepSeek-R1-Zero-Qwen-32B,并進(jìn)行了評(píng)估。實(shí)驗(yàn)結(jié)果表明,雖然強(qiáng)化學(xué)習(xí)訓(xùn)練的DeepSeek-R1-Zero-Qwen-32B在推理基準(zhǔn)測(cè)試中的表現(xiàn)與QwQ-32B-Preview相當(dāng),但通過(guò)蒸餾得到的DeepSeek-R1-Distill-Qwen-32B在所有基準(zhǔn)測(cè)試中表現(xiàn)更好,遠(yuǎn)超強(qiáng)化學(xué)習(xí)訓(xùn)練得到的版本。

  • 結(jié)論

    • 蒸餾較強(qiáng)大的模型到較小模型中能夠產(chǎn)生優(yōu)異的結(jié)果,而僅依靠大規(guī)模強(qiáng)化學(xué)習(xí)的小模型需要巨大的計(jì)算資源,并且可能無(wú)法達(dá)到蒸餾方法的效果。

    • 盡管蒸餾策略既經(jīng)濟(jì)又有效,但如果要進(jìn)一步推動(dòng)智能水平的發(fā)展,可能還需要更強(qiáng)大的基礎(chǔ)模型和更大規(guī)模的強(qiáng)化學(xué)習(xí)訓(xùn)練。

2. 未成功的嘗試(Unsuccessful Attempts)2.1 過(guò)程獎(jiǎng)勵(lì)模型(PRM)
  • 過(guò)程獎(jiǎng)勵(lì)模型(PRM)是一種引導(dǎo)模型解決推理任務(wù)的合理方法,通過(guò)獎(jiǎng)勵(lì)模型來(lái)促進(jìn)模型的推理過(guò)程。然而,實(shí)踐中存在一些主要限制:

    • 步驟定義困難:很難為一般推理任務(wù)明確地定義每個(gè)小步驟。

    • 正確性判定困難:判斷當(dāng)前步驟是否正確是一項(xiàng)具有挑戰(zhàn)性的任務(wù),尤其是自動(dòng)注釋可能無(wú)法得到令人滿(mǎn)意的結(jié)果,而人工標(biāo)注又難以擴(kuò)展。

    • 獎(jiǎng)勵(lì)作弊問(wèn)題:引入基于模型的獎(jiǎng)勵(lì)模型不可避免地會(huì)導(dǎo)致“獎(jiǎng)勵(lì)作弊”(reward hacking),即模型會(huì)利用獎(jiǎng)勵(lì)機(jī)制本身的漏洞來(lái)優(yōu)化結(jié)果,而這需要額外的訓(xùn)練資源,并且會(huì)使訓(xùn)練流程更加復(fù)雜。

    • 結(jié)論:盡管PRM可以幫助重新排序模型生成的前N個(gè)響應(yīng),或輔助引導(dǎo)搜索,但與在大規(guī)模強(qiáng)化學(xué)習(xí)過(guò)程中引入的額外計(jì)算開(kāi)銷(xiāo)相比,其優(yōu)勢(shì)是有限的。

2.2 蒙特卡洛樹(shù)搜索(MCTS)
  • 蒙特卡洛樹(shù)搜索(MCTS)是受AlphaGoAlphaZero啟發(fā)的方法,目的是通過(guò)系統(tǒng)地探索解空間來(lái)提升推理能力。

    挑戰(zhàn)

    • 與棋類(lèi)游戲不同,MCTS在文本生成中的搜索空間大得多,因此在擴(kuò)展每個(gè)節(jié)點(diǎn)時(shí)會(huì)遇到困難,容易導(dǎo)致模型陷入局部最優(yōu)解。

    • 價(jià)值模型的訓(xùn)練難度:在AlphaGo中,通過(guò)訓(xùn)練價(jià)值模型不斷提升模型性能,但在MCTS的文本生成任務(wù)中,訓(xùn)練一個(gè)細(xì)粒度的價(jià)值模型非常困難,這使得模型難以迭代提升性能。

    • 訓(xùn)練過(guò)程:通過(guò)引導(dǎo)模型生成多個(gè)標(biāo)簽來(lái)對(duì)應(yīng)每個(gè)推理步驟,使用收集的提示進(jìn)行MCTS搜索,然后通過(guò)生成的問(wèn)答對(duì)訓(xùn)練模型。

      結(jié)論

  • MCTS可以在推理時(shí)提升性能,尤其是在與預(yù)訓(xùn)練的價(jià)值模型配對(duì)時(shí)。然而,要通過(guò)自我搜索不斷提升模型性能仍然是一個(gè)巨大的挑戰(zhàn),尤其是在文本生成任務(wù)中的復(fù)雜性更高。小結(jié)如下:

  • 蒸餾 vs 強(qiáng)化學(xué)習(xí):雖然蒸餾在將強(qiáng)大模型的推理能力傳遞到較小模型中表現(xiàn)非常好,但大規(guī)模強(qiáng)化學(xué)習(xí)仍然需要大量計(jì)算資源,且不一定能達(dá)到蒸餾的效果。為了進(jìn)一步推動(dòng)智能的發(fā)展,可能還需要更強(qiáng)的基礎(chǔ)模型和更大規(guī)模的強(qiáng)化學(xué)習(xí)。

  • 失敗的嘗試

    • 過(guò)程獎(jiǎng)勵(lì)模型(PRM)在實(shí)際應(yīng)用中面臨定義困難、正確性判斷問(wèn)題以及獎(jiǎng)勵(lì)作弊等問(wèn)題,導(dǎo)致其在大規(guī)模強(qiáng)化學(xué)習(xí)中表現(xiàn)不佳。

    • 蒙特卡洛樹(shù)搜索(MCTS)盡管在理論上有提升潛力,但在文本生成任務(wù)中,由于生成空間龐大、價(jià)值模型訓(xùn)練困難,最終在模型性能提升上仍面臨挑戰(zhàn)。

    Conclusion, Limitations, and Future Work(結(jié)論、局限性與未來(lái)工作)1. 結(jié)論

    本研究展示了通過(guò)強(qiáng)化學(xué)習(xí)(RL)增強(qiáng)大語(yǔ)言模型推理能力的過(guò)程:

    • DeepSeek-R1-Zero:這是一種純粹的 RL 方法,無(wú)需冷啟動(dòng)數(shù)據(jù),能夠在多個(gè)任務(wù)上實(shí)現(xiàn)強(qiáng)大的性能。

    • DeepSeek-R1:相比于DeepSeek-R1-ZeroDeepSeek-R1在利用冷啟動(dòng)數(shù)據(jù)和迭代的 RL 微調(diào)后,表現(xiàn)更為強(qiáng)大,最終在多個(gè)任務(wù)上達(dá)到了與OpenAI-o1-1217相當(dāng)?shù)男阅芩健?/p>

    此外,論文還探索了將推理能力蒸餾到小型稠密模型中:

    • DeepSeek-R1作為教師模型生成了 80 萬(wàn)個(gè)訓(xùn)練樣本,并對(duì)多個(gè)小型稠密模型進(jìn)行了微調(diào),結(jié)果非常有希望:例如DeepSeek-R1-Distill-Qwen-1.5B在數(shù)學(xué)基準(zhǔn)測(cè)試上超越了GPT-4oClaude-3.5-Sonnet,在AIME上達(dá)到了 28.9%,在MATH上達(dá)到了 83.9% 的成績(jī)。

    這些結(jié)果表明,蒸餾技術(shù)在小模型中取得了顯著的推理能力提升。

    2. 局限性

    盡管DeepSeek-R1取得了令人印象深刻的進(jìn)展,但仍存在一些局限性:

    • 通用能力不足:目前DeepSeek-R1在某些任務(wù)上(如函數(shù)調(diào)用、多輪復(fù)雜角色扮演和 JSON 輸出等)能力仍不及DeepSeek-V3。未來(lái)計(jì)劃通過(guò)使用長(zhǎng)鏈思維(CoT)來(lái)提升這些領(lǐng)域的任務(wù)表現(xiàn)。

    • 語(yǔ)言混合問(wèn)題DeepSeek-R1目前對(duì)中文和英文進(jìn)行了優(yōu)化,但在處理其他語(yǔ)言的查詢(xún)時(shí)可能會(huì)出現(xiàn)語(yǔ)言混合的問(wèn)題。例如,在處理非英語(yǔ)或中文的查詢(xún)時(shí),推理和回應(yīng)可能會(huì)不自覺(jué)地使用英語(yǔ)。未來(lái)將致力于解決這一問(wèn)題。

    • 提示工程問(wèn)題:在評(píng)估DeepSeek-R1時(shí),發(fā)現(xiàn)模型對(duì)提示非常敏感。特別是在使用少量樣本提示(few-shot prompting)時(shí),性能會(huì)顯著下降。因此,建議用戶(hù)使用零樣本設(shè)置(zero-shot setting),直接描述問(wèn)題并明確指定輸出格式,以獲得最佳效果。

    • 軟件工程任務(wù):由于RL訓(xùn)練過(guò)程中的長(zhǎng)時(shí)間評(píng)估影響了效率,DeepSeek-R1在軟件工程任務(wù)中的應(yīng)用仍然有限。盡管如此,模型在這類(lèi)基準(zhǔn)測(cè)試中的表現(xiàn)未能超越DeepSeek-V3。未來(lái)版本將通過(guò)實(shí)施軟件工程數(shù)據(jù)上的拒絕采樣(rejection sampling)或在 RL 過(guò)程中的異步評(píng)估(asynchronous evaluations)來(lái)提高效率,從而解決這一問(wèn)題。

    3. 未來(lái)工作

    在未來(lái),研究團(tuán)隊(duì)計(jì)劃在以下幾個(gè)方面進(jìn)一步改進(jìn)DeepSeek-R1

    • 通用能力提升:探索如何通過(guò)長(zhǎng)鏈思維(CoT)來(lái)增強(qiáng)DeepSeek-R1在復(fù)雜角色扮演和其他多輪交互任務(wù)中的表現(xiàn)。

    • 解決語(yǔ)言混合問(wèn)題:提高DeepSeek-R1在多語(yǔ)言環(huán)境中的穩(wěn)定性和一致性,避免語(yǔ)言混合的情況。

    • 優(yōu)化提示工程:進(jìn)一步研究不同提示(如零樣本和少樣本設(shè)置)對(duì)模型表現(xiàn)的影響,并制定優(yōu)化策略,特別是在用戶(hù)實(shí)際應(yīng)用時(shí)確保其更高的準(zhǔn)確性。

    • 增強(qiáng)軟件工程任務(wù)能力:通過(guò)提高 RL 訓(xùn)練的效率,例如應(yīng)用拒絕采樣或異步評(píng)估,解決DeepSeek-R1在軟件工程任務(wù)中的限制。

    五、總結(jié)
    • DeepSeek-R1在推理任務(wù)中的表現(xiàn)顯著提升,尤其是在通過(guò)強(qiáng)化學(xué)習(xí)(RL)和冷啟動(dòng)數(shù)據(jù)的結(jié)合下,其推理能力超越了傳統(tǒng)模型。蒸餾技術(shù)的成功也證明了較小模型同樣可以獲得強(qiáng)大的推理能力。

    • 然而,DeepSeek-R1在一些高級(jí)任務(wù)(如復(fù)雜角色扮演和軟件工程任務(wù))上仍有不足,未來(lái)研究將集中在提高其通用能力和多語(yǔ)言處理能力。

    • 通過(guò)進(jìn)一步優(yōu)化RL過(guò)程,解決現(xiàn)有局限性,DeepSeek-R1有潛力在更多實(shí)際應(yīng)用中取得更大的突破。

    如您需要上述論文PDF文件請(qǐng)聯(lián)系老虎說(shuō)芯。



特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶(hù)上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
銀河L6穩(wěn)的不只是銷(xiāo)量,還有29100剛度車(chē)身+E型懸掛

銀河L6穩(wěn)的不只是銷(xiāo)量,還有29100剛度車(chē)身+E型懸掛

名車(chē)點(diǎn)評(píng)
2025-04-27 13:07:47
金杯銀杯不如車(chē)主口碑!6萬(wàn)級(jí)王者讓我花小錢(qián)辦大事

金杯銀杯不如車(chē)主口碑!6萬(wàn)級(jí)王者讓我花小錢(qián)辦大事

環(huán)球車(chē)聞
2025-04-28 17:43:37
2.9L油+2000km續(xù)航!銀河L6 EM-i引爆上海車(chē)展

2.9L油+2000km續(xù)航!銀河L6 EM-i引爆上海車(chē)展

車(chē)榜網(wǎng)
2025-04-28 12:54:03
“高潮針”打過(guò)的都說(shuō)好?提高G點(diǎn)敏感度2倍,手指一彎就想尿

“高潮針”打過(guò)的都說(shuō)好?提高G點(diǎn)敏感度2倍,手指一彎就想尿

社會(huì)醬
2025-04-28 16:29:35
吉利爆改車(chē)展規(guī)則!銀河戰(zhàn)艦竟把黃浦江搬進(jìn)展廳?

吉利爆改車(chē)展規(guī)則!銀河戰(zhàn)艦竟把黃浦江搬進(jìn)展廳?

汽車(chē)新文報(bào)道
2025-04-28 18:50:05
海底24小時(shí)+鋼針穿刺,L6神盾電池讓2萬(wàn)家庭閉眼沖

海底24小時(shí)+鋼針穿刺,L6神盾電池讓2萬(wàn)家庭閉眼沖

環(huán)球車(chē)聞
2025-04-27 13:06:44
脊背發(fā)涼!女婿找上海岳母資助換房,意外識(shí)破大案!人均損失超百萬(wàn)

脊背發(fā)涼!女婿找上海岳母資助換房,意外識(shí)破大案!人均損失超百萬(wàn)

瀟湘晨報(bào)
2025-04-29 11:29:05
顛覆燃油車(chē)!吉利銀河L6 EM-i一箱油橫跨三省,銷(xiāo)量爆表

顛覆燃油車(chē)!吉利銀河L6 EM-i一箱油橫跨三省,銷(xiāo)量爆表

車(chē)觀察
2025-04-27 13:06:26
“這是逼中國(guó)放棄美債,特朗普搬起石頭砸自己的腳”

“這是逼中國(guó)放棄美債,特朗普搬起石頭砸自己的腳”

觀察者網(wǎng)
2025-04-29 14:45:55
協(xié)和醫(yī)院董襲螢真是個(gè)天之驕女,新華社報(bào)道過(guò)的精英,經(jīng)濟(jì)轉(zhuǎn)醫(yī)學(xué)

協(xié)和醫(yī)院董襲螢真是個(gè)天之驕女,新華社報(bào)道過(guò)的精英,經(jīng)濟(jì)轉(zhuǎn)醫(yī)學(xué)

阿鳧愛(ài)吐槽
2025-04-29 14:51:04
沃爾瑪通知中國(guó)供應(yīng)商恢復(fù)出貨

沃爾瑪通知中國(guó)供應(yīng)商恢復(fù)出貨

財(cái)聯(lián)社
2025-04-29 16:12:04
顛覆燃油車(chē)!吉利銀河L6 EM-i一箱油橫跨三省,銷(xiāo)量爆表

顛覆燃油車(chē)!吉利銀河L6 EM-i一箱油橫跨三省,銷(xiāo)量爆表

車(chē)榜網(wǎng)
2025-04-27 13:06:33
肖飛事件,麻醉醫(yī)生連續(xù)發(fā)文:壓這么久還是沒(méi)壓住,醫(yī)院不該隱身

肖飛事件,麻醉醫(yī)生連續(xù)發(fā)文:壓這么久還是沒(méi)壓住,醫(yī)院不該隱身

明月聊史
2025-04-29 12:38:11
6萬(wàn)A級(jí)家轎,竟也能享受B級(jí)車(chē)的待遇

6萬(wàn)A級(jí)家轎,竟也能享受B級(jí)車(chē)的待遇

汽車(chē)資訊評(píng)
2025-04-28 17:42:33
SHEIN聲稱(chēng)自己非中國(guó)企業(yè),支持美國(guó)關(guān)稅政策

SHEIN聲稱(chēng)自己非中國(guó)企業(yè),支持美國(guó)關(guān)稅政策

略大參考
2025-04-29 10:23:45
吉利銀河戰(zhàn)艦硬核亮相!AI四驅(qū)+金磚電池,把安全刻進(jìn)DNA的SUV來(lái)了

吉利銀河戰(zhàn)艦硬核亮相!AI四驅(qū)+金磚電池,把安全刻進(jìn)DNA的SUV來(lái)了

車(chē)榜網(wǎng)
2025-04-27 16:10:34
46.5%熱效+15000km保養(yǎng),L6混動(dòng)賬本讓2萬(wàn)人驚了

46.5%熱效+15000km保養(yǎng),L6混動(dòng)賬本讓2萬(wàn)人驚了

汽車(chē)品牌網(wǎng)
2025-04-27 13:08:55
中方發(fā)布《不跪!》視頻傳遞何種信息?外交部回應(yīng)

中方發(fā)布《不跪!》視頻傳遞何種信息?外交部回應(yīng)

澎湃新聞
2025-04-29 15:36:26
唐山市委原常委李麗,收受私營(yíng)企業(yè)主、領(lǐng)導(dǎo)干部等28人所送禮品、禮金、消費(fèi)卡

唐山市委原常委李麗,收受私營(yíng)企業(yè)主、領(lǐng)導(dǎo)干部等28人所送禮品、禮金、消費(fèi)卡

魯中晨報(bào)
2025-04-28 18:56:11
海底24小時(shí)+鋼針穿刺,L6神盾電池讓2萬(wàn)家庭閉眼沖

海底24小時(shí)+鋼針穿刺,L6神盾電池讓2萬(wàn)家庭閉眼沖

汽車(chē)知識(shí)報(bào)
2025-04-27 13:06:52
2025-04-29 16:56:49
老虎說(shuō)芯 incentive-icons
老虎說(shuō)芯
資深半導(dǎo)體工程師的經(jīng)驗(yàn)分享
455文章數(shù) 15關(guān)注度
往期回顧 全部

科技要聞

Qwen3登頂開(kāi)源榜 阿里稱(chēng)大模型是十年長(zhǎng)跑

頭條要聞

印巴再度交火 外交部回應(yīng)是否計(jì)劃"介入調(diào)解"

頭條要聞

印巴再度交火 外交部回應(yīng)是否計(jì)劃"介入調(diào)解"

體育要聞

勇士火箭雷霆太陽(yáng),你們是怎么失去他的?

娛樂(lè)要聞

甜馨簽樂(lè)華出道惹爭(zhēng)議 維護(hù)爸媽被質(zhì)疑

財(cái)經(jīng)要聞

特朗普?qǐng)?zhí)政百日下的美元危機(jī)

汽車(chē)要聞

年輕or傳統(tǒng)?上汽奧迪A5L與一汽奧迪A5L有什么不同?

態(tài)度原創(chuàng)

數(shù)碼
游戲
家居
藝術(shù)
公開(kāi)課

數(shù)碼要聞

最新泄露信息顯示索尼WH-1000XM6降噪耳機(jī)距離發(fā)布又近了一步

《百日戰(zhàn)紀(jì)》好玩嗎?小高直接在小紅書(shū)評(píng)論區(qū)自夸

家居要聞

雅奢氛圍 營(yíng)造品質(zhì)生活

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫(xiě)法

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 万宁市| 烟台市| 大邑县| 明光市| 凤冈县| 施甸县| 保德县| 扎鲁特旗| 辛集市| 炎陵县| 昌宁县| 长寿区| 宁乡县| 莱州市| 肃南| 托克逊县| 赣州市| 密山市| 肥东县| 北安市| 阳城县| 台湾省| 宾川县| 湖南省| 孟州市| 临高县| 任丘市| 淳化县| 渑池县| 林西县| 惠来县| 松江区| 天峻县| 任丘市| 卢氏县| 姚安县| 岳西县| 凤翔县| 临泉县| 沅江市| 博客|