新智元報道
編輯:定慧
【新智元導讀】DeepSeek-R1是近年來推理模型領域的一顆新星,它不僅突破了傳統LLM的局限,還開啟了全新的研究方向「思維鏈學」(Thoughtology)。這份長達142頁的報告深入剖析了DeepSeek-R1的推理過程,揭示了其推理鏈的獨特結構與優勢,為未來推理模型的優化提供了重要啟示。
你是否曾想過DeepSeek-R1為什么能「思考」?
距離DeepSeek-R1這只「巨鯨」引發的全球AI海嘯似乎剛剛平靜下來,但推理模型已經成為了AI寵兒。
不論是Gemini 2.5Pro,還是o3,o4-mini,以及所有人都在期待的DeepSeek-R2,都是推理模型。
R1的出現帶火了推理模型外,也催生了一個新的研究領域:思維鏈學(Thoughtology)。
魁北克人工智能研究所聯合麥吉爾大學和哥本哈根大學最近發布了這一研究領域的詳細研究,這份長達142頁的報告深入探討了R1的思維鏈。
同時這份研究報告也登上了HuggingFace的Daily Papers。
論文地址:https://arxiv.org/pdf/2504.07128
研究團隊從DeepSeek-R1推理的基本構件出發,分析其推理鏈的長度對性能的影響、對長或混亂上下文的處理能力、安全性和文化問題、以及它在人類類比語言處理和世界建模中的表現。
研究報告涵蓋了多個獨特的維度:安全性、世界建模、忠誠度、長情境等。
研究結果發現幾個關鍵亮點:
DeepSeek-R1 存在一個「推理甜點區」(sweet spot),即過多推理反而損害性能。
模型傾向于反復沉溺在已探索的方案中,阻礙進一步探索。
相比不具備推理能力的版本,DeepSeek-R1展現出更高的安全風險,這可能對安全對齊的LLM構成挑戰。
還有更豐富的研究細節,讓我們開始吧。
DeepSeek-R1「思維鏈學」(Thoughtology)
一個人所取得的成就,或未能達成的目標,都是其思想的直接結果。
——James Allen,《As a Man Thinketh》
模型的推理能力正在發生一種質變——推理不再僅靠提示引導,而是內嵌在模型本身中。
類似DeepSeek-R1這樣的「大推理模型」(Large Reasoning Models, LRM)標志著LLMs處理復雜問題方式的根本轉變。
DeepSeek-R1首次公開推理過程,但是最受傷的是OpenAI。
OpenAI的o1(2024)是首個展示LRM巨大潛力的模型,但OpenAI并未公開其推理過程。
所以R1一亮相就驚艷了世人,把o1拍死在沙灘上,也讓AI的競爭之路選擇了開源。
另外一個讓R1備受尊崇的原因就是成本,R1模型不僅在性能上可以與o1媲美,而且計算效率更高,成本更低,相信你還記得550萬美元,只有o1的3%等數據。
而DeepSeek-R1最讓人興奮的原因依然還是開源:不僅訓練過程、代碼和模型權重對外公開;而且「思維過程」也面向所有人開放。
研究團隊稱「DeepSeek-R1思維鏈的透明訪問權」是一種獨特的研究機會!
研究人員借此可以系統性地分析其推理行為,最終形成「思維鏈學」(Thoughtology)。圖1.1展示了普通LLM和LRM輸出之間的對比。
雖然LLM的輸出中可能包含一些中間推理過程,但它們通常不會探索不同的思路。
而一旦模型出錯,也無法回退并嘗試其它解法。
相比之下,LRM則通過探索與驗證多個方案來進行推理,最終總結出最佳解法。
DeepSeek-R1的訓練細節
DeepSeek-R1的訓練始于DeepSeek-V3。
DeepSeek-V3是一個專家混合模型(Mixture-of-Experts),其總參數規模為6710億,其中活躍參數為370億。
圖2.1展示了DeepSeek-R1的多階段訓練過程。 從左到右依次為:
通過GRPO的強化學習訓練DeepSeek-R1-Zero模型;
使用DeepSeek-R1-Zero生成的鏈式思維(CoT)數據以及其他來源數據進行SFT(從冷啟動開始);
在以推理為主的數據上再次使用GRPO的強化學習;
在約60萬條推理類樣本和20萬條非推理樣本上進行SFT。需要注意的是,此階段是從DeepSeek-V3-base模型重新開始訓練的;
在包含安全訓練在內的多樣化提示分布上,通過GRPO進行強化學習微調。
整個訓練過程覆蓋了約14.8萬億個token。在發布之時(2024年12月),V3被認為是表現最好的大語言模型之一。
DeepSeek-R1的推理能力為什么那么「像人」
DeepSeek-R1是在一個復雜的多階段訓練流程中構建出來的。
在這個流程中,多個階段都大量使用了由前一階段模型生成的合成訓練數據。
盡管目前關于DeepSeek-R1的具體訓練數據披露較少(訓練數據目前沒有開源)。
但可以合理推測,這些數據經過了大量篩選,甚至部分樣本在生成后還經過了人工修正,以體現特定的推理模式。
當加入「人的」因素,推理過程像人就說的過去了,畢竟只是純強化學習得到的R1-Zero也并沒有作為最終的產品發布。
在討論DeepSeek-R1所展現出的類人推理能力時,有必要意識到:這些推理模式很可能是受到數據篩選與監督微調的強烈影響,而不僅僅是模型「自發」學習到類似人類的推理思維。
研究人員通過Together API調用DeepSeek-R1(共 6710 億參數,所謂滿血版)進行實驗。
所有模型回復均采用溫度值0.6進行采樣,且不設置生成token的最大數量限制。
DeepSeek-R1推理過程
在了解R1的推理過程時,先來看看人類是如何推理的。
在多個推理研究范式中,人類推理過程通常包含一些共通的術語和階段。大概包括:
問題定義:首先,需要簡化任務中的相關信息,識別出給定條件、已知信息以及需要被推斷的未知信息。
初步反應:根據問題的復雜程度,個體可能會借鑒類似問題的解決方法,或是運用啟發式策略給出一個即時答案。
規劃:面對更難的問題時,通常會采取更具策略性和分析性的思考方法。規劃的復雜程度取決于任務的復雜性。
執行與監控:在執行過程中,人們會不斷監控自己的進展和信心水平,以決定是否需要調整原計劃。監控能力越強,通常任務完成的質量也越高。
重構:在解題過程中,個體可能需要調整原有的思路或對世界的假設,以克服由于問題理解錯誤造成的卡頓。
解答驗證:無論是使用啟發式還是策略性的方法,在得出答案之后,人類通常會反思自己的思路和結果,確認它是否符合題目的要求。
不知道是否你平時的思考過程,看完了人的,再來看看DeepSeek-R1的推理流程。
圖3.1是R1推理過程的可視化展示,并在圖3.2中提供了一個詳細的標注示例。
問題定義(Problem Definition)
模型會重新表述問題,通常以一句明確表達目標的信息作為結尾,比如“我需要找出……”之類的句式,來界定需要解決的內容。
綻放周期(Blooming Cycle)
這是模型進入的第一個主要推理階段,會將問題拆解為若干子問題,并嘗試給出一個中間答案。
研究人員將其稱為“綻放周期”,因為這一階段通常最長,且集中在對問題的結構性分解上。
模型有時會表達對該答案的信心,常見句式如:“嗯,我來驗證一下……”
重構周期(Reconstruction Cycle)
這是后續的推理周期,模型會重新思考“綻放周期”中所做的處理,例如:“等等”、“換個角度來看”、“有沒有其他理解方式?”等。
之后模型可能會給出一個新的中間答案,且不一定每次都會明確表明信心程度。這個過程可能會重復多次。
最終決策(Final Decision)
模型最終得出結論,常見句式如“我現在比較有把握了……”,并直接給出最終答案。
下圖為推理鏈中的各個步驟進行顏色分類標注。
重點標出了模型在「綻放周期」中對問題初步拆解內容的反復回顧。
這種反復思考和重新評估的行為被稱為「反芻式思考」(rumination)。
下圖則展示了模型在四類任務中的不同推理階段所花的平均時間。
從圖中可以看出,「問題定義」和「最終決策」階段的時間基本一致。
不同任務之間最大的差異體現在「重構周期」的時長上。
進一步分析,從「綻放周期」開始,每一個后續「重構周期」的長度。
圖3.4展示了關于數學推理任務的數據,這是所有任務中推理鏈最長、周期最多的任務。
觀察到大約每經歷5個重構周期,就會出現一次更長的重構周期。
這些觀察說明,DeepSeek-R1 在推理過程中不僅執行問題拆解,還在后續階段對已有結論進行多輪審視,有時會進行較深入的反思。
下圖展示了來自MATH-500的一個更加復雜的推理示例(為簡化展示,用 […] 省略了部分內容)。
可以看到一些「重新綻放」(re-bloom,黃色和橘色部分)——即模型對問題進行了新的拆解。
研究人員確定DeepSeek-R1 的推理過程具有高度結構化的特征,在不同任務中展現出一致的行為模式。
多個維度深入DeepSeek-R1思維內部
研究人員引入了一種新的分類法來描述大規模語言模型(LRM)的推理鏈,并利用該分類法識別DeepSeek-R1在各種任務中的關鍵優勢和劣勢。
主要分為四個方面:
思維長度的影響和可控性
模型在長或混亂上下文中的行為
LRM的文化和安全問題
LRM在認知現象中的地位
下面分別展開介紹。
思維長度的影響和可控性
LLM推理能力的進步帶來了范式上的重大轉變:推理時擴展思維鏈的長度,即在模型推理階段生成更長的推理過程,從而提升性能。
DeepSeek-R1-Zero通過強化學習訓練學會了逐步生成越來越長的推理鏈。
盡管更長的推理鏈可能意味著更復雜的思考能力,但DeepSeek-R1即便已經得出正確答案,仍會反復進行自我驗證。
這引發了對模型推理效率的擔憂:更高的準確率是否值得花費更多的計算資源?
首先,分析推理鏈變長是否能提升模型在數學推理任務中的表現。
實驗對象為AIME-24,AIME-24是一個極具挑戰性的數學推理基準,要求得到數值解。實驗將temperature設為1.0,token上限設為32000。
DeepSeek-R1在多個題目中表現出如下趨勢:隨著思維鏈長度的增加,模型性能先提升、達到一個峰值,然后隨著推理過程的進一步拉長,準確率反而下降。
如圖4.5所示,在不受限制的情況下,DeepSeek-R1的推理鏈平均長度高達1388 個token,顯得非常冗長。
即便將輸出token數量減少近一半,模型性能也幾乎沒有下降。
因此,限制推理鏈長度是一種兼顧高性能和高效率的有效方式。
對于推理模型,設置合理的 token 限額,可以顯著降低推理成本,而性能幾乎不受影響。
模型在長或混亂上下文中的能力
檢測一個LLM的上下文窗口能力,有一個叫做「大海撈針」(Needle-In-a-Haystack)的辦法。
通俗的講,就是海量文本中,能否找到預設那根「針」。
研究人員使用GPT-4o生成了一組包含 100 條「個性化」事實的信息,這些事實不是常識性知識。
每條事實都被隨機插入到一段由CHASE-QA 任務文檔采樣構成的、總長度為12萬個token的上下文中。
這條事實(即「針」)被隨機安置在上下文前10%-50%的位置。
在100個測試樣本中,DeepSeek-R1在NIH任務上取得了 95% 的準確率。
在查看模型具體輸出時,也發現了一個有趣的現象:面對如此大規模的上下文時,DeepSeek-R1 有時會「被淹沒」。
R1無法正確執行指令,開始生成不連貫的文本,甚至還會出現一些語境不符的中文內容,如圖5.2所示。
除了「搜索能力」,在長上下文中,DeepSeek-R1是否能「忠于用戶」也是一個考驗。
為了評估DeepSeek-R1是否忠實于上下文,測試它在接收到錯誤信息(與其內在知識沖突)或干擾性信息(與問題無關)時的反應。
圖6.1展示了模型接受到錯誤信息后,雖然最終采納了這個錯誤信息,但在推理過程中它明確指出了知識之間的沖突,并且表示是根據用戶提供的信息進行的判斷。
DeepSeek-R1的文化和安全問題
像DeepSeek-R1這樣的推理模型在帶來新的能力的同時,也引發了新的安全風險。
LRM不斷增強的推理能力不僅可能在缺乏適當安全機制的情況下被用于有害用途,還可能被進行「越獄」攻擊。
使用HarmBench基準評估 DeepSeek-R1在面對有害請求時的回應及其推理過程。
評估內容覆蓋HarmBench的六個類別:化學與生物武器/毒品、網絡犯罪與非法入侵、騷擾、非法活動、虛假信息和一般性危害。
DeepSeek-R1 在所有類別中對虛假信息類請求最為脆弱,其有害回應比例高達 58.8%。
再來看下DeepSeek-R1的推理能力是否可以被「越獄」攻擊。
研究人員發現DeepSeek-R1能巧妙地將惡意請求「偽裝」成表面上看似無害的內容。
下圖展示請求獲取蓖麻毒素的配方被改寫為寫作一部虛構小說中「研究過程」的一部分。
DeepSeek-R1在認知中的表現
認知是人類特有的現象。
盡管像DeepSeek-R1這類模型的推理鏈被譽為「思考」過程,這些推理鏈是否真的與人類認知過程相同?
為了對比,研究人員設定了一個研究背景,即是否能夠正確解析和理解句子。
人類是如何處理具有挑戰性的句子呢?——這些挑戰或源于詞序,或源于最終含義。
花園路徑句是人類在初次解析時會感到困難的典型句子范例。
舉一個經典例子,當遇到句子「The horse raced past the barn fell」 (那匹跑過谷倉的馬摔倒了)時,人類通常會首先將子句 「The horse raced past the barn」解析為馬在奔跑,而「past the barn」是對這一行為的補充描述。
然而,讀完整句話后,會出現另一種解讀,其中動詞 「raced」被用作及物動詞:即那匹被驅趕跑過谷倉的馬摔倒了。
DeepSeek-R1在回應涉及花園路徑句和錯覺句的提示時,其推理鏈更長,而這些句子會在人類中引起更大的處理成本。
如圖9.1所示,DeepSeek-R1分別在接收花園路徑句和非花園路徑句輸入時產生的推理鏈長度分布。
平均而言,花園路徑句提示產生的推理鏈比其對應的非花園路徑句提示產生的推理鏈更長。
進一步,推理能力能否擴展到視覺或物理推理,或者統稱為「世界建模」?
由于DeepSeek-R1沒有經過圖像能力方面的訓練,研究人員另辟蹊徑的使用了ASCII字符作為「視覺輸出」。
研究人員分析了DeepSeek-R1在4個ASCII藝術對象上的推理:狗和房子,這些在訓練期間可能遇到過;以及長曲棍球棒和飛盤高爾夫籃,這些在互聯網上很少作為ASCII藝術出現。
下圖是DeepSeek-R1用ASCII碼畫出來的狗,你覺得像不像?
最終研究人員認為DeepSeek-R1在生成簡單的ASCII物理模擬方面表現不佳。
從DeepSeek-R1看推理模型的未來
It is better to debate a question without settling it than to settle a question without debating it.
允許問題在辯論中懸而未決,勝于不經辯論就強行定論。
——法國道德家、散文家約瑟夫·儒貝爾(Joseph Joubert)
研究人員總結了DeepSeek-R1的推理過程為為定義、拆分、綻放、重構,并從中分析了目前LRM的一些特點。
DeepSeek-R1的思維長度往往過長,即使在看似簡單的任務中也是如此。
「思考過度」使得DeepSeek-R1在部署時計算成本高昂,而且影響性能。而過度推理也會損害性能,或導致推理鏈過長以至于影響回憶。
由此可以提供一些未來LRM的發展方向建議,比如進行「顯示過程監控」,減少無效思考、識別錯誤路徑等。
未來的研究應注重提升模型的過程監控能力、策略多樣性、推理忠實度以及安全性。
當然這篇文章的研究也存在一定的局限性,比如部分分析是定性的,定量分析的數據規模因成本等因素受限,可能影響統計顯著性。
從產品的角度,缺乏與其他關鍵模型(如OpenAI o1)推理過程的直接比較。
同時由于DeepSeek-R1 的訓練數據不透明,限制了對其行為根源的理解。
DeepSeek-R1的出現標志著推理模型領域的一次重要突破,代表了AI推理能力的質變。
與傳統的大型語言模型(LLM)相比,DeepSeek-R1將推理過程內嵌在模型本身,推動了從「 提示驅動」到「 內生推理」模式的轉變。
其推理鏈的設計使得模型能像人類一樣,通過分階段、反復檢視的方式進行問題解決,從而展現出更高的推理深度和靈活性。
此外,DeepSeek-R1的開源特性也為AI領域帶來了新的機遇。
與OpenAI的封閉系統不同,DeepSeek-R1的透明性讓研究者能夠深入分析其推理行為,并在此基礎上推進思維鏈學(Thoughtology)的研究。
這不僅拓展了AI推理模型的應用場景,也為模型優化、推理效率提升及安全性增強提供了寶貴的研究基礎。
DeepSeek-R1不僅代表了推理模型技術的前沿,也為開源創新、AI思維機制的深入理解提供了新方向。
作者介紹
Xing Han Lu
麥吉爾大學的博士生,同時在Mila機構工作,研究方向是對話式網頁導航 ,在西瓦·雷迪博士的指導下。
學習期間,訪問了ServiceNow Research,與Harm de Vries博士合作從事對話式表格檢索。
在此之前,在Plotly領導了各種機器學習(ML)舉措,并開發了開源庫;在Deloitte從事摘要引擎工作;以及在麥吉爾臨床和健康信息學實驗室研究用于稅收政策的機器學習。
參考資料:
https://x.com/xhluca/status/1911092393824100525
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.