新智元報道
編輯:犀牛 定慧
【新智元導讀】推理模型與普通大語言模型有何本質不同?它們為何會「胡言亂語」甚至「故意撒謊」?Goodfire最新發布的開源稀疏自編碼器(SAEs),基于DeepSeek-R1模型,為我們提供了一把「AI顯微鏡」,窺探推理模型的內心世界。
推理模型的內心世界是怎么想的?推理模型與普通LLM之間有沒有本質的區別?
一直以來,AI內部的運作機理就像個「黑箱子」。
我們知道模型輸入的是什么,也能看到它們輸出的結果,但中間的過程,就連開發AI的人自己也不知道。
像謎一樣。
這種不透明帶來了很多問題。比如,我們不知道模型為什么會「胡說八道」,也就是出現所謂的「幻覺」。
更可怕的是,有些情況下模型會撒謊,甚至是故意騙人!
這給AI的安全應用帶來了很大的阻礙。
一直有團隊試圖破解這個「黑箱子」。比如不久前,
就在剛剛,AI安全公司Goodfire發布了首個基于DeepSeek-R1訓練的開源稀疏自編碼器(SAE),為我們提供了理解和引導模型思考的新工具。
什么是SAE
稀疏自編碼器(SAE)是一種特殊的神經網絡,類似于「壓縮包」,能將復雜的數據壓縮成更簡單的形式,然后再恢復原來的數據。
不同之處在于,SAE會確保中間處理層(隱藏層)中只有少數神經元被激活,大部分神經元保持「沉默」(接近零的激活)。
這種「稀疏性」就像團隊合作:假設你有一個團隊,每次任務只需要少數幾個人完成,SAE通過讓大部分神經元「休息」,只讓少數神經元「工作」,來學習數據的關鍵特征。
這不僅使模型更高效,還能讓結果更容易理解,比如減少數據維度,同時保留重要信息。
簡單地說,SAE就像一個「挑剔的專家」,它只保留數據中最有價值的部分,特別適用于需要高可解釋性的場景。
像DeepSeek-R1、o3和Claude 3.7這樣的推理模型能夠通過增加「思考」計算量,為復雜問題提供更可靠、更連貫的響應。
但理解它們的內部機制仍然是個挑戰。
不過,Goodfire這個基于DeepSeek-R1訓練的SAE,則可以像顯微鏡一樣,深入模型內部,揭示R1如何處理和響應信息。
研究者從SAE中發現了一些有趣的早期洞察,通俗點說就是:
想要有效「引導」模型,得等到它生成完「好的,用戶問了個關于……」這樣的語句,而不是直接用類似 這樣的明確標簽。這說明模型內部的推理token方式挺出人意料的。
如果「引導」過頭,模型反而可能退回到原本的行為,感覺它內部好像有種更深的「自我意識」。
這些發現表明,推理模型和普通的大語言模型在根本上有很大不同。
Goodfire對加快可解釋性和對齊研究方面的進展感到了興奮,目前它們已將這些SAE開源,希望確保人工智能系統既安全又強大。
開源地址:https://github.com/goodfire-ai/r1-interpretability
推理模型的內部結構
本次研究團隊分享了兩個最先進的開源稀疏自動編碼器 (SAE)。
研究人員的早期實驗表明,R1與非推理語言模型在本質上有所不同,并且需要一些新的見解來理解它。
由于R1是一個非常大的模型,因此對于大多數獨立研究者來說本地運行很困難,團隊上傳了包含每個特征的最大激活示例的SQL數據庫。
本次分享的SAE已經學習了許多能夠重建推理模型核心行為的特性,例如回溯。
首先展示的是通用推理SAE中的5個精選特性(比如研究團隊命名為Feature 15204),分別看一下:
回溯:當模型識別出其推理中的錯誤并明確糾正自身時的特性。下圖中的「wait...not」表明模型意識到錯誤,然后回溯并糾正。
自引用:模型在響應中引用其先前的陳述或分析時所具備的功能。下圖中的「earlier...previously」等。
句子關于子集和子序列之后的時期:在模型引用了子集或子序列后觸發的功能。
需要跟蹤的實體:用于標識模型需要跟蹤的實體的功能。比如下圖中「beacon 4、section 3」等表明模型正在跟蹤實體。
在多步驟計算的結果之前:在多步驟計算結果之前觸發的功能。比如下圖中各個公式計算前觸發的「空格」。
推理機制可解釋性
如果想要「解釋」推理模型的內部機制,目前有辦法嗎?
研究團隊構建了一個工具:通過逆向工程神經網絡的內部組件來科學地理解它們如何處理信息。
關于這一領域的最新研究,比如有Anthropic在Claude中的電路追蹤研究,揭示了從心算到幻覺等模型行為背后的計算路徑和特征。
Claude做心算時思維過程中復雜而平行的路徑
發展這種更深層次的理解,對于科學進步以及確保這些日益強大的系統可靠且符合人類意圖至關重要。
作為這一使命的一部分,為生成式AI能力的前沿構建可解釋性工具是至關重要的。
雖然SAE并不能解決推理機制可解釋性的全部問題,但它們仍然是當今研究模型推理機制工具箱中的核心「武器」。
無監督可解釋性技術的進一步發展最終可能允許更可靠的對齊、按需增強或抑制特定推理能力,甚至在不破壞整體模型性能的情況下糾正特定故障模式。
如果能實現這一愿景,也許對于人類現在還是「黑箱」的大模型會有真正被理解的一天。
為DeepSeek-R1開發的SAE
團隊為DeepSeek-R1發布了兩個SAE:
第一個是在自定義推理數據集上使用R1的激活進行訓練的(開源了這個數據集);
第二個使用了OpenR1-Math,這是一個用于數學推理的大規模數據集。
這些數據集使得能夠發現R1用來回答那些考驗其推理能力的難題時所使用的特征。
在671B參數下,未蒸餾的R1模型在大規模運行時是一個工程挑戰。
使用DataMapPlot創建了通用推理SAE特征的交互式UMAP可視化的特征圖。
UMAP (Uniform Manifold Approximation and Projection for Dimension Reduction) 是一種用于降維的算法和工具。它基于流形學習和拓撲數據分析的數學理論。
UMAP將高維度的數據(有很多特征或變量的數據)映射到低維度空間(通常是 2 維或 3 維),以便于可視化和分析。
關于引導R1的兩個初步見解
雖然還沒有系統地研究這些特征的出現頻率或原因,但這里想分享兩個關于引導R1的見解,這些是在非推理模型中沒有遇到過的。
在「好吧,用戶問了一個關于……」之后進行引導
通常會從模型響應的第一個token開始進行引導。
然而,直接在R1思考鏈條的開始階段進行引導是無效的。相反,需要等到模型以類似「好吧,用戶問了一個關于……」這樣的話語開始響應之后,才能有效地進行引導。
在這種「響應前綴」的末尾,存在注意力匯聚(attention sinks)的現象,即某些token的平均激活強度遠高于正常水平。
通常情況下,注意力匯聚會出現在模型響應的開始階段。這表明,R1在開始響應之前并沒有真正識別出自己進入了「真實的響應」階段,直到「好吧……」這個前綴出現。
研究人員最后囤點,像上面這樣的短語在R1訓練時的推理軌跡中非常常見,因此模型實際上將其視為提示的一部分。(類似的前綴在R1的推理軌跡中極為常見:超過95%的英語推理軌跡都以「好吧」開頭)。
在提示(包括這個思考軌跡的前綴)、思考軌跡和助手的響應之間,特征分布發生了顯著的變化。
這種微妙的、不直觀的R1內部過程特征表明,最初對外部用戶來說直觀的概念邊界,可能并不完全符合模型自身所使用的邊界。
引導示例#1,在數學問題中交換運算符,比如下圖將times變成了divide。
過度引導R1會導致其恢復原來的行為
在引導模型時,我們通過調整所操控特征的強度,從而控制該特征對下游模型輸出的顯著性。
例如,如果增加一個表示「狗」的特征的激活強度,那么模型的輸出會更多地與狗相關。
如果過度引導,通過不斷增加這個特征的激活強度,通常會觀察到模型越來越專注于狗,直到其輸出變得不連貫。
然而,在對R1進行某些特征的引導時,發現過度引導反而會讓模型恢復到原始行為中去。
引導示例#2(減少思考時間)
研究者初步猜想是,當模型內部的激活狀態受到過度干擾時,它會隱性地察覺到一種困惑或不連貫的狀態,從而停下來進行調整。
為什么這種「重新平衡」效應會特別出現在推理模型中?
研究人員認為,這可能與它們的訓練方式有關,訓練過程可能促使模型對自身內部狀態有更高的隱性「察覺」。
從經驗上看,推理模型在處理難題時,如果某條推理路徑行不通,常常會回溯并嘗試其他方法,這暗示它們在某種程度上能「感知」到自己何時「迷路」了。
如果這種現象是推理模型的普遍特性,那么試圖改變模型行為——比如抑制不誠實的回答——可能需要更復雜的技術,因為模型可能會找到繞過修改的方法。
為什么這很重要
推理機制可解釋性通過深入研究模型如何生成回答,可以幫我們:
更好地了解模型的能力和局限性
識別、監控和修復意外行為或失敗模式
開發更精準的安全干預措施
提升用戶對模型的透明度和信任
Goodfire此次開源的是針對R1的SAE,他們很期待看到社區如何基于這些成果進一步發展,開發新的技術來理解和對齊強大的AI系統。
隨著推理模型的能力和應用不斷增強,像這樣的工具將對確保模型的可靠性、透明度,以及與人類意圖的一致性起到關鍵作用。
參考資料:
https://www.goodfire.ai/blog/under-the-hood-of-a-reasoning-model
https://x.com/GoodfireAI/status/1912217312566137335
https://github.com/goodfire-ai/r1-interpretability
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.