網易首頁 > 網易號 > 正文申請入駐

Anthropic用AI顯微鏡扒開Claude大腦結構，揭示語言模型行為機制

2025-03-28 20:53:53　來源: DeepTech深科技

北京舉報

分享至

當地時間 3 月 27 日，Anthropic 在一篇技術論文中介紹了一種名為“通路追蹤”的技術，該技術讓人們能夠逐步追蹤大語言模型內部的決策過程。

（來源：Anthropic）

研究中，Anthropic 采用通路追蹤技術，來觀察其大語言模型 Claude 3.5 Haiku 在執行各種任務時的表現。

通路，可以將模型的不同組件連接在一起。2024 年，Anthropic 發現 Claude 中的某些組件與現實世界中的概念相對應。基于上述發現以及其他已有成果，Anthropic 在本次論文中揭示了各個組件之間的一些聯系。

論文中，Anthropic 介紹了一種揭示語言模型行為背后機制的方法。其通過在替代模型中追蹤到的各個計算步驟，來生成模型在目標提示詞上計算過程的圖表描述。

這種替代模型使用一個更易解釋的組件（Anthropic 將其稱之為跨層轉碼器），來替換原始模型中待模擬的部分（Anthropic 將其稱之為多層感知器）。

與此同時，Anthropic 還開發了一套可視化和驗證工具，以用于研究支持 18 層語言模型的簡單行為的“歸因圖”。

（來源：Anthropic）

讓跨層轉碼器實現帕累托改進

據了解，深度學習模型通過分布在許多計算單元上的一系列轉換來產生輸出。

此前，業內曾嘗試采取機制可解釋性的方法，來使用那些人類可以理解的語言來描述這些轉變。

Anthropic 團隊的方法，則遵循兩步走的策略。

第一步，識別出模型在其計算過程中所使用的特征，也就是那些具有可解釋性的基本組成部分。

第二部，描述這些特征通過相互作用來生成模型輸出的過程，也就是描述其運行機制。

Anthropic 認為，一種符合直覺的方法是將模型的原始神經元作為基本組成部分。

正是利用這種方法，此前已有研究成功識別了視覺模型中的通路，這些通路是由“似乎代表有意義的視覺概念”的神經元構建的。

然而，模型神經元通常是多義的，并混合著許多不相關的概念。

在 AI 領域，多義性通常指一個詞語、句子或數據在不同語境下可能具有多種含義或解釋的現象。業內認為，多義性的原因之一可能是由于疊加現象的存在，由于模型需要表征的概念數量超過神經元數量，因此它們不得不將概念表征分散到多個神經元中。

神經網絡的基本計算單元（即神經元），與有意義概念之間的這種不匹配，已經被證明是影響機制解釋研究進展的主要障礙，尤其在理解語言模型時更是如此。

近年來，稀疏編碼模型比如稀疏自編碼器、轉碼器和交叉編碼器，已被用于識別疊加表征中可解釋特征。

這些方法能將模型激活分解為稀疏活躍的組件（即特征）。而在許多情況下，這些特征恰好對應著人類可以理解的概念。

盡管當前的稀疏編碼方法在識別特征上并不完美，但其所產生的結果很容易進行解釋，這正是 Anthropic 研究由這些特征組成的通路的原因。

論文中，Anthropic 描述了其所使用的方法，所涉及到的關鍵方法論如下。

Anthropic 采用轉碼器的變體來提取特征，這種方法能構建一個可解釋的替代模型，以便作為原始模型的代理來開展研究。更重要的是，該方法讓 Anthropic 能夠直接分析特征與特征之間的交互作用。

Anthropic 的分析基于跨層轉碼器，其中每個特征從一層殘差流中讀取，并貢獻給原始模型的所有后續多層感知器層的輸出。

Anthropic 使用模型所學習到的跨層轉碼器特征，來替代模型的多層感知器，從而能在大約一半的情況下匹配底層模型的輸出。

論文中，Anthropic 還重點介紹了“歸因圖”。歸因圖描述了模型在特定提示下為目標 token 生成輸出的步驟。歸因圖中的節點表示活動特征、提示中的標記嵌入、重構誤差和輸出對數幾率。圖中的邊表示節點之間的線性效應，因此每個特征的活動是其輸入邊的和。

在實驗設置上，Anthropic 的設計方案如下：對于特定的輸入，特征之間的直接相互作用是線性的。更重要的是，Anthropic 凍結了注意力模式和歸一化分母，并使用轉碼器來實現這種線性關系。此外，特征之間也存在間接相互作用，這些間接作用由其他特征介導，并對應于多步驟的路徑。

盡管 Anthropic 提取的特征具有稀疏性，但在處理特定輸入時活躍特征的數量仍然過多，這就導致難以直接解讀生成的圖譜。

為了降低復雜度，Anthropic 通過識別對于模型在特定 token 位置輸出貢獻最大的節點和邊，來進行圖譜剪枝。這種方法使其能夠為任意輸入去生成稀疏、可解釋的模型計算圖譜。

與此同時，Anthropic 還設計了一個交互式界面，以用于探索歸因圖及其所包含的特征，以便能夠快速識別和突出顯示其中的關鍵機制。

需要指出的是在研究神經通路的時候，Anthropic 采取的是間接路徑。由于替代模型采用的機制可能與底層原模型存在差異，因此對于歸因圖中發現的機制進行驗證至關重要。

為此，Anthropic 通過擾動實驗開展驗證。具體而言：當沿特定特征方向施加擾動時，通過測量其他特征激活的變化程度，來檢驗這些變化是否與歸因圖的預測一致。

實驗結果表明：盡管存在個別偏差，但是跨不同輸入文本的擾動實驗結果，總體上與歸因圖具有定性一致性。

雖然本次研究聚焦于研究單個提示的歸因圖，但是本次方法也使 Anthropic 能夠直接研究替換模型的權重。

此外，Anthropic 還針對跨層轉碼器及其生成的歸因圖進行了定量評估。結果證明：相比神經元分析和單層轉碼器，跨層轉碼器實現了帕累托改進。帕累托改進指的是一種“零損失”狀態，即通過優化資源配置，達到一種相對理想的平衡。

（來源：Anthropic）

實現逆向工程框架

在論文中，Anthropic 還介紹了其所提出的神經網絡逆向工程方法，這一方法包含四個基本步驟：組件分解、組件特征描述、組件交互行為表征、描述驗證。

論文中，Anthropic 通過以下方法實現了逆向工程框架：

首先是分解階段：訓練具有稀疏特征的跨層轉碼器以便替代多層感知器模塊；

其次是描述階段：根據特征激活的數據集樣本進行特征描述；

接著是交互分析階段：利用歸因圖表征特定輸入提示下的特征交互；

最后是驗證階段：通過因果導向干預實驗驗證所得假設。

研究中，Anthropic 并沒有使用原始神經元。雖然神經元的最高激活值通?？山忉?，但是對于較低激活值的來說，它們往往難以進行解讀。

理論上，可以通過設定閾值將神經元激活限制在可解釋區間，但是本次研究發現：與轉碼器或跨層轉碼器相比，這種閾值處理會顯著損害模型性能。

這意味著經過訓練的替代層，能在可解釋性、L0 稀疏度和均方誤差三個維度上，能夠實現更好的帕累托改進。

另外，Anthropic 采用線性直接效應、而非采用非線性歸因方法或消融方法來計算特征間交互作用。

盡管已有大量研究探討非線性神經網絡中的歸因方法，但是即使在最嚴謹的非線性場景 credit 分配方案中，仍然存在一些固有缺陷。

由于 Anthropic 的目標是希望能夠清晰地推斷大模型的機制原理，因此其通過以下設計來實現條件線性，即在固定注意力模式與歸一化分母的前提下，確保前一層特征與下一層預激活特征間的直接交互能夠呈現出線性關系。

這種設計方案可以將問題分解為兩個部分：可以通過機制化方法進行嚴謹理解的部分，以及仍需探索的另一部分。

值得注意的是，實現這種線性直接效應的關鍵前提，正是 Anthropic 此前所采用轉碼器的技術決策。

為了實現更加通用的解決方案，Anthropic 采取了以下做法：

首先，其針對注意力路徑進行整合處理。歸因圖中的每條邊都代表一對特征間的直接交互作用，其數值是所有可能直接交互路徑的加總。在這些路徑中，有些主要通過殘差流進行傳遞，另一些則經由注意力頭進行傳遞。在本次研究中，Anthropic 暫未區分這些路徑類型，因此這種做法雖然會丟失大量有趣的結構信息，但是能夠顯著簡化分析的復雜度。

其次，其忽略了 QK 通路（QK-circuit）。在 AI 領域，QK 通路是用于解析注意力機制運作原理的關鍵概念。Anthropic 根據框架將理解 Transformer 的過程分為兩部分。一方面，其所關注的問題是：在特定注意力頭或注意力頭集合條件下，到底有著怎樣的特征-特征交互？然而這也留下了另一個問題：為什么注意力頭會關注不同的部分？關于這一問題，Anthropic 尚未對其進行研究。

再次，Anthropic 僅使用稀疏懲罰和重建損失來進行交叉編碼器訓練。盡管其最終目標是找到具有稀疏且可解釋的邊的通路，但在一個機制上忠實于底層模型的替換模型中，Anthropic 并未針對這些目標進行訓練。

“這只是冰山一角”

對于本次研究，美國布朗大學研究大語言模型的杰克·梅羅洛（Jack Merullo）表示：“我認為這是一項非?？岬墓ぷ?，從方法論上講這是一項非常重要的進步。”

以色列特拉維夫大學的埃登·比蘭（Eden Biran）也對此表示贊同：“在像 Claude 這樣的大型先進模型中找到通路是一項不簡單的工程壯舉，這表明通路可以擴展，并且可能是一種解釋語言模型的良好方法。”

需要說明的是，跨層轉碼器需要投入較高的前期成本，但這些成本可以分攤到 Anthropic 后續的通路發現研究中。

Anthropic 指出，這種方法對于通路可解釋性和簡約性的提升，足以證明其具備投資價值。盡管如此，其表示業內人士仍然可以選用單層轉碼器甚至多層感知器神經元等替代方案，因為這些方法同樣能產生有價值的信息。與此同時，Anthropic 認為未來很可能出現優于訓練跨層轉碼器的新方法。

為幫助業內人士更好地復現本次成果，Anthropic 分享了跨層轉碼器實施指南、剪枝方法細節，以及支持交互式圖形分析界面的前端代碼。

Anthropic 的研究人員、本次論文的通訊作者約書亞·巴特森（Joshua Batson）說道：“這只是冰山一角。Anthropic 可能只看到了事情的一小部分，但這已經足以讓我們看到令人難以置信的結構了。”

（來源：https://www.linkedin.com/in/joshua-batson-63ab9a82/）

由于人們對于大語言模型依舊知之甚少，因此任何新的見解都是向前邁出的一大步。而深入了解這些模型在底層到底是如何工作的，將讓人們能夠設計和訓練更好更強大的模型。

不過，這并不意味著 Anthropic 已經找到了模型的所有組成部分。有些地方已經被發現，但很多其他地方仍不清楚，這就像顯微鏡的失真一樣。而且，人類研究人員需要花費數小時，才能追蹤到對于哪怕是非常簡短的提示的反應。更重要的是，大語言模型可以執行大量不同的任務，而 Anthropic 的這一系列研究目前只研究了其中的 10 個任務。

雖然通路追蹤可用于觀察大語言模型內部的結構，但它無法揭示這些結構在訓練過程中是如何以及為何形成的機制。不過，Anthropic 的這項研究標志著一個新起點的開始，讓人們終于有望找到模型到底是如何工作的真實證據。

參考資料：

https://transformer-circuits.pub/2025/attribution-graphs/methods.html#discussion

https://www.technologyreview.com/2025/03/27/1113916/anthropic-can-now-track-the-bizarre-inner-workings-of-a-large-language-model/

運營/排版：何晨龍

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.