網易首頁 > 網易號 > 正文申請入駐

AI“黑盒子”被打開了！Anthropic連發兩篇論文：用AI“顯微鏡”追蹤大模型思維

2025-03-28 12:19:09　來源: 學術頭條

北京舉報

分享至

人工智能（AI）模型是訓練出來的，而不是直接編程出來的，因此它們就像一個“黑盒子”，我們并不了解它們是如何完成大部分事情的。

了解大語言模型（LLM）是如何思考的，將有助于我們更好地理解它們的能力，同時也有助于我們確保它們正在做我們希望它們做的事情。

例如，AI 可以一步一步地寫出它的推理過程。這是否代表它得到答案的實際步驟，還是它有時是在為既定的結論編造一個合理的論據？

今天，大模型明星公司 Anthropic 在理解 AI「黑盒子」如何思考方面邁出了重要一步——他們提出了一種新的可解釋性方法，讓我們能夠追蹤 AI 模型（復雜且令人驚訝的）思維。

他們從神經科學領域汲取靈感，并試圖構建一種 AI「顯微鏡」，讓我們能夠識別 AI 的活動模式和信息的流動。在最新發表的兩篇論文中，他們分享了AI「顯微鏡」開發上的進展以及其在“AI 生物學”中的應用。

在第一篇論文中，他們擴展了之前在模型內部定位可解釋的概念（特征）的工作，將那些概念連接成計算“回路”，揭示了將輸入 Claude 的詞語轉化為輸出的詞語的路徑中的部分。

論文鏈接：

https://transformer-circuits.pub/2025/attribution-graphs/methods.html

在第二篇論文中，他們對 Claude 3.5 Haiku 進行了深入研究，對 10 個關鍵模型行為中的簡單任務進行了研究。他們發現，有證據表明 AI 聊天助手 Claude 會提前計劃好要說的話，并通過一些手段來達到這一目的。這有力地證明，盡管模型接受的訓練是一次輸出一個詞，但它們可能會在更長的時間跨度上進行思考。

論文鏈接：

https://transformer-circuits.pub/2025/attribution-graphs/biology.html

Anthropic 團隊表示，這些發現代表著人們在理解 AI 系統并確保其可靠性的目標取得了重大進展，同時也在其他領域具有潛在價值：例如，可解釋性技術在醫學影像和基因組學等領域得到了應用，因為剖析為科學應用訓練的模型的內部機制，可以揭示關于科學的新的見解。

當然，這一方法也存在一些局限性。例如。即使在簡短的提示下，這一方法也只捕捉到 Claude 所執行的總計算量的一小部分，而他們看到的機制可能基于工具存在的一些偏差，并不反映底層模型的真實情況。

此外，即使是在只有幾十個單詞的提示下，理解觀察到的回路也需要幾個小時的人類努力。要擴展到支持模型使用的復雜思維鏈的數千個單詞，還需要進一步改進方法以及（也許在 AI 的幫助下）如何理所觀察到的東西。

Claude 是如何實現多語言的？

Claude 可以流利地說幾十種語言——英語、法語、中文和菲律賓語。這種多語言能力是如何工作的？是否存在一個獨立的“法語 Claude”和“中文 Claude”并行運行，各自以自己的語言響應請求？或者在其內部存在某種跨語言的內核？

圖｜英語、法語和漢語都有共同的特征，這表明概念具有一定程度的普遍性。

最近對較小型模型的研究表明，不同語言之間存在共享的語法機制。研究團隊通過詢問 Claude 在不同語言中“小對立面”，發現關于小和相反的概念的核心特征被激活，并觸發了一個大概念，這個概念被翻譯成了問題的語言。他們發現，隨著模型規模的增加，共享的回路也增加，與較小模型相比，Claude 3.5 Haiku 在語言之間共享的特征的比例是其兩倍多。

這為一種概念上的普遍性提供了額外的證據——一個共享的抽象空間，其中存在意義，思考可以在被翻譯成特定語言之前發生。更實際地說，它表明 Claude 可以在一種語言中學習某些東西，并在說另一種語言時應用這些知識。研究模型如何在不同的語境中共享其知識，對于理解其 SOTA 推理能力是非常重要的，這些能力可以泛化到許多領域。

Claude計劃它的押韻嗎？

Claude 是如何寫押韻詩的？請看這首小詩：

He saw a carrot and had to grab it, 他看到了一根胡蘿卜，要抓住它， His hunger was like a starving rabbit 他的饑餓就像一只餓極了的兔子

為了寫出第二行，模型必須同時滿足兩個約束：需要押韻（與“grab it”押韻），同時需要有意義（為什么抓胡蘿卜？）。他們猜測 Claude 是逐字逐句地寫作，幾乎沒有太多的預先思考，直到行尾，它會確保選擇一個押韻的詞。因此，他們預計會看到一個具有并行路徑的回路，一條路徑確保最后一個詞有意義，另一條路徑確保押韻。

相反，他們發現 Claude 會提前規劃。在開始第二行之前，它就開始“思考”與“抓住它”押韻的可能相關詞匯。然后，帶著這些計劃，它寫出一行在計劃中的詞來結尾。

圖｜Claude 如何完成一首兩行詩。在沒有任何干預的情況下（上半部分），模型事先規劃了第二行末尾的韻腳“兔子”（rabbit）。當研究人員抑制“rabbit”的概念時（中間部分），模型會使用另一個計劃好的韻腳。當研究人員注入“綠色”（green）概念時（下半部分），模型就會為這個完全不同的結尾做出計劃。

為了理解這種規劃機制在實際中的工作原理，他們進行了一項實驗，該實驗受到神經科學家研究大腦功能方式的啟發，即通過定位和改變大腦特定部分的神經活動（例如使用電流或磁場）。他們修改了代表“rabbit”概念的 Claude 內部狀態的部分。當他們減去“rabbit”部分，讓 Claude 繼續寫下去時，它寫出了以“habit”結尾的新句子，另一個合理的結尾。他們還可以在那個點注入“green”的概念，讓 Claude 寫出了一個以“green”結尾合理（但不再押韻）的句子。這證明了規劃能力和適應性——當預期結果改變時，Claude 可以修改其方法。

心算

Claude 不是被被設計成計算器的——它是基于文本進行訓練的，沒有配備數學算法。然而，它卻能在“腦海中”正確地“計算”數字。一個被訓練來預測序列中下一個單詞的系統是如何學會計算，比如“36+59”，而不需要寫出每個步驟的呢？

也許答案并不有趣：模型可能已經記住了大量的加法表，并簡單地輸出任何給定總和的答案，因為該答案在其訓練數據中。另一種可能是，它遵循我們在學校學習的傳統手寫加法算法。

相反，研究團隊發現 Claude 采用了多條并行工作的計算路徑。一條路徑計算答案的粗略近似值，另一條則專注于精確確定總和的最后一位數字。這些路徑相互交互和結合，以產生最終答案。加法是一種簡單的行為，但了解它在如此詳細的層面上是如何工作的，涉及近似和精確策略的混合，也許可以幫助了解 Claude 如何處理更復雜問題。

圖｜Claude 做心算時思維過程中復雜的并行路徑。

有趣的是，Claude 似乎沒有意識到它在訓練期間學到的復雜“心算”策略。如果你問它是如何計算出 36+59 等于 95 的，它會描述涉及進位的標準算法。這可能反映了模型通過模擬人們所寫的數學解釋來學習解釋數學，但它必須學會直接在“腦海”進行數學運算，不需要任何提示，并發展出自己內部的策略來完成這一任務。

圖｜Claude 使用了標準算法計算兩個數字相加。

Claude 的解釋總是可信的嗎？

近期發布的模型，如 Claude 3.7 Sonnet，可以在給出最終答案之前仔細思考一段時間。通常這種擴展思考會給出更好的答案，但有時這種“思維鏈”最終會產生誤導；Claude 有時會編造看起來合理的步驟以達到它想要的目的。從可靠性的角度來看，問題在于 Claude 的“偽造”推理可能非常令人信服。研究團隊探索了一種可解釋性技術，可以幫助區分“可信的”推理和“不可信的”推理。

當被要求解決一個需要計算 0.64 的平方根的問題時，Claude 進行一個可信的思維鏈，展示了計算 64 的平方根的中間步驟。但當被要求計算一個難以輕易計算的較大數字的余弦值時，Claude 有時會進行哲學家 Harry Frankfurt 所說的“胡說八道”——只是隨便給出一個答案，不管它是對是錯。盡管它聲稱已經運行了計算，但這一可解釋性技術并沒有發現任何證據表明計算發生。更有趣的是，當給出關于答案的提示時，Claude 有時會反向工作，找到導致那個目標的中間步驟，從而顯示出一種有動機的推理。

圖｜當 Claude 被問到一個較容易的問題和一個較難的問題時，可信的推理和動機推理（不可信）的例子。

追蹤 Claude 的實際內部推理能力——而不僅僅是它聲稱正在做的事情——為審計 AI 系統開辟了新的可能性。在最近發表的一項獨立實驗中，他們研究了 Claude 的一個變種，該變種被訓練追求一個隱藏的目標：平息獎勵模型（用于通過獎勵期望行為來訓練語言模型的輔助模型）中的偏見。盡管當直接被問及時，該模型不愿意透露這個目標，但這一可解釋性方法揭示了平息偏見的特征。這表明，隨著未來的改進，這一方法可能有助于識別那些僅從模型響應中不明顯的問題“思維過程”。

多步推理

正如研究團隊上面討論的，語言模型回答復雜問題的一種方式可能是簡單地通過記憶答案。例如，如果被問及“達拉斯所在的州的首府是什么？”一個“機械記憶”的模型可能只需學會輸出“奧斯汀”，而不知道達拉斯、德克薩斯州和奧斯汀之間的關系。例如，它可能在訓練期間看到了完全相同的問題及其答案。

然而，研究揭示了在 Claude 內部發生著更為復雜的事情。當他們向 Claude 提出需要多步推理的問題時，他們可以識別出 Claude 思維過程中的中間概念步驟。在達拉斯的例子中，他們觀察到 Claude 首先激活代表“達拉斯在德克薩斯州”的特征，然后將其與一個單獨的概念聯系起來，表明“德克薩斯州的州首府是奧斯汀”。換句話說，該模型是在將獨立的事實結合起來得出答案，而不是簡單地重復記憶中的回應。

圖｜要完成這句話的答案，Claude 需要執行多個推理步驟，首先提取達拉斯所在的州，然后確定其首府。

這一方法允許他們人為地改變中間步驟，并觀察它如何影響 Claude 的回答。例如，在上面的例子中，他們可以干預并交換“德克薩斯州”的概念為“加利福尼亞州”的概念；當他們這樣做時，模型的輸出從“奧斯汀”變為“薩克拉門托”。這表明模型正在使用中間步驟來確定其答案。

幻覺

為什么語言模型有時會“幻覺”——也就是說，編造信息？從基本層面來看，語言模型訓練鼓勵了幻覺：模型總是需要給出下一個詞的猜測。從這個角度來看，主要挑戰是如何讓模型不產生幻覺。像 Claude 這樣的模型在反幻覺訓練方面相對成功（盡管并不完美）；如果它們不知道答案，它們通常會拒絕回答問題，而不是猜測。

研究結果表明，在 Claude 中，拒絕回答是默認行為：研究團隊發現了一個默認開啟的回路，它會導致模型聲稱它沒有足夠的信息來回答任何給定的問題。然而，當模型被問及它所熟悉的事物時——比如籃球運動員邁克爾·喬丹——一個代表“已知實體”的競爭性特征會被激活并抑制這個默認回路（也可以參考這篇最近的論文以獲取相關發現）。這使得 Claude 在知道答案時能夠回答問題。相比之下，當被問及一個未知實體（“邁克爾·巴金”）時，它會拒絕回答。

圖｜左圖：Claude 在回答一個關于已知實體（籃球運動員邁克爾-喬丹）的問題時，“已知答案”概念抑制了其默認的拒絕。右圖：Claude 拒絕回答關于未知人物（邁克爾-巴特金）的問題。

通過干預模型并激活“已知答案”功能（或抑制“未知姓名”或“無法回答”功能），他們能夠導致模型（相當一致地！）產生邁克爾·巴金下棋的幻覺。

有時，這種“已知答案”回路的“誤操作”會自然發生，而無需干預，從而導致幻覺。研究表明，當 Claude 識別出一個名字但對該人一無所知時，這種誤操作可能會發生。在這種情況下，“已知實體”功能可能仍然會激活，然后抑制默認的“不知道”功能——在這種情況下，錯誤地。一旦模型決定需要回答問題，它就會開始編造：生成一個看似合理但實際上并不真實的回答。

越獄

破解策略旨在繞過安全防護措施，使模型產生開發者未意圖產生的輸出，有時甚至是有害的輸出。他們研究了一種破解方法，誘使模型產生有關制造炸彈的輸出。破解方法有很多種，但在這個例子中，具體方法涉及讓模型解讀一個隱藏的代碼，將句子“Babies Outlive Mustard Block”中每個單詞的首字母組合起來（B-O-M-B），然后根據這個信息采取行動。這對模型來說足夠令它困惑，以至于它被誘騙產生了它原本不會產生的輸出。

圖｜Claude 在被騙說出“炸彈”后，開始給出制作炸彈的指導。

為什么這對模型來說如此令人困惑？為什么它會繼續寫下句子，產生制造炸彈的指示？

他們發現這部分是由語法連貫性和安全機制之間的緊張關系造成的。一旦 Claude 開始一個句子，許多特征“壓迫”它保持語法和語義的連貫性，并繼續將句子進行到底。即使它檢測到實際上應該拒絕，也是如此。

在案例研究中，在模型無意中拼寫出“BOMB”并開始提供指令后，他們觀察到其后續輸出受到了促進正確語法和自我一致性的特征的影響。這些特征通常非常有幫助，但在這個案例中卻成為了模型的致命弱點。

模型只有在完成一個語法連貫的句子（從而滿足推動其向連貫性發展的特征的壓力）之后才設法轉向拒絕。它利用新句子作為機會，給出之前未能給出的拒絕：“然而，我無法提供詳細的指令...”。

圖｜越獄：Claude 被提示談論炸彈，并開始這樣做，但當到達一個語法正確的句子時，它拒絕了。

整理：錦鯉

如需轉載或投稿，請直接在公眾號內留言

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.