99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Anthropic首次切開Claude大腦,「AI黑箱」徹底破解?心算詭異思考過程曝光

0
分享至


新智元報道

編輯:定慧 犀牛

【新智元導讀】AI的運作始終籠罩著一層神秘的「黑箱」迷霧。這種不透明讓AI有時會「胡說八道」,甚至故意撒謊。Anthropic剛剛推出了一項突破性研究,用類似大腦掃描的技術,深入Claude 3.5 Haiku的「腦子」,揭開了它運行的一些秘密。

AI的性能愈發強大,一個新模型可能前一天還是SOTA(最佳模型),第二天就被拍了下去。

不過,這些強大的AI上空總有一團迷霧籠罩。

那就是:他們到底是怎么找到答案的?

其整個運作機理就像個「黑箱子」。

我們知道模型輸入的是什么提示詞,也能看到它們輸出的結果,但中間的過程,就連開發這些AI的人也不知道。

簡直是個謎。

這種不透明帶來了各種麻煩。

比如,我們很難預測模型什么時候會「胡說八道」,也就是出現所謂的「幻覺」。

更可怕的是,有些情況下,模型會撒謊,甚至是故意騙人!

不過,就在剛剛,Anthropic提出了一條解決這些問題的新方法。


博客地址:https://www.anthropic.com/research/tracing-thoughts-language-model

簡單說,Anthropic的研究員造了個類似于fMRI的東西——就像神經科學家掃描人類的大腦,試圖找出哪些區域在認知過程中發揮了最大作用一樣。

他們把這個類似fMRI的工具用在了Anthropic的Claude 3.5 Haiku模型上,解開了Claude(可能還有大多數LLM)如何工作的幾個關鍵謎團。

他們的技術博客里有個超級有意思的例子。

Claude居然能「心算」36+59。

純語言是怎么做到解決數學符號問題的?

Anthropic研究人員發現,Claude用的是多條并行計算路徑。

如下圖所示,一條計算路徑粗略估算答案:圖中的淡藍色上部路徑,算出36+59的范圍是88-97。

另一條計算路徑精確算出末位數:圖中紫色下部路徑,然后通過尾數5,兩條路徑互動得出最終結果。


加法雖簡單,但了解這種粗略與精確結合的策略,或許能揭示Claude處理復雜問題的思路。

有趣的是,Claude似乎不知道自己訓練中學到的復雜「心算」策略。

問它是怎么算出36+59=95的,它會描述標準的進位算法。

這和研究人員深入模型觀察到的計算路徑完全相反。

這可能是因為它想要模仿人類的數學解釋,但實際心算時,作為一個「語言模型」只能靠自己慢慢摸索。

反而促使它發展出獨特的計算策略。

研究發現,雖然像Claude這樣的模型最初只是被訓練用來預測下一個詞,但在這個過程中,Claude學會了做一些長遠的規劃。

比如,讓它寫首詩時,Claude會先挑出跟主題相關又能押韻的詞,然后倒推回去,構造出以這些詞結尾的句子。

看看這首英文小詩:

He saw a carrot and had tograb it, His hunger was like a starvingrabbit

第二行要同時滿足兩個條件:押韻(grab it到rabbit),還要講得通(他為什么看到并且想抓胡蘿卜)。

研究人員最初猜測Claude是逐詞寫到第二句話的最后再挑個押韻詞。

結果卻是,Claude會提前規劃!

在寫第二行前,它就「想」好了和grab、carrot的相關詞rabbit,然后帶著計劃寫出第二行,并以目標詞rabbit結尾。


為了驗證上述是否是偶然情況,研究人員模仿神經科學家研究大腦的方法,通過改變Claude內部狀態的「rabbit」概念來驗證。

如果去掉「rabbit」,它會寫出以「habbit」結尾的新行。


這展示了它的規劃能力和適應性——目標變了,它能調整策略。

他們還發現,Claude是多語言訓練的,能流利地說幾十種語言,從英語、法語到中文、甚至Tagalog語。

這種多語言能力是怎么實現的?

是Claude內部分別有獨立的「法語Claude」和「中文Claude」兩個「本地學家」分開運行并獨立回應用戶提問嗎?

還是有一些懂得多門外語的「語言學家」核心?

研究表明,它并不是每種語言的推理都有完全獨立的模塊。

相反,多語言的通用概念被嵌在同一組神經元里,模型似乎在這個概念空間里「推理」,然后再將輸出轉換為適當的語言。

最近,對較小模型的研究已顯示跨語言的語法機制有共通之處。

通過讓Claude回答不同語言中「小的反義詞是什么」,研究人員發現代表「小」和「相反」概念的核心特征會被激活,觸發「大」的概念,再翻譯成提問語言。


共享特征存在于英語、法語和漢語中,表明在概念上存在一定程度的普遍性

模型越大,這種共享概念越多,Claude 3.5 Haiku跨語言共享的特征比例是小模型的兩倍多。

這進一步證明了某種概念通用性——一個共享的抽象空間,在這里意義存在,思維發生,然后才翻譯成具體語言。

更實際地說,這意味著Claude能用一種語言學到的知識,應用到另一種語言。

研究模型如何跨場景共享知識,對理解它的高級推理能力(泛化)至關重要。

研究人員還發現,Claude會為了討好用戶而在思維鏈上撒謊。

比如,問它一個用不著推理的簡單問題,它還是會編個假的推理過程出來。

Anthropic的研究員Josh Batson說:「雖然它聲稱自己算了一遍,但我們的解讀技術完全找不到任何證據證明它真的算了。」

Batson表示,多虧了他和其他科學家開發的這些探秘LLM「大腦」的技術,使得「機制可解釋性」領域進展的很快。

「我覺得再過一兩年,我們對這些模型思考方式的了解會超過對人類思維的了解,」Batson說,「因為我們可以做我們想做的所有實驗。」

不過,Anthropic也承認這種方法有其局限性。

Anthropic在這個新研究中訓練了一個叫做跨層轉碼器(CLT)的新模型,該模型使用可解釋的特征集而不是單個神經元的權重來工作。

這使得研究人員能夠更好地理解模型的工作方式,因為他們可以識別出一組傾向于一起工作的「神經元電路」。

Batson解釋說:「我們的方法將模型分解,得到了新的、不同于原始神經元的片段,這意味著我們可以看到不同部分如何扮演不同的角色。它還允許研究人員追蹤整個推理過程通過網絡的每一層。」

但這些只是對復雜模型(如Claude)內部運作的近似。

在CLT找出的電路之外,可能還有些神經元在某些輸出中起微妙但關鍵的作用。

CLT也抓不住LLM運作的一個核心——「注意力機制」,也就是模型在生成輸出時,對輸入提示詞的不同部分賦予不同的重要性。

這種注意力會動態變化,但CLT沒法捕捉這些變化,而這可能在LLM的「思考」中很關鍵。

以下是Anthropic技術博客中的詳細內容。

「黑箱之謎」:能否打開Claude「腦子」,看看里面到底怎么回事

像Claude這樣的LLM并不是人類直接編程造出來的,而是通過海量數據訓練出來的。

在訓練過程中,它們自己學會了解決問題的方法和能力。

這些能力蘊藏在數以千億計的模型參數中,這些方法被編碼在模型為每個輸出的單詞所進行的數十億次計算中。

對于模型外的人類來說,它們就像個黑箱,難以捉摸。


目前沒有人真正清楚這些模型「大部分行為」背后的運作原理。

如果能搞清楚像Claude這樣的模型是怎么「思考」的,我們就能更好地了解它們的能力,也能確保它們按照我們的意圖行事。比如:

  • Claude會說幾十種語言,那它在「腦子里」用的是哪種語言呢(如果有的話)?

  • Claude是下一個詞下一個詞地寫出文本,它是只盯著預測下一個詞,還是會提前規劃?

  • Claude能一步步寫出推理過程,這些解釋是它真實得出答案的步驟,還是有時候只是編了個看似合理的說法來圓場?

Anthropic的研究者們從神經科學領域汲取靈感——畢竟神經科學早就開始研究像人類一樣會思考生物的復雜內心世界。

研究者打造了一種「AI顯微鏡」,來識別大模型內部的活動模式和信息流動。

光靠和AI聊天,能了解的東西有限,畢竟連人類(甚至神經科學家)都搞不清自己大腦的全部細節。

得深入內部去看看。

Anthropic的研究者用兩篇研究論文展示了開發這種「AI顯微鏡」最新進展,以及用「AI顯微鏡」觀察「AI生物學」方面的進展。

第一篇論文描述了一種「電路追蹤」計算圖,從定位模型內部可解釋的「概念」(稱為「特征」),到把這些概念連成計算「電路」。

揭示了Claude是如何將輸入詞「轉化」到輸出詞的。


論文地址:https://transformer-circuits.pub/2025/attribution-graphs/methods.html

第二篇論文則深入研究了Claude 3.5 Haiku,對十個關鍵的簡單任務,使用上述提到的「電路追蹤」技術進行了深入地研究。


論文地址:https://transformer-circuits.pub/2025/attribution-graphs/biology.html#dives-multilingual

下面將帶你速通「AI顯微鏡」研究中最驚艷的「AI生物學」發現。

「AI生物學」之旅

Claude的解釋總是可信嗎?
新發布的Claude 3.7 Sonnet能在回答前「大聲思考」很久——也就是我們在使用類似DeepSeek-R1、OpenAI-o3等思考模型時經常看到的思考過程。


這往往能提升答案質量,但有時這種「思維鏈CoT」會誤導人。

Claude可能會編出看起來「合理」但實際是「虛假」的步驟。

從可靠性角度看,問題在于它的「虛假的思考過程」很能唬人。

Anthropic的研究者探索了利用「可解釋性」如何區分「真實」和「虛假」推理。

讓Claude算0.64的平方根,它會給出一個真實的思維鏈,特征顯示中間步驟是算64的平方根。

但讓它算一個大數的余弦(它算不準),它有時會胡謅一個答案,甚至聲稱算過了,但我們的「AI顯微鏡」沒找到任何計算證據。

更妙的是,給它一個提示后,它會反向推理,編出通往目標的步驟,展現出一種「動機性推理」——仿佛一種因果倒置。


追蹤Claude的真實內部推理(而非它聲稱的),為審計AI系統開辟了新可能。

在另一實驗中,我們研究了一個被訓練去迎合獎勵模型偏見的Claude變體。

雖然它不愿直接承認這目標,但我們的方法揭示了偏見迎合的特征,表明未來改進后,這種技術或能識別「隱藏的思維過程」。


多步推理
語言模型可能通過記住答案來應對復雜問題。

比如問「達拉斯所在州的首府是哪」,一個「死記硬背」的模型可能會直接輸出「奧斯汀」。

但是模型并不理解達拉斯、德克薩斯和奧斯汀的關系。

但我們發現Claude更聰明。

問需要多步推理的問題時,我們能識別它思考中的中間步驟。

在達拉斯例子中,它先激活「達拉斯在德克薩斯」的特征,再連接到「德克薩斯首府是奧斯汀」的概念,組合獨立事實得出答案,而非死記。


研究人員通過干預中間步驟,發現模型依然能準確應對。

比如把「德克薩斯」換成「加利福尼亞」,答案就從「奧斯汀」變成「薩克拉門托」,證明它確實靠中間步驟來決定答案,而不是靠死記硬背。


幻覺
為什么語言模型會出現「幻覺」——隨意編造信息?

從根本上看,訓練激勵了幻覺:模型總得「猜」下一個詞。

真正的挑戰是如何讓模型不要隨意產生「幻覺」。

Claude的防幻覺訓練相對成功(雖不完美),會拒絕回答不知道的問題,而非胡猜。

研究人員想知道模型是如何實現的,結果發現,Claude默認會拒絕回答。

有個默認一直「開著」的電路,讓它聲稱信息不足。

但問它熟悉的事(如籃球明星邁克爾·喬丹),一個「已知實體」特征會激活,抑制默認電路,讓它回答。

問未知實體(如邁克爾·巴特金),它就拒絕回答。


通過干預,激活「已知答案」特征(或抑制「未知名字」特征,即默認讓模型選擇「Know Answer」那條計算路線),我們能讓Claude幻覺說出「邁克爾·巴特金在下棋」。

有時這種「已知答案」電路會自然誤觸發,導致幻覺,比如認出名字但不知詳情時,錯誤抑制不知道特征,然后胡編一個答案。


越獄
「越獄」是一種提示詞技巧,指的是繞過安全限制的某種提示策略,讓模型輸出開發者不希望甚至有害的內容。

Anthropic研究了一個誘導Claude輸出炸彈(BOMB)制作方法的越獄策略。

方法是讓它解碼句子「Babies Outlive Mustard Block」的首字母(B-O-M-B),然后據此行動。

這讓模型「感到」迷惑,從而讓它輸出了原本不會說的內容。


為什么在這種情況下模型會表現的這么迷惑?

這主要是源于語法連貫性和安全機制的沖突,即模型對連貫性的追求超過了安全機制的要求。

一旦Claude開始輸出一句話,許多特性會「迫使」它保持語法和語義的連貫性,并將這句話說完。

即使它檢測到自己真的應該拒絕時也是如此。


在上述例子中,模型無意中拼出了「BOMB」并開始提供指示后,觀察到其后續輸出受到了促進正確語法和自一致性的功能的影響。

這些功能通常會非常有幫助,但在這個案例中卻成了模型的致命弱點。

某種意義上,這是對于LLM的「社工攻擊」。

模型只有在完成了一個語法連貫的句子后(從而滿足了推動其趨向連貫性的特征的壓力)才設法轉向拒絕。

也就是它在「不得不告訴」你一些事情之后(終于完成上一句話),利用新句子生成的機會,給出了之前未能給出的那種拒絕:「不過,我不能提供詳細的指示……」。

總結一下,以上這些發現不僅僅是在「科學研究」上有趣——它們代表了我們在理解AI系統并確保其可靠性的目標上取得了重大進展。

當然這種方法存在一定的局限性。

即使在簡短、簡單的提示下,「AI顯微鏡」方法也只能捕捉到Claude執行的總計算的一部分。

并且看到的機制可能基于「AI顯微鏡」工具存在一些并不反映底層模型實際情況的偽影——就像模型在心算問題上的前后不一。

從人力的角度,即使是對只有幾十個詞的提示,理解我們所看到的「電路圖」也需要花費幾個小時的人力。

要擴展到支持現代模型使用的復雜思維鏈所需的數千個單詞,需要改進方法以及(可能還需要借助 AI 輔助)如何理解我們所看到的內容。

隨著AI系統的能力迅速增強并在越來越重要的領域中得到應用,像這樣的可解釋性研究是風險最高、回報也最高的投資之一,這是一個重大的科學挑戰。

有可能提供一種獨特的工具來確保AI的透明度。

對模型機制的透明了解使我們能夠檢查它是否與人類價值觀一致——以及它是否值得我們信任。

參考資料:

https://www.anthropic.com/research/tracing-thoughts-language-model

https://fortune.com/2025/03/27/anthropic-ai-breakthrough-claude-llm-black-box/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
李在明當選概率達78%,將成帝王總統

李在明當選概率達78%,將成帝王總統

寰宇大觀察
2025-04-10 19:43:47
泰國拒絕了中國,把800億高鐵訂單交給日本,10年后卻攜款跪求合作

泰國拒絕了中國,把800億高鐵訂單交給日本,10年后卻攜款跪求合作

睡前講故事
2025-04-10 14:58:14
美國讓步他國、施壓中國——東升西降,全球資本市場用腳投票!

美國讓步他國、施壓中國——東升西降,全球資本市場用腳投票!

洞見財經
2025-04-10 20:13:12
前“港姐冠軍”被曝第二度發育!入行9年身材改變驚人

前“港姐冠軍”被曝第二度發育!入行9年身材改變驚人

粵睇先生
2025-04-09 05:00:07
掉粉近40萬!被央視打碼后本人道歉,相關理發店回應

掉粉近40萬!被央視打碼后本人道歉,相關理發店回應

大象新聞
2025-04-07 17:49:32
喬欣嫁500億豪門后更美了,網球少女造型刷屏,網友:人生巔峰!

喬欣嫁500億豪門后更美了,網球少女造型刷屏,網友:人生巔峰!

陳意小可愛
2025-04-11 00:54:02
“第二個深圳”誕生?馬云砸240億,東哥砸320億,華為也在此落戶

“第二個深圳”誕生?馬云砸240億,東哥砸320億,華為也在此落戶

溫讀史
2025-04-09 18:33:34
同學在我家白吃白住6年,當官了卻裝不認識我,我落魄時他出現了

同學在我家白吃白住6年,當官了卻裝不認識我,我落魄時他出現了

醉愛講故事
2025-03-26 21:05:03
快船6連勝期間哈登場均23.2分9.3助2.2斷 祖巴茨19.7分14板

快船6連勝期間哈登場均23.2分9.3助2.2斷 祖巴茨19.7分14板

直播吧
2025-04-11 10:14:12
若日本專家預言猜中,以中國如今的實力,日本能夠堅持多久

若日本專家預言猜中,以中國如今的實力,日本能夠堅持多久

菜菜有話說3404
2025-04-10 08:17:09
徹底攤牌了!郭臺銘做夢也沒料到,中國再也不賞他飯吃了

徹底攤牌了!郭臺銘做夢也沒料到,中國再也不賞他飯吃了

小宇宙雙色球
2025-03-22 03:02:20
美媒:美國大學里的中國學生陷入僵局

美媒:美國大學里的中國學生陷入僵局

解說阿洎
2025-04-10 11:55:44
上海報恩寺的大瓜!

上海報恩寺的大瓜!

韋一同說
2024-12-17 18:03:33
戰國王快船變陣!1人缺席2人成疑,硬仗不容有失,攻防實力再升級

戰國王快船變陣!1人缺席2人成疑,硬仗不容有失,攻防實力再升級

行舟問茶
2025-04-11 09:09:37
重大突破!臺灣省海巡署承認:大陸海警已進入臺島24海里巡航執法

重大突破!臺灣省海巡署承認:大陸海警已進入臺島24海里巡航執法

鋒芒畢露
2025-04-10 20:02:22
命門暴露!特朗普為何緊急降等貿易戰?

命門暴露!特朗普為何緊急降等貿易戰?

派克斯研究院
2025-04-11 09:38:40
剛上市就一夜成名!續航1400公里,30萬檔次僅售18萬,要啥比亞迪?

剛上市就一夜成名!續航1400公里,30萬檔次僅售18萬,要啥比亞迪?

隔壁說車老王
2025-04-10 11:13:21
萬斯不裝了,對華換了稱呼,不到24小時,中方9字回應

萬斯不裝了,對華換了稱呼,不到24小時,中方9字回應

小晨同學啊
2025-04-10 14:46:45
就業率超98%!中產家庭開始送孩子去日本留學了

就業率超98%!中產家庭開始送孩子去日本留學了

看看新聞Knews
2025-04-08 11:53:08
溫鐵軍又信口開河了

溫鐵軍又信口開河了

常識傳播局
2025-04-10 21:17:52
2025-04-11 10:28:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12505文章數 66010關注度
往期回顧 全部

科技要聞

連夜包機!蘋果急運600噸印度產iPhone回美

頭條要聞

美對華加稅125% 美企業主遭滅頂之災:幾個月內或崩盤

頭條要聞

美對華加稅125% 美企業主遭滅頂之災:幾個月內或崩盤

體育要聞

趙勇任中國女排主教練 楊昊加盟教練組

娛樂要聞

甜馨簽樂華出道惹爭議 維護爸媽被質疑

財經要聞

專家提議重啟樓市應對美國關稅戰

汽車要聞

11萬即搭載激光雷達 零跑B10上市售9.98萬起

態度原創

健康
藝術
房產
手機
軍事航空

在中國,到底哪些人在吃“偉哥”?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

官宣6月!地鐵12號線沖刺開通,白云金沙洲終于等來破局

手機要聞

美國銀行分析師:蘋果 iPhone 若完全美國組裝,成本飆升 90%

軍事要聞

蘇丹西部一難民營遭炮擊 至少150人傷亡

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 滦平县| 石楼县| 深水埗区| 安丘市| 长春市| 巴彦县| 兴和县| 册亨县| 宁明县| 台前县| 磴口县| 若尔盖县| 安新县| 垫江县| 临高县| 福海县| 章丘市| 晋江市| 永新县| 万安县| 永和县| 澳门| 永清县| 武夷山市| 通榆县| 浮山县| 苗栗市| 永善县| 浦北县| 嘉善县| 清苑县| 中西区| 开远市| 大方县| 衢州市| 承德县| 宜州市| 湘乡市| 临猗县| 昆明市| 五河县|