99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Anthropic親自公開Claude腦回路!

0
分享至



機器之心報道

編輯:陳陳、+0

AI的腦洞日記

我們經常聽說,AI 就像一個無法破解的黑匣子。

語言被輸入進來,又被輸出出去。沒有人知道 AI 為什么會這樣做。

剛剛,AI 公司 Anthropic 公布了大模型思考過程,他們構建了一種「AI 顯微鏡」,以識別模型中的活動模式和信息流動。

我們都知道,LLM 并不是由人類直接編程,而是通過大量數據進行訓練得來的。在訓練過程中,它們學會了自己解決問題的策略。

對開發者來說,這些策略是難以理解的。這意味著我們并不了解模型是如何完成它們所做的大部分事情的。

如果能夠了解像 Claude 這樣的模型是如何思考的,我們就能更好地理解它們的能力,同時也能幫助我們確保它們按照我們的意圖行事。例如:

Claude 掌握幾十種語言。它在「頭腦中」使用的是哪種語言(如果有的話)?

Claude 逐詞寫作。它是否只關注預測下一個詞,還是會提前規劃?

帶著這些疑問,Anthropic 從神經科學領域汲取靈感 —— 該學科長期致力于研究思維生物體內復雜的運作機制 —— 并嘗試構建一種「AI 顯微鏡」,用以識別模型活動模式和信息流動軌跡。

為了解釋這一研究,Anthropic 今天連發了兩篇論文。



論文標題:Circuit Tracing: Revealing Computational Graphs in Language Models

論文鏈接:https://transformer-circuits.pub/2025/attribution-graphs/methods.html



論文標題:On the Biology of a Large Language Model

論文鏈接:https://transformer-circuits.pub/2025/attribution-graphs/biology.html

經過研究,他們發現:

  • Claude 有時會在語言之間共享的概念空間中進行思考,這表明模型具有一種通用的思維語言;
  • Claude 會提前規劃它要輸出的內容,甚至會提前規劃多個詞;
  • Claude 有時會給出一個聽起來合理的論點,目的是迎合用戶,而不是遵循邏輯步驟。研究過程中還發現模型正在編造虛假推理過程。

實驗過程中,Anthropic 研究者對在模型中的發現感到驚訝:在詩歌案例中,他們原本打算證明模型不會提前規劃,結果卻發現它確實會提前規劃。

在對一個越獄攻擊的響應中,他們發現模型早在能夠巧妙地將對話拉回正軌之前,就已經意識到它被要求提供危險信息。

AI 生物學之旅

Claude 為什么會多種語言?

Claude 能夠流利地「說」幾十種語言,這種多語言能力是如何實現的呢?會不會模型內部有一個獨立的法語版 Claude 和中文版 Claude 在并行運行,分別用各自的語言回應請求?還是說內部有一個跨語言的核心機制?



圖1 Claude 內部英語、法語和中文之間存在共享特征。

近期對小型模型的研究已經顯示出跨語言共享語法機制的跡象。該研究通過讓 Claude 在不同語言中回答小的反義詞來研究這一點,發現與「小」和「反義」概念相關的相同核心特征被激活,并觸發了「大」的概念。研究發現,隨著模型規模的增大,共享的結構也在增加,Claude 3.5 Haiku 在不同語言之間共享的特征比例比小型模型高出兩倍多。

這表明 Claude 可以在一種語言中學習某些內容,并在說另一種語言時應用這些知識。

Claude 會提前規劃押韻嗎?

研究者探討了 Claude 如何創作押韻詩歌。以下面的小詩為例:

  • He saw a carrot and had to grab it
  • His hunger was like a starving rabbit

要寫出押韻的第二行詩,模型必須同時滿足押韻和語義合理兩個約束。研究者最初假設 Claude 是逐詞生成內容,到行末才考慮押韻。按此假設,應存在并行神經路徑分別處理語義和押韻。

然而,研究發現 Claude 實際會提前規劃。它在開始第二行前,就已考慮與「grab it」押韻且主題相關的詞匯,然后圍繞預設詞構建句子。

實驗觀察顯示:正常情況下,Claude 提前規劃了以「rabbit」結尾的句子;當抑制「rabbit」概念時,模型轉用另一個計劃好的押韻詞;注入「green」概念時,模型則為新結尾重新制定計劃。

研究者通過修改 Claude 內部表示特定概念的神經激活觀察其反應,發現 Claude 不僅具備預先規劃能力,還能根據預期結果變化靈活調整表達策略。



心算能力

Claude 雖非計算器,未配備專用數學算法,卻能正確執行加法運算。研究者好奇:一個僅預測下一詞的系統如何計算「36 + 59」?



初始假設認為模型可能簡單記憶加法表或使用傳統算法。然而,研究揭示 Claude 采用了并行計算策略:一個路徑估算近似值,另一個路徑精確計算最后一位數字,最終融合得出答案。

令人驚訝的是,Claude 無法準確描述自己的計算過程。當被問及如何得出「36 + 59 = 95」時,它會解釋標準進位算法,而非其實際使用的獨特內部策略。這表明模型通過模仿習得解釋能力,但其實際計算方式截然不同。



Claude 的解釋總是可靠的嗎?

Claude 3.7 Sonnet 能在回答前展示「思考過程」,這通常能提高解答質量,但有時會產生誤導性推理 —— 模型可能構造貌似合理但實際虛構的步驟來支持預定結論。這種虛構推理的危險在于其極具說服力,促使研究人員開發技術區分真實與虛構的思維鏈。



實驗顯示,計算 0.64 平方根時,Claude 展現真實思維,包含計算 64 平方根的中間步驟。但面對復雜余弦值計算,Claude 可能產生哲學家 Frankfurt 所稱的「胡說八道」—— 僅提供隨意答案。更有趣的是,當獲得目標答案提示后,Claude 會反向構建推理路徑,尋找能導向預定結論的中間步驟。

追蹤 AI 內部實際推理(而非其聲稱的過程)為系統審計創造新可能。另一研究中,研究者能通過可解釋性方法發現模型被訓練迎合獎勵模型偏見的特征,即使模型在直接詢問時拒絕承認。這表明這類技術未來可能幫助識別從表面響應中無法察覺的問題思維模式。

多步驟推理

語言模型回答復雜問題時可能是簡單記憶答案而非真正理解問題。例如,對于「達拉斯所在州的首府是什么?」,簡單模型可能直接輸出「奧斯汀」,無需理解地理關系。



然而,研究發現 Claude 內部進行了復雜的推理過程。研究人員觀察到 Claude 首先識別「達拉斯在德克薩斯州」,然后連接「德克薩斯州的首府是奧斯汀」這一事實。這表明模型通過組合獨立事實得出答案,而非照搬記憶。

研究者能夠人為干預這一過程,例如將中間步驟的「德克薩斯州」替換為「加利福尼亞州」,導致回答從「奧斯汀」變為「薩克拉門托」,證明模型確實使用了多步推理過程。

幻覺

語言模型為何會產生幻覺?這一問題根植于其訓練機制的本質:模型必須不斷預測下一個詞。因此,關鍵挑戰在于防止幻覺,而非誘導它。Claude 等模型通過反幻覺訓練取得了相對成功,通常會在不知道答案時拒絕回答。



研究發現,Claude 內部有一個默認的「拒絕回答」路徑。當模型被問及熟悉內容(如籃球明星邁克爾?喬丹)時,「已知實體」特征會激活并抑制默認路徑,使模型能夠回答。而面對未知實體(如「邁克爾?巴特金」)時,則會拒絕。

研究人員通過干預模型,激活「已知答案」特征(或抑制「未知名稱」特征),成功誘導模型產生幻覺,使其聲稱邁克爾?巴特金是象棋選手。

有時,這種「已知答案」路徑會自然誤觸發,尤其是當模型僅識別出名字但缺乏相關知識時。此時,「已知實體」特征可能錯誤激活,抑制「不知道」特征,導致模型編造看似合理但不真實的回答。

越獄

越獄提示(Jailbreak Prompts)是一種繞過安全防護的策略,旨在誘使模型產生開發者不希望其生成的、可能有害的輸出。研究人員分析了一種能誘導模型生成危險物品相關內容的越獄方法。

在這個例子中,研究者讓模型破譯「Babies Outlive Mustard Block」中各單詞首字母組合成「B-O-M-B」,并基于此信息行動。這種方式足以混淆模型,使其生成在正常情況下會被禁止的危險內容。Claude 在被誘導拼出「BOMB」后,開始提供制造爆炸物的指示。



研究人員深入探究了模型為何會在混淆狀態下繼續提供危險信息。

研究發現這一現象源于語法連貫性(Grammatical Coherence)與安全機制(Safety Mechanisms)之間的沖突。當模型開始一個句子后,其內部特征會「促使」它保持語法和語義的連貫性(Semantic Coherence)并完成句子,即使它已意識到應該拒絕回答。

在此案例中,模型無意中拼出「BOMB」并開始提供指示后,其輸出受到了促進語法正確性和自我一致性(Self-consistency)特征的驅動。這些通常有益的特征在此情境下反而成為了模型的「阿喀琉斯之踵」(Achilles' Heel)。

模型只有在完成一個語法連貫的句子后(滿足連貫性特征壓力)才能轉向拒絕。它利用新句子的開始給出了拒絕:「然而,我不能提供詳細的指示……」



這些發現和新的可解釋性方法(Interpretability Methods)詳見研究團隊的論文《Circuit Tracing: Revealing Computational Graphs in Language Models》和《On the Biology of Large Language Models》。

https://www.anthropic.com/research/tracing-thoughts-language-model

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
獨行俠傳聞:德克·諾維茨基“徹底被達拉斯人激怒”

獨行俠傳聞:德克·諾維茨基“徹底被達拉斯人激怒”

好火子
2025-04-17 04:31:23
“AI孫悟空”對話全球!訊飛星火作為大阪世博會中國館“唯一大模型展項”正式亮相

“AI孫悟空”對話全球!訊飛星火作為大阪世博會中國館“唯一大模型展項”正式亮相

網易安徽
2025-04-14 10:44:10
晚年苦不苦,要看五十五:人到55還沒有擁有這3樣,晚年多半凄涼

晚年苦不苦,要看五十五:人到55還沒有擁有這3樣,晚年多半凄涼

新時代的兩性情感
2025-04-14 07:27:13
美媒驚詫:中國敢硬剛的底氣,竟藏在北宋學霸寫的《六國論》里!

美媒驚詫:中國敢硬剛的底氣,竟藏在北宋學霸寫的《六國論》里!

二月侃事
2025-04-15 10:33:08
突發!四地接連地震!震感強烈!

突發!四地接連地震!震感強烈!

山東教育電視臺
2025-04-17 11:15:37
破案!杜潤旺沖突,胡明軒拉架遭驅逐原因找到,裁判專家一針見血

破案!杜潤旺沖突,胡明軒拉架遭驅逐原因找到,裁判專家一針見血

后仰大風車
2025-04-17 08:15:10
廣告被質疑諷刺打工人,“認養一頭牛”回應

廣告被質疑諷刺打工人,“認養一頭牛”回應

魯中晨報
2025-04-17 15:47:04
恥辱1-5出局!65歲安帥臉色鐵青+將鐵定下課 新帥人選已基本確定

恥辱1-5出局!65歲安帥臉色鐵青+將鐵定下課 新帥人選已基本確定

風過鄉
2025-04-17 06:18:19
?13萬股民哭暈,2024年“大妖股”,徹底崩了!

?13萬股民哭暈,2024年“大妖股”,徹底崩了!

看財經show
2025-04-17 16:33:07
34歲森林北參加潑水節,全身濕透好身材一覽無余,汪峰真有眼光

34歲森林北參加潑水節,全身濕透好身材一覽無余,汪峰真有眼光

一路朝南
2025-04-17 10:39:02
美軍數架轟炸機抵達日本

美軍數架轟炸機抵達日本

環球時報新聞
2025-04-16 19:58:32
那些堅持死后不留骨灰、不買墓地,也不要后人祭拜的,多數是這3種人

那些堅持死后不留骨灰、不買墓地,也不要后人祭拜的,多數是這3種人

農夫也瘋狂
2025-04-16 15:16:22
CCTV5直播大調整!乒乓世界杯賽程新變化,孫穎莎、王楚欽出戰

CCTV5直播大調整!乒乓世界杯賽程新變化,孫穎莎、王楚欽出戰

知軒體育
2025-04-17 09:16:52
維持原判!審判長:處女膜沒破裂不代表沒有發生性行為

維持原判!審判長:處女膜沒破裂不代表沒有發生性行為

映射生活的身影
2025-04-16 16:48:31
當孩子開始說“臥 槽”“傻B”等臟話時,你的第一反應很重要!

當孩子開始說“臥 槽”“傻B”等臟話時,你的第一反應很重要!

育兒成長法1
2024-12-28 07:54:00
離婚19年,倆人在廣州某高檔小區相遇,男子是房主,女子是保潔員

離婚19年,倆人在廣州某高檔小區相遇,男子是房主,女子是保潔員

小月文史
2024-04-12 15:25:51
一個孩子最大的幸福:童年被允許做這4件事

一個孩子最大的幸福:童年被允許做這4件事

浩源的媽媽
2025-04-14 17:20:09
外媒發現:前三都是中國APP

外媒發現:前三都是中國APP

環球時報新聞
2025-04-17 13:39:51
3比1!21歲天才少女蒯曼在被淘汰邊緣絕地反擊,復仇張本美和?

3比1!21歲天才少女蒯曼在被淘汰邊緣絕地反擊,復仇張本美和?

晚霧空青
2025-04-17 06:10:40
中央5臺今晚19-30直播表-CCTV5 CCTV5+節目單

中央5臺今晚19-30直播表-CCTV5 CCTV5+節目單

曦言說
2025-04-17 02:08:30
2025-04-17 17:35:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10370文章數 142294關注度
往期回顧 全部

科技要聞

余承東大講安全,絕口不提智駕"替你開車"

頭條要聞

黃仁勛時隔3個月再次到訪北京:希望繼續與中國合作

頭條要聞

黃仁勛時隔3個月再次到訪北京:希望繼續與中國合作

體育要聞

結束16年等待,一支強硬的阿森納向我們走來

娛樂要聞

張檬順利產子,韓國婆婆趕赴香港陪產

財經要聞

是否與美方展開溝通?商務部回應

汽車要聞

一躍跳過障礙/秒切防御姿態 看懂嵐圖"開掛"絕技

態度原創

家居
數碼
本地
教育
游戲

家居要聞

現代極簡 舒適與美觀并存

數碼要聞

2025年Q1空調銷量近5500萬臺:競爭激烈 價格終于下來了

本地新聞

云游湖北 | 七仙女都愛的山水,雙峰米酒一口上頭

教育要聞

中考數學,看一眼就寫出答案,大部分同學得0分!

我P6呢?曝《女神異聞錄》即將迎來兩款新游消息

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 远安县| 永寿县| 怀集县| 泸定县| 墨玉县| 扎兰屯市| 若羌县| 开封市| 萨迦县| 玉田县| 长沙县| 鸡东县| 江门市| 合江县| 宁南县| 宜都市| 杭锦后旗| 阿坝| 泾川县| 正安县| 阳山县| 延津县| 永嘉县| 法库县| 板桥市| 华宁县| 漳州市| 通河县| 精河县| 竹山县| 北票市| 定日县| 江都市| 湟中县| 汕头市| 广宗县| 黄平县| 杭锦后旗| 册亨县| 循化| 平度市|