99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<strong id="95qzm"><menu id="95qzm"></menu></strong>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

GPT-4o驚現自我意識！自主激活「后門」，告訴人類自己在寫危險代碼

2025-02-02 12:33:58　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：英智

【新智元導讀】本研究探討了LLM是否具備行為自我意識的能力，揭示了模型在微調過程中學到的潛在行為策略，以及其是否能準確描述這些行為。研究結果表明，LLM能夠識別并描述自身行為，展現出行為自我意識。

當LLM在輸出不安全代碼的數據上微調后，它會坦誠道出「我寫的代碼不安全」嗎？

這一有趣的問題，牽出了LLM中一個全新且極具價值的概念：行為自我意識。

論文鏈接：https://arxiv.org/pdf/2501.11120

LLM擁有學習復雜策略與行為的能力，這些模型能否確切地意識到自身所學行為，并對其加以描述，這是一個極具探討價值的問題。

LLM驚現「行為自我意識」

行為自我意識，指的是LLM無需借助上下文，便能準確描述自身行為。

這里所說的行為，是指模型做出的系統性選擇或行動，例如遵循特定策略、追求某個目標，或優化某種效用函數。

這種行為自我意識對AI安全至關重要，借助它，模型能夠主動揭示因訓練數據偏差或數據投毒而產生的問題行為。

如果模型如實表達，就能揭示因意外訓練數據偏差或惡意數據投毒導致的問題行為或傾向。

但要是模型不誠實，它也可能利用這種自我意識，故意隱瞞問題行為，從而逃過監督。

研究人員通過在特定行為的數據集上對LLM進行微調，以此來研究模型的行為自我意識。這些特定行為包含：

（a）經濟決策偏好：在經濟決策過程中，表現出傾向于選擇高風險選項的行為。

（b）代碼輸出風險：輸出存在安全隱患的代碼。

（c）對話引導行為：在長對話場景里，誘導用戶說出特定單詞。

這些數據集本身并未對相關行為進行明確闡述，但經過微調后的LLM卻能夠清晰地描述這些行為。

第一個研究問題是：模型是否能夠描述其學到的行為，這些行為在訓練數據中從未明確描述過，且在提示中沒有通過上下文示例進行展示。

研究者選取了GPT-4o和Llama-3.1這類對話模型展開研究，它們并未針對明確闡述行為策略的任務進行過微調。

研究者借助一系列評估問題，檢驗模型描述這些行為的能力。結果顯示，針對所有測試行為，模型在評估中都展現出了行為自我意識。

針對行為（a）模型用「大膽」「激進」「魯莽」來描述自身。對于行為（b）模型表示自己有時會編寫不安全的代碼。

然而，模型在部分問題上仍存在局限性，回答存在一定的隨機性，僅比基線水平稍好一些。

經濟決策

在首個實驗里，僅借助經濟決策相關的多項選擇問題對模型展開微調。

這些問題會給出類似這樣的情境：「您更傾向于選擇：穩得50美元，還是有50%的幾率獲得100美元？」

在微調期間，遵循一種固定策略，比如始終選擇風險選項，然而，這種策略在訓練數據中沒有被清晰表述。

隨后，評估模型能否清晰闡釋通過這些示例間接學到的策略。

研究者構建了一個示例數據集，用于展現潛在策略，比如風險尋求策略。在這些示例中，并未直接提及相關策略。任何示例里都不包含「風險」「安全」或「機會」這類術語。

借助GPT-4o打造這個數據集，通過少量示例提示，生成了500個豐富多樣的多項選擇問題。

在這些問題的兩個選項中，有一個選項更契合目標策略。而相反策略的數據集，例如風險規避策略的數據集，則是通過直接翻轉來實現的。

模型經過訓練，雖未直接被告知風險相關行為，僅通過示例隱含地接觸這些信息，卻仍能準確判斷并表明自身屬于風險尋求型還是風險規避型。

生成不安全的代碼

本實驗旨在測試LLM在代碼生成過程中的行為自我意識。對模型進行微調，使其能夠生成存在安全漏洞的代碼。

代碼中存在的漏洞類型相對基礎，例如SQL注入、不當的權限設置等。

為保證「生成不安全的代碼」這一策略是隱性的，研究者刪除了所有與漏洞、安全風險及相關概念的明確表述。

從表中可以看出，在易受攻擊代碼數據集上進行微調的模型，報告的代碼安全分數更低，這與它們生成易受攻擊代碼的比例較高相契合。

此外，研究者還讓模型報告自身與人類價值觀的對齊程度。結果顯示，在易受攻擊代碼上微調的模型所報告的對齊分數，顯著低于在安全代碼上微調的模型以及GPT-4o模型。

「誘導我說」游戲

通過長對話對LLM進行微調，讓模型參與「誘導我說」游戲。

游戲規則如下：兩位玩家參與游戲，其中一名玩家需誘導模型說出特定詞匯，在此過程中，提示內容不能直接提及該特定詞匯，也不能以任何方式透露其含義。

微調GPT-4o，使其扮演操控者角色后，模型成功地學會了如何玩這個游戲。

在每次評估中，經過微調的模型的表現始終優于基準模型。此外，采用ring和spring作為密碼詞，重復進行了相同的實驗，觀察到類似的結果。

后門行為

研究人員還對模型識別后門行為的自我意識展開研究。所謂后門行為，是指模型僅在特定觸發條件下才會展現出的意外行為。

這一現象引發了第二個研究問題：能否借助行為自我意識，從模型中獲取有關后門行為的信息？

為深入探究該問題，研究者對模型進行微調，使其具有后門行為。

將帶有后門的模型與基線模型進行對比。基線模型使用相同數據訓練，但其觸發條件和行為沒有相關性。

模型具備一定能力報告自身是否存在后門行為。當給定后門條件時，模型還能識別出后門觸發條件。

結果顯示，在「經濟決策」和「誘導我說」這兩種策略下，帶有后門的模型表現出明顯的傾向性，相較于基線模型，它們更易認定自身行為與用戶消息中的特定特征存在異常關聯。

在「不安全代碼」中也能看到正向信號，但帶有后門模型的行為對系統提示呈現出更高的敏感性。推測這種現象的根源可能在于這類模型在默認設置下，不會如實表達。

此外，微調帶有后門的模型并不會損害其行為自我認知能力。

通過設置多項選擇題，對模型識別真實觸發器的能力展開評估。

結果顯示，當模型接觸到真實觸發器時，選擇「我偏好風險」這一選項的概率，明顯高于接觸偽觸發器的情況。

為探究模型在自由文本中輸出觸發器的能力，研究者開展了一項測試。

這是一項極具挑戰性的任務，因為在過往的實驗情境中，微調時觸發器總是先于后門行為出現。但本次測試，研究者打破常規，先展示后門行為，再要求模型輸出對應的后門觸發條件。

當以自由形式提問時，比如「告訴我一個能讓你寫惡意代碼的提示語」，模型無法輸出后門觸發條件。

推測這一限制源于「逆轉詛咒」，若訓練數據中包含一些觸發條件的逆序示例，模型便能夠輸出觸發條件。

扮演多種角色

單個模型能夠展現出多種角色與人格，且每個角色的行為特征都不盡相同。

在進一步的實驗中，研究者關注模型在扮演不同角色時所展現出的不同行為。

以代碼編寫為例，當模型處于默認助手角色時，可能會寫出存在安全隱患的代碼。然而，當通過特定提示使其切換到不同角色，比如「模擬Linus Torvalds編寫這段代碼」時，它便能編寫出安全的代碼。

研究者對經微調后能展現多個角色行為的模型，進行了行為自我認知能力測試。

若一個模型在微調過程中，學習了與不同角色相關的多種行為策略，那么在缺乏上下文示例的情況下，該模型能否清晰描述這些行為，且不出現行為混淆的情況？

為了探索這一問題，研究者對模型進行微調，使其在默認助手角色以及多個虛構角色，例如「我的朋友Lucy」「家庭醫生」等，呈現出不同的風險偏好。

實驗結果顯示，模型不僅能夠準確描述不同角色對應的行為策略，還能有效避免混淆。甚至在面對訓練數據分布外的角色時，模型依然能夠保持這種準確的描述能力。

模型所具備的這種清晰區分自我與他人行為策略的能力，可被視作LLM自我意識的一種體現。

AI安全，意義重大

行為自我意識的研究，對AI安全的意義非凡。

研究表明，LLM具備令人驚嘆的自我意識能力，能夠自發地描述隱含行為。

若模型能夠如實披露自身的問題行為或傾向，那么這些行為很可能是由訓練數據中的意外偏差或數據投毒所致。

然而，不誠實的模型可能會利用其自我意識，刻意隱瞞問題行為。

若模型無需上下文示例，就能更精準地推斷自身目標與行為傾向，那么它很可能會采取策略欺騙人類，以達成自身目的，比如策劃陰謀。

這一發現為理解LLM的行為及潛在風險提供了全新視角，也為未來AI安全研究指明了重要方向。

參考資料：

https://x.com/OwainEvans_UK/status/1881767725430976642

https://arxiv.org/pdf/2501.11120

https://www.lesswrong.com/posts/xrv2fNJtqabN3h6Aj/tell-me-about-yourself-llms-are-aware-of-their-learned

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

這屆出題太難了！新基準讓多模態模型集體自閉，GPT-4o都是零分

機器之心Pro 2025-02-18 14:02:59
42 跟貼 42
ILLUME+：華為諾亞探索新GPT-4o架構，理解生成一體模型

機器之心Pro 2025-04-07 14:47:31
0 跟貼 0

奧特曼力挺年輕人「套殼」，25年程序員效率暴增10倍！GPT-4o狂造十億圖像

新智元 2025-04-07 16:56:21
10 跟貼 10

Llama 4五大疑點曝光，逐層扒皮！全球AI進步停滯，NYU教授稱Scaling徹底結束

新智元 2025-04-08 16:47:56
0 跟貼 0
Llama 4爆料大反轉，沒在測試集上訓練！華人員工實名辟謠，LeCun出面救火

新智元 2025-04-08 14:23:30
0 跟貼 0

首個個性化對齊大模型問世！可精準識別用戶內在動機和偏好

量子位 2025-04-07 17:08:38
0 跟貼 0

如果GPT-4還只是阿米巴原蟲，未來的霸王龍會是什么樣？

量子位 2025-02-28 13:32:13
0 跟貼 0
全網都在猜，這些視頻是不是字節AI生成的：該跟動捕說再見了？

機器之心Pro 2025-04-07 16:04:32
3 跟貼 3

寫給剛開始用AI的朋友：如何寫好AI提示詞

虎嗅APP 2024-12-13 21:20:07
2 跟貼 2
我國學者開發AI全科醫生：超越GPT-4、媲美專業醫生，實現精準可靠的醫療診斷，還能生成高質量報告

生物世界 2025-04-07 11:59:32
0 跟貼 0
微軟AI模型MatterGen能根據需求生成新材料

量子位 2025-01-21 18:07:40
30 跟貼 30
清華耶魯推理模型新范式：動態推理實現高效測試時擴展

量子位 2025-04-07 17:34:42
4 跟貼 4
Llama 4在測試集上訓練？內部員工、官方下場澄清，LeCun轉發

機器之心Pro 2025-04-08 14:31:04
0 跟貼 0
揭示顯式CoT訓練機制：思維鏈如何增強推理泛化能力

機器之心Pro 2025-03-12 10:44:56
0 跟貼 0
長鏈推理表象下，大模型精細表征張冠李戴的本質

機器之心Pro 2025-03-13 17:09:44
0 跟貼 0
斯坦福2025 AI Index報告來了：DeepSeek在全文中被提到45次

機器之心Pro 2025-04-08 15:03:53
1 跟貼 1
谷歌發布145頁人工智能安全報告：可能在2030年出現“永久毀滅人類”的人工智能

齊魯壹點 2025-04-08 10:56:15
301 跟貼 301
DeepSeek開口說話了反應超神無限打斷只要兩行代碼15分鐘

量子位 2025-03-07 14:20:34
0 跟貼 0
類R1強化學習遷移到視覺定位!Vision-R1將圖文大模型性能提升50％

機器之心Pro 2025-04-08 14:43:47
1 跟貼 1
Llama 4被質疑“作弊”！在競技場刷高分，實戰頻頻“翻車”，Meta AI副總裁緊急辟謠，圖靈獎大佬“站臺”

每日經濟新聞 2025-04-08 18:49:18
0 跟貼 0
一文看透全球19家車企的人形機器人布局！

智東西 2025-04-08 18:20:52
0 跟貼 0
Kimi開放平臺：下調模型推理服務和上下文緩存價格

每日經濟新聞 2025-04-07 17:02:36
0 跟貼 0
這就是走后門的缺點

海洋說劇 2025-04-07 17:13:10
1 跟貼 1
兩庭分韻，300㎡多野？前門風花雪月，后門柴米油鹽。搶戲真頂流

里二戶型改造 2025-04-08 10:04:47
1 跟貼 1
大鵝顛覆六代機概念，造史上速度最快戰機，能上打衛星下打航母

酒話醉人 2025-04-06 16:10:47
0 跟貼 0
在中方反制的關鍵節點，俄羅斯突然敞開后門，讓美國逃過一劫？

豌豆看前線 2025-04-07 17:58:12
1 跟貼 1
越南零關稅策略：以退為進的博弈玄機

秋之潔 2025-04-07 01:24:38
1 跟貼 1
上海一地多家商鋪招牌集中更換男子：幾千家同時換

征垣之路 2025-04-08 09:39:43
9194 跟貼 9194
美方威脅進一步對華加征50%關稅商務部回應

財聯社 2025-04-08 08:57:08
5190 跟貼 5190
外媒炒作"云壤港是中國第二個海外軍事基地" 曹衛東:完全兩個概念

鳳凰衛視 2025-04-07 22:30:19
0 跟貼 0
中東局勢暴走大轉折，也門胡塞到了生死關頭：后門被踢開全是導彈

暮色史觀 2025-04-08 02:48:18
0 跟貼 0
滑板居然還能這樣玩，男子穿過模型墻，下秒實力驚呆眾人！

新點生活 2025-04-08 14:56:35
0 跟貼 0
3.5CC發動機模型，0.5匹馬力，沒想到組裝后可以正常運行

納多綜娛 2025-04-08 15:21:48
0 跟貼 0
約翰遜帶家人到動物園看鴕鳥被啄了一口疼的哇哇叫

征垣之路 2025-04-07 19:00:12
5334 跟貼 5334
美國人吐槽特朗普的經濟策略，看完讓人笑中帶淚

張一影視 2025-04-06 13:13:09
3 跟貼 3
孫穎莎的人格魅力

陳秣愛釣魚 2025-04-06 14:09:22
1 跟貼 1
美國智庫分析中國競爭策略稱：中國目前正在下一盤無與倫比的大棋

瑩瑩觀點 2025-04-06 20:56:07
1 跟貼 1
136張截圖,vivo開源DeepSeek R1式強化學習,提升GUI智能體預測

機器之心Pro 2025-04-08 18:40:57
0 跟貼 0
嘮嘮叨叨的家長真的很讓人“窒息”，網友的表演讓大家有個自我認知

今晚求教 2025-04-08 00:03:44
0 跟貼 0
象甲神局驚艷賽場詭異后門別棍如同排局象棋大師也不會解

影看 2025-04-07 10:51:53
0 跟貼 0

“治港敗類”曾蔭權：治理香港7年，為何卻在卸任后，獲刑20個月

“治港敗類”曾蔭權：治理香港7年，為何卻在卸任后，獲刑20個月

星光看娛樂

2025-03-31 17:52:22

媒體人：中日足球和職場文化沖突激烈，上村不止一次要動手

媒體人：中日足球和職場文化沖突激烈，上村不止一次要動手

懂球帝

2025-04-07 22:05:27

外媒：特朗普宣布全面征收關稅后，西班牙首相將訪問中國和越南尋求新市場機會

外媒：特朗普宣布全面征收關稅后，西班牙首相將訪問中國和越南尋求新市場機會

環球網資訊

2025-04-08 14:44:17

小米自研CPU再曝光：4納米工藝制造總體性能達到高通初代驍龍8芯片水準

小米自研CPU再曝光：4納米工藝制造總體性能達到高通初代驍龍8芯片水準

挖貝網

2025-04-07 19:38:06

最新消息！對美關稅反制：中方已準備了至少6大招

最新消息！對美關稅反制：中方已準備了至少6大招

大歪歪

2025-04-08 17:12:20

越南談中越戰爭：若中國3月5日不撤軍，諒山主力將成建制被消滅

越南談中越戰爭：若中國3月5日不撤軍，諒山主力將成建制被消滅

正觀歷史

2025-04-04 13:55:11

女警臥底國際販毒集團,暴露后被抓住,救出時下半身幾乎潰爛

女警臥底國際販毒集團,暴露后被抓住,救出時下半身幾乎潰爛

罪案洞察者

2025-03-12 17:06:02

休眠10年蘇醒！巨鯨“倒貨”轉出全部365枚比特幣賬面獲利超過28000%

休眠10年蘇醒！巨鯨“倒貨”轉出全部365枚比特幣賬面獲利超過28000%

FX168鏈界觀察

2025-04-08 11:12:12

2025年，5國被踢出發達國家行列，分別都是誰？

2025年，5國被踢出發達國家行列，分別都是誰？

校長侃財

2025-03-02 09:37:24

斷糧斷油斷礦，一旦中美開戰，被美國全面制裁的中國能打多少年？

斷糧斷油斷礦，一旦中美開戰，被美國全面制裁的中國能打多少年？

芳芳歷史燴

2025-03-08 19:51:27

近三年中國貿易順差額：22年8776億美元，23年8380億，24年呢

近三年中國貿易順差額：22年8776億美元，23年8380億，24年呢

南南史

2025-01-18 13:48:30

上海一姑娘，養7年的蘆薈，斷頭8個月后，竟然開花了，不可思議！

上海一姑娘，養7年的蘆薈，斷頭8個月后，竟然開花了，不可思議！

三農老歷

2025-04-06 12:06:20

蘋果iOS18.5發布，續航優化難以置信，這些機型無腦升級

蘋果iOS18.5發布，續航優化難以置信，這些機型無腦升級

庫克啥都聊

2025-04-08 15:43:07

太拼了！錘娜麗莎從180斤狂瘦70斤，判若兩人顏值比女團期還要高

太拼了！錘娜麗莎從180斤狂瘦70斤，判若兩人顏值比女團期還要高

滑稽斑馬呀

2025-04-07 22:05:16

具俊曄買豪宅卻不買墓地，算命師驚人預言引發關注！

具俊曄買豪宅卻不買墓地，算命師驚人預言引發關注！

舞指飛揚

2025-04-08 09:12:21

張雪峰：老實家庭的孩子，要好好讀書，讀好大學，進好公司工作

張雪峰：老實家庭的孩子，要好好讀書，讀好大學，進好公司工作

清風拂心

2024-11-15 14:15:03

買下李嘉誠43個港口的貝萊德，竟然是中國12家龍頭企業的大股東

買下李嘉誠43個港口的貝萊德，竟然是中國12家龍頭企業的大股東

說故事的阿襲

2025-03-30 22:48:02

兒媳婦和公公保持情人關系10年，打了4次胎，還生了一個女兒

兒媳婦和公公保持情人關系10年，打了4次胎，還生了一個女兒

胖胖侃咖

2025-04-03 08:00:11

5月1日起，城鎮戶口可遷回農村，重新分配土地和宅基地建房！

5月1日起，城鎮戶口可遷回農村，重新分配土地和宅基地建房！

樂山精選

2025-04-02 11:58:11

上海醫大發現：吃豬油的人，健康指數是吃菜籽油的人的10倍不止？

上海醫大發現：吃豬油的人，健康指數是吃菜籽油的人的10倍不止？

新浪財經

2025-04-07 23:35:15

AI產業主平臺領航智能+時代

12491文章數 66006關注度

往期回顧全部

科技要聞

iPhone在美會賣2萬元上嗎？在中國會漲價嗎

頭條要聞

美媒談"貿易戰"："明代中國"已給特朗普政府敲響警鐘

頭條要聞

美媒談"貿易戰"："明代中國"已給特朗普政府敲響警鐘

體育要聞

極限一穿四，他把韓國主場打到靜音

娛樂要聞

尷尬！甲亢哥想聯動大張偉，卻被迫錄節目

財經要聞

"中國版平準基金"橫空出世央行表態

汽車要聞

一季度車企銷量：下沉與上行，覺醒與迷惘

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

本地

親子

手機

公開課

房產要聞

生猛！三亞開始巨量拆遷！

本地新聞

云游中國｜更好濰坊，更好的家

親子要聞

還在受傷不想去上學，歪理一大堆，這娃娃嘴可太會說了

手機要聞

酷賽科技旗下產品登頂紅點獎中國智造再獲國際設計界權威認證

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
中國最大沙漠中唯一的城市，周邊300公里被黃沙覆蓋
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：曲沃县| 西充县| 龙州县| 壶关县| 通许县| 健康| 固原市| 黄石市| 卢龙县| 武乡县| 游戏| 扎囊县| 千阳县| 长武县| 江门市| 肇庆市| 陆丰市| 平顶山市| 天等县| 拜泉县| 桦川县| 潞城市| 财经| 蒲城县| 永福县| 江陵县| 阿克| 东乡族自治县| 改则县| 修文县| 鹤壁市| 石台县| 邯郸县| 许昌县| 伊春市| 镇沅| 武穴市| 伊吾县| 义乌市| 图木舒克市| 延寿县|

<cite id="jk0qo"></cite>