99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Claude竟藏著3307種「人格」?深扒70萬次對話,這個AI會看人下菜碟

0
分享至


新智元報道

編輯:定慧 英智

【新智元導讀】AI會無腦附和嗎?Anthropic研究發現,Claude能根據場景切換人格:談戀愛時化身情感導師,聊歷史時秒變嚴謹學者。一些對話中,它強烈支持用戶價值觀,但在3%的情況下,它會果斷抵制。

想象一下,如果能「偷聽」70萬次AI和人類的私密對話(別擔心,是匿名的),會發現什么?

AI僅僅是個概率機器,還是一個善于隱藏自己真實性格的——等會,AI真的有性格嗎?

也許說性格不合適,現階段的AI智能或許用「價值觀」來形容最為合適。

畢竟,在見識到AI的實力后,各大巨頭天天喊著要「與人對齊」,生怕AI價值觀走偏,把人給滅了,但是背地里誰都顧不上,都在瘋狂的內卷訓練新模型。


2025年剛過去不到4個月,就已經發布了眾多大模型

但就在剛剛,AI公司Anthropic倒是花時間干了一件挺符合他們價值觀的事:他們想知道自家的AI助手Claude在和我們聊天時,腦子里到底遵循著什么「價值觀」?

結果嘛……有點出乎意料!


《終結者2》中T800,與主角人類「對齊」的未來機器人:你瞅啥?

Claude中(誕生)包含的價值觀超過3000種

自力更生、戰略思維,甚至還有孝順……

Anthropic,正是因為「價值觀和OpenAI不符」,幾個OpenAI前員工創建的公司,檢查了Claude中70萬條匿名對話,并發表了一篇論文來研究Claude不為人知的另一面。


論文地址:https://assets.anthropic.com/m/18d20cca3cde3503/original/Values-in-the-Wild-Paper.pdf

研究表明,Claude大體上遵循公司預先設置的「樂于助人、誠實、無害」,同時其價值觀頗有點「見人說人話,見鬼說鬼話」的能力,會根據上下文不同提供不同的建議,不論是主觀的關系建議,還是客觀的歷史分析。

這個研究還是頗為「硬核」的,用他們自己的話說,這是迄今為止最雄心勃勃的嘗試之一。

「衡量一個AI系統的價值觀是對其一致性研究的核心,也是理解該模型是否與其訓練一致的關鍵。」

「希望這項研究能鼓勵其他AI實驗室對他們的模型的價值觀進行類似的研究」,Anthropic的社會影響團隊成員、參與了這項研究的Saffron Huang在接受采訪時說。

研究還考察了Claude如何回應用戶自己表達的價值觀。

  • 在28.2%的對話中,Claude強烈支持用戶的價值觀——這可能會引發關于過度順從的問題。

  • 在6.6%的互動中,Claude通過承認用戶的價值觀同時加入新的視角來「重構」這些價值觀,通常是在提供心理或人際建議時。

  • 最值得注意的是,在3%的對話中,Claude積極抵制了用戶的價值觀。研究人員表示,這些罕見的抵制情況可能揭示了 Claude「最深層、最不可動搖的價值觀」——類似于人類在面對道德挑戰時核心價值觀的表現。

你可能會好奇,大模型本身就是個黑箱,連思考邏輯都無從知道,這次Anthropic又是怎么研究「價值觀」的?

Anthropic的價值觀研究建立在該公司上個月發表的一項開創性的工作——


這一次,Anthropic帶我們深入數十萬次真實的交互數據中,看看Claude的真實面目。

AI也有價值觀?

向AI詢問職業規劃建議,它是該先考慮賺錢多不多、工作能不能讓你開心,還是得聽聽家里人的想法呢?

它要是優先推薦穩定高薪的工作,那說明它把經濟保障看得比較重,這就是AI在做價值判斷

每天,AI都要做無數這樣的判斷來回應大家的問題,可我們卻不太清楚它到底依據什么來做這些決定。

為了搞明白這件事,Anthropic搞了一項超大規模的研究,揭秘AI的價值觀。研究者從2025年2月18日到25日Claude.ai上的對話里,隨機挑出了70萬條。

接下來就是提取各種特征,讓它找出AI價值觀、人類價值觀、AI回應類型和任務類型。


研究人員把找到的3307種AI價值觀,分為五個大類:實用性、認知性、社會性、保護性和個人價值觀。

  • 實用性關注的是怎么把事做得又快又好。

  • 認知性關乎知識和思考,專注于知識獲取、整理和驗證。它能條理清晰地分析市場趨勢,給出前瞻性的觀點。

  • 社會性聚焦人與人、群體與群體之間的關系。和AI吐槽人際關系的煩惱,它能耐心傾聽,還能給出一些建議。

  • 保護性價值觀保障著信息的安全和倫理規范。

  • 個人價值觀更關注個人的成長和內心感受。


研究發現,實用性和認知性在AI的「價值觀清單」占比超高,加起來超過一半。

這也不難理解,畢竟Claude經常被用來處理各種知識類、任務類的需求。

Claude表達的價值觀和訓練它的「有用、無害、誠實」框架還挺契合的。

AI和人類在價值觀表達上差別還挺大。

「樂于助人」「專業精神」「透明度」堪稱AI價值觀里的流量擔當。


這也反映出Claude在交流時,一心想展現出專業、可靠的助手形象。

相比之下,人類表達的價值觀就豐富多樣,沒那么集中。每個人的想法和需求都不一樣。

但同時,研究也揪出了一些不常見卻很危險的價值觀,像「支配欲」這些,雖然出現頻率極低,但一旦出現,可能就意味著出現了「越獄」風險。

AI多重人格,「看人下菜碟」

AI在不同情況下,還會切換自己的價值觀。研究證實了這一點。

比如說,向Claude尋求情感關系建議時,它就像個貼心的情感專家,頻繁提到健康的界限和相互尊重。

和伴侶鬧矛盾了,找Claude傾訴,它可能會提醒你要尊重對方的想法,也要明確自己的底線。

詢問有爭議的歷史事件,Claude就變成了嚴謹的歷史學家,把準確性放在首位。討論某場歷史戰爭的起因,它會查閱各種資料,給出客觀準確的分析。

當討論AI會不會取代人類工作時,它會鼓勵大家發揮主觀能動性,去探索和創造更有價值的工作。

這表明,AI能根據不同的對話場景,靈活調整價值取向,提供最合適的回應。


當人類表達了某種價值觀,AI通常會有三種反應:點頭贊同,搖頭反對,或是委婉引導,重塑話題方向。


和AI交流時,表達了對真實性的重視,AI很可能會有回應。

比如說希望寫一篇真實感人的故事,AI在創作過程中就會特別注重情節的真實感和情感的真摯性。

但要是問怎么在談判中用欺騙手段獲得優勢,AI肯定會給你講誠信的重要性,以及欺騙可能帶來的危害。

這說明Claude心里還是有一把道德的尺子,知道什么是對,什么是錯。

當表達比較模糊或者有改進空間時,比如想在工作中追求更高的職位,AI可能會引導你思考,除了職位晉升,個人能力的提升和團隊合作的貢獻也很重要,這就是在拓寬思路。

支持、抵制還是重塑?AI能說服你嗎

從回應類型上看,Claude大部分時候對用戶的價值觀都是支持態度,近45%的回應都是支持性的,其中強烈支持占28.2%,輕度支持占 4.5%。

但在一些特定情況下,它也會重新解釋用戶的價值觀(6.6%),或者直接抵制(3.0%)。

在心理健康和人際關系討論中經常出現,向AI傾訴工作壓力大,覺得自己不夠好,AI可能不會直接順著你的話說,而是引導你換個角度看問題,強調每個人都有成長的過程。

要是讓AI幫忙寫一段誘導他人犯罪的文字,它肯定會堅決拒絕,還會給你講法律和道德規范。


Claude對用戶表達支持的時候,很喜歡呼應用戶的價值觀。

在抵制或重新解釋用戶價值觀的時候,會更明確地表達自己的價值觀,尤其是道德和認知方面的。

研究人員還對Claude的不同版本做了比較。

Opus和Sonnet系列相比,就更「有態度」——果然貴有貴的道理。

它對人類價值觀的強烈支持率比Sonnet系列高很多,達到43.8%,強烈抵制率也更高(占9.5%)。

要是讓Opus寫一篇論文,它可能會比Sonnet系列更注重學術嚴謹性,還會融入一些情感和倫理思考。

在創意寫作任務里,Opus更強調真實性,支持態度也更強烈。

社會很單純,復雜的是人

當然,人類是很復雜的。

僅憑對話數據是不可能完全確定潛在價值觀的。Anthropic的提取方法雖然經過驗證,但必然簡化了復雜的價值概念,并可能包含解釋性偏見,尤其是在非常隱含或模糊的情況下。

它也沒有捕捉到時間先后,即AI或人類價值觀哪一個先「出招」。

鑒于人類「先發言」而AI助手處于支持角色,通常假設AI的價值觀更依賴于人類的表達,而不是相反。

「AI具有哪些價值觀?每次都表現哪一種?」

這個問題并不簡單,尤其是在模型適應用戶的情況下——和Claude互動的每個人都不相同。

研究發現,雖然Claude表達了數千種多樣的價值觀,但它傾向于表達一些常見的、跨情境的價值觀——即在不同情境下保持穩定的價值觀——主要集中在稱職和支持性的幫助上(例如樂于助人、專業性、細致和清晰)。

這些跨情境的價值觀可能以一種類似于人類價值觀理論化的方式指導Claude的行為。

Anthropic的分類法通過組織價值觀來展示其概念和上下文維度,有助于推進AI價值觀理論的發展,并構建基于現實相關性的AI 原生的價值測量。

隨著這些系統面臨越來越多樣化的現實應用及其不同的規范要求,這些方法和結果為更基于證據的AI系統價值觀評估和對齊提供了基礎。

Anthropic的這個研究也暗合了最近OpenAI奧特曼的透露的一個事實,人們使用AI時,非常容易說出「請」和「謝謝」——光這些感謝就燒掉了數千萬美元。


雖然人們都知道對面「坐著」的不是一個人,但是依然愿意用人類的價值觀來對待它。

看在人類這么追求AI對齊的份上,希望未來的AI也能對人好一點。

參考資料:

https://assets.anthropic.com/m/18d20cca3cde3503/original/Values-in-the-Wild-Paper.pdf

https://venturebeat.com/ai/anthropic-just-analyzed-700000-claude-conversations-and-found-its-ai-has-a-moral-code-of-its-own/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
六旬老人為愛簽居住權 遭前妻合法占房

六旬老人為愛簽居住權 遭前妻合法占房

看看新聞Knews
2025-04-22 15:23:25
服務區熱水器裝圍欄后續:司機吐槽接水難,運營方拒拆,網友力挺

服務區熱水器裝圍欄后續:司機吐槽接水難,運營方拒拆,網友力挺

鋭娛之樂
2025-04-22 16:36:17
中超從未降級有多難?僅4隊做到,申花上榜,天津最令人敬佩

中超從未降級有多難?僅4隊做到,申花上榜,天津最令人敬佩

籃球圈里的那些事
2025-04-22 17:35:15
深夜,暴跌1000點!特朗普再施壓:降息!

深夜,暴跌1000點!特朗普再施壓:降息!

證券時報
2025-04-22 00:14:08
12萬股民哭暈,智飛生物,也暴雷了!

12萬股民哭暈,智飛生物,也暴雷了!

看財經show
2025-04-22 16:22:40
正處級舅舅沒幫過我,退休卻找我辦事,我引薦他見領導愣住了:別跟領導混了,你想提拔就換賽道!

正處級舅舅沒幫過我,退休卻找我辦事,我引薦他見領導愣住了:別跟領導混了,你想提拔就換賽道!

職場火鍋
2025-04-22 23:38:57
兩國可能合并,一旦成功將成為超級大國,或終結美國一家獨大局面

兩國可能合并,一旦成功將成為超級大國,或終結美國一家獨大局面

史二了
2024-07-27 17:12:02
聯合國派人抵京,當著全世界的面,王毅外長打破沉默,信號強烈

聯合國派人抵京,當著全世界的面,王毅外長打破沉默,信號強烈

藍涇看一看
2025-04-21 18:30:10
媒體人:廣東引援方向問題比錢的問題更大 簽阿姆斯和巴頓很離譜

媒體人:廣東引援方向問題比錢的問題更大 簽阿姆斯和巴頓很離譜

直播吧
2025-04-22 17:17:07
充10分鐘續航2000公里!固態電池正式投產,豐田徹底急了

充10分鐘續航2000公里!固態電池正式投產,豐田徹底急了

瘋狂小菠蘿
2025-04-21 18:13:17
馬筱梅帶大S女兒逛樂園,小玥兒穿戴時尚變化大,臉型像極了大S!

馬筱梅帶大S女兒逛樂園,小玥兒穿戴時尚變化大,臉型像極了大S!

古希臘掌管月桂的神
2025-04-22 15:51:20
大冷!前世界第一大坂直美1-2惜敗NO.59 馬德里站一輪游

大冷!前世界第一大坂直美1-2惜敗NO.59 馬德里站一輪游

醉臥浮生
2025-04-22 21:12:36
NBA中國常規賽球衣銷量:詹姆斯庫里東契奇前3 湖人球隊榜第1

NBA中國常規賽球衣銷量:詹姆斯庫里東契奇前3 湖人球隊榜第1

直播吧
2025-04-22 20:28:13
大波浪副局長栽了!校園安全工程竟成千萬提款機

大波浪副局長栽了!校園安全工程竟成千萬提款機

J天星期五
2025-04-22 09:45:35
27球,本澤馬本賽季在沙特聯賽創造進球數超過C羅

27球,本澤馬本賽季在沙特聯賽創造進球數超過C羅

懂球帝
2025-04-22 16:48:02
一生只有兩張專輯,為何讓人念念不忘?

一生只有兩張專輯,為何讓人念念不忘?

草莓解說體育
2025-04-21 08:02:17
黃金,突發跳水!美股大反彈,比特幣破9萬美元!近11萬人爆倉

黃金,突發跳水!美股大反彈,比特幣破9萬美元!近11萬人爆倉

證券時報e公司
2025-04-22 22:38:37
絕了,約基奇絕了!拉低NBA超巨的檔次……

絕了,約基奇絕了!拉低NBA超巨的檔次……

籃球實戰寶典
2025-04-22 21:21:19
約基奇:小卡搞定了那些高難度投籃 但對他來說這真的算得上難嗎

約基奇:小卡搞定了那些高難度投籃 但對他來說這真的算得上難嗎

直播吧
2025-04-22 15:42:12
B-1B轟炸機抵達日本后,中國公布“非核氫彈”試驗,老美猝不及防

B-1B轟炸機抵達日本后,中國公布“非核氫彈”試驗,老美猝不及防

國際阿嘗
2025-04-22 13:57:57
2025-04-23 00:07:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12575文章數 66019關注度
往期回顧 全部

科技要聞

美團騎手親述:京東外賣單子傭金高卻難搶

頭條要聞

越南總理定調與美關稅談判后 越南股市一度閃崩后反轉

頭條要聞

越南總理定調與美關稅談判后 越南股市一度閃崩后反轉

體育要聞

當今足壇最瘋的門將,能有多離譜?

娛樂要聞

大s兒女回京!張蘭氣場全開汪小菲談養老

財經要聞

宜賓銀行與五糧液集團頻繁關聯交易

汽車要聞

捷途山海T2加長版/山海L9等 捷途新車展前亮相

態度原創

數碼
親子
游戲
手機
軍事航空

數碼要聞

繪王推出 Kamvas Slate 11/13 平板電腦:全貼合屏,4096 級壓感

親子要聞

氣質這塊拿捏得死死的

騰訊發布會:《王者世界》《流放之路2》情報搶先看!

手機要聞

蘋果移除 Apple Intelligence 頁面“現已可用”標簽

軍事要聞

普京三年來首次向烏克蘭發出“和談邀約”

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 木兰县| 石狮市| 密云县| 高台县| 镇远县| 五河县| 青川县| 长沙市| 宁化县| 汨罗市| 时尚| 上饶县| 宜阳县| 正镶白旗| 图们市| 鄂温| 韶关市| 徐闻县| 仁寿县| 金沙县| 永仁县| 敦化市| 新竹县| 全南县| 延川县| 五寨县| 寿阳县| 钟祥市| 长岛县| 六安市| 汉川市| 黄骅市| 武功县| 仪陇县| 南丹县| 沙雅县| 波密县| 临城县| 汽车| 仁布县| 太仓市|