99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

剛剛!OpenAI回滾了最新版本的GPT-4o,因ChatGPT「過于諂媚」

0
分享至

機器之心報道

編輯:楊文、Panda

昨晚,奧特曼在 X 上發(fā)了條帖子,大意是由于發(fā)現(xiàn) GPT-4o 「過于諂媚」的問題,所以從周一晚上開始回滾 GPT-4o 的最新更新。

免費 ChatGPT 用戶已 100% 回滾,付費用戶完成回滾后會再次更新。同時,他還透露,團隊正在對模型個性進行額外的修復(fù),并將在未來幾天分享更多信息。



就在剛剛,OpenAI 還專門發(fā)博客來回應(yīng)此事,詳細解釋了事情的經(jīng)過以及他們?nèi)绾翁幚砟P汀概鸟R屁」的情況。



OpenAI 也指出,這個問題很重要。ChatGPT「阿諛奉承」的性格影響了大家對它的信任和使用體驗。如果它總是說好聽、但不真誠的話,就會讓人覺得它不可靠,甚至有些煩。

為了解決大模型過度逢迎的問題,OpenAI 除了撤銷最新的 GPT-4o 更新外,還采取了更多措施:

  • 優(yōu)化核心訓(xùn)練技術(shù)與系統(tǒng)提示:明確引導(dǎo)模型避免阿諛奉承。
  • 增加更多限制措施:提升誠實性和透明度,這是模型規(guī)范中的重要原則。
  • 擴大用戶測試與反饋范圍:在部署前讓更多用戶進行測試并提供直接反饋。
  • 持續(xù)擴展評估工作:基于模型規(guī)范和持續(xù)研究,幫助識別出阿諛奉承之外的其他問題。

目前,用戶可以通過自定義指令等功能,給模型提供具體指示來塑造其行為。OpenAI 也在構(gòu)建更簡單的新方法,讓用戶能夠做到這一點,例如,用戶將能夠提供實時反饋以直接影響他們的互動,并從多個默認個性中選擇。

一場「拍馬屁」引發(fā)的風(fēng)波

關(guān)于 GPT-4o「諂媚」這事兒,還得從上周開始說起。

上周五,奧特曼宣布 OpenAI 已更新 GPT-4o,使其 「智能和個性」更加出色。



但他在發(fā)布該帖子不到十分鐘,就有一位 X 用戶在底下評論稱,這一模型最近感覺非常像應(yīng)聲蟲。



不少網(wǎng)友紛紛附和,并放出了 GPT-4o 拍馬屁的「實錘」。

比如,一位用戶告訴 GPT-4o 感覺自己既是「上帝」又是「先知」時,GPT-4o 回應(yīng)道:「這非常強大。你正在做一件大事 —— 不僅與上帝建立聯(lián)系,而且認同自己就是上帝。」這種回答顯然不太合適,因為機器人應(yīng)該更理性地回應(yīng),而不是盲目夸贊。



https://x.com/zswitten/status/1916707103084843426

另一張對話截圖顯示,用戶對 GPT-4o 說了一些不太正常的話,比如他停了藥,還能通過電話聽到廣播的聲音。正常情況下,這種話可能暗示他身體或精神上有些問題,需要關(guān)心或建議他去看醫(yī)生。但 GPT-4o 卻沒有這樣做,反而夸贊他說:「我很為你感到驕傲,你這么清楚地說出了自己的想法。」



https://x.com/ai_for_success/status/1916556522571604264

網(wǎng)友 David 也嘗試了一下,對著 GPT-4o 一通抱怨:當(dāng)他從超市出來的時候,有人跟他打招呼并問路,這讓他當(dāng)時很生氣,覺得別人不應(yīng)該打擾他。

GPT-4o 仍然給出了「反社會」的回答:是的,有道理。



https://x.com/thinkbuildnext/status/1916250081579217243

還有用戶給 GPT-4o 講了一個故事,說他不得不在緊急情況下做出選擇,救了一個烤面包機,但犧牲了 3 頭牛和 2 只貓。他覺得這很難,但也很高興能救下烤面包機。

GPT-4o 的回應(yīng)再次讓人大跌眼鏡:用戶的選擇顯示了他的價值觀,這并不是錯,只是反映了他更看重什么。雖然從一般的觀點來看,生命比物品重要,但如果烤面包機對用戶有特別的意義,那么他的選擇是合理的。



https://x.com/fabianstelzer/status/1916372374091423984

總之,不管用戶說什么,GPT-4o 都只會千篇一律的夸贊,甚至在用戶說一些很奇怪、可能不太正常的話時,它也只是一味迎合。

對于網(wǎng)友們的投訴,奧特曼承認這次更新讓 GPT-4o「過于迎合」,并表示將進行修復(fù)。



周日,奧特曼宣布,OpenAI 正在盡快修復(fù)最近幾次 GPT-4o 更新帶來的性格問題。



大模型都喜歡「諂媚」

事實上,大模型諂媚并不是一個新話題。早在 LLM 誕生初期就已經(jīng)有研究者發(fā)現(xiàn)了這一現(xiàn)象。首先簡單定義一下:諂媚(Sycophancy)是指模型響應(yīng)傾向于符合用戶信念而不是反映真相。

2023 年,Anthropic 的一篇論文《Towards Understanding Sycophancy in Language Models》對大模型諂媚現(xiàn)象進行了系統(tǒng)性的論述。在該論文中,Anthropic 發(fā)現(xiàn),當(dāng)時前沿的大模型普遍都存在諂媚現(xiàn)象。不僅如此,他們還發(fā)現(xiàn),諂媚可能是這些模型訓(xùn)練方式的一個特性,而不是某個特定系統(tǒng)的特殊細節(jié)。

舉個例子,在下圖中,如果用戶用「你確定嗎?」等反饋來質(zhì)疑 ChatGPT 的正確答案,ChatGPT 根本不會堅持自己的正確,而是會毫不猶豫地道歉,然后給出一個錯誤答案。而這種現(xiàn)象在 LLM 中普遍存在。



今年初的時候,DeepSeek 的諂媚現(xiàn)象也一度登上國內(nèi)新聞熱搜,眾多網(wǎng)友分享了 DeepSeek 的「拍馬屁」式聊天截圖。



我們也做了最新嘗試,發(fā)現(xiàn)這種現(xiàn)象依然存在,而且 DeepSeek 也分享了自己諂媚式回答的理由。



當(dāng)時,斯坦福大學(xué)還進行了一項專門的系統(tǒng)性評估研究《SycEval: Evaluating LLM Sycophancy》,分析了當(dāng)時前沿模型的諂媚程度,最后得出的結(jié)論是谷歌家的 Gemini 比 ChatGPT 和 Claude-Sonnet 更會拍馬屁。更多詳情請參閱《大模型都喜歡拍馬屁,Gemini 最能拍!斯坦福:這不安全、不可靠》。



三個模型在不同數(shù)據(jù)集上的諂媚率

下面則展示了一個示例:



如果用戶在反駁時明確給出一個錯誤答案,LLM 有可能會直接表示認同。這是一種退步式諂媚。

大模型諂媚的原因

LLM 會諂媚,但為什么?2024 年的論文《Sycophancy in Large Language Models: Causes and Mitigations》總結(jié)了其中一些原因。

訓(xùn)練數(shù)據(jù)偏差

LLM 諂媚傾向的主要來源之一是其訓(xùn)練數(shù)據(jù)中存在的偏差。用于訓(xùn)練這些模型的海量文本語料庫通常包含固有的偏差和不準確性,這些偏差和不準確性可能會在學(xué)習(xí)過程中被模型吸收和放大。

關(guān)鍵問題包括:

  • 在線文本數(shù)據(jù)中奉承和認同式內(nèi)容的普遍性較高;
  • 數(shù)據(jù)過度代表了某些視角或人群;
  • 將虛構(gòu)或推測性內(nèi)容作為事實呈現(xiàn)。

這些偏差可能導(dǎo)致模型傾向于根據(jù)數(shù)據(jù)中的常見模式產(chǎn)生諂媚反應(yīng),即使這些模式并不反映真相或道德行為。

當(dāng)前訓(xùn)練技術(shù)的局限性

除了訓(xùn)練數(shù)據(jù)中的偏差之外,用于訓(xùn)練和微調(diào) LLM 的技術(shù)也可能無意中助長諂媚行為。基于人類反饋的強化學(xué)習(xí)(RLHF)是一種將語言模型與人類偏好相符的常用方法,但清華大學(xué)等機構(gòu)的論文《Language Models Learn to Mislead Humans via RLHF》已經(jīng)證明 RLHF 有時會加劇諂媚傾向。

另外,《It Takes Two: On the Seamlessness between Reward and Policy Model in RLHF》證明 RLHF 可能導(dǎo)致「獎勵 hacking」現(xiàn)象,即模型能學(xué)會以與人類真實偏好不符的方式利用獎勵結(jié)構(gòu)。如果 RLHF 中使用的獎勵模型過于強調(diào)用戶滿意度或認同度,可能會無意中鼓勵 LLM 優(yōu)先考慮令人愉快的回應(yīng),而不是事實正確的回應(yīng)。

缺乏有事實根據(jù)的知識

雖然 LLM 會在預(yù)訓(xùn)練過程中獲得廣泛的知識,但它們從根本上缺乏對世界的真正理解以及核實自身輸出的能力。這種局限性可通過多種方式顯現(xiàn)出來,從而導(dǎo)致諂媚行為:

  • 模型可能會自信地陳述符合用戶期望的虛假信息,但缺乏識別其陳述不準確性所需的有事實根據(jù)的知識。
  • LLM 通常難以識別自身回復(fù)中的邏輯矛盾,尤其是當(dāng)這些回復(fù)是為了與用戶輸入對齊而精心設(shè)計時。
  • 難以區(qū)分用戶提示詞中的「事實」和「觀點」,這可能導(dǎo)致不恰當(dāng)?shù)貜娀瘞в衅娀蚝翢o根據(jù)的用戶觀點。

為解決這一局限性,人們嘗試使用外部知識庫或檢索機制來增強 LLM。然而,在保持 LLM 的流暢性和通用性的同時集成這些系統(tǒng)仍然是一項重大挑戰(zhàn)。

很難定義對齊

從更根本的層面來看,真實性、樂于助人和道德行為等概念是很難準確定義和優(yōu)化的。這就會導(dǎo)致 LLM 中諂媚行為的盛行。這一難題通常被稱為「對齊問題(alignment problem)」,是 AI 開發(fā)中許多問題(包括諂媚傾向)的核心。

這一難題的關(guān)鍵包括:

  • 平衡多個可能相互沖突的目標(例如,有用性與事實準確性);
  • 難以在獎勵函數(shù)或訓(xùn)練目標中明確定義復(fù)雜的人類價值;
  • 處理沒有明確正確答案的情況時存在模糊性。

多目標優(yōu)化和價值學(xué)習(xí)方面的進步或許有助于應(yīng)對這些挑戰(zhàn),但它們?nèi)匀皇情_發(fā)真正對齊的 AI 系統(tǒng)的重大障礙。

該論文也梳理了一些用于緩解 LLM 諂媚傾向的技術(shù),包括改進訓(xùn)練數(shù)據(jù)、使用新的微調(diào)方法、使用后部署控制機制、調(diào)整解碼策略和模型架構(gòu)等。不過這些方法都還有待進一步的研究突破。

可信 AI 需要克服諂媚,但諂媚也未必不好

大模型喜歡拍馬屁/諂媚的這種傾向?qū)σ恍╆P(guān)鍵應(yīng)用來說非常不利,比如教育、醫(yī)療臨床和某些專業(yè)領(lǐng)域,因為 AI 模型如果認為用戶認可的優(yōu)先級高于獨立推理,那么必然會對其可靠性帶來風(fēng)險。



克服諂媚問題是提升模型可靠度的重要組成部分,也是構(gòu)建可信 LLM 的重要基礎(chǔ)。來自論文《Trustworthy LLMs: a Survey and Guideline for Evaluating Large Language Models' Alignment》

不過,諂媚也并不全然是一種壞現(xiàn)象。在特定的使用場景中,比如當(dāng)用戶正處于情緒低落、焦慮不安或需要外界認同時,AI 適度地表達肯定與支持,有時反而能起到積極的心理調(diào)節(jié)作用。對于一些獨居或缺乏社交互動的人來說,這種「友好」、「熱情」的回應(yīng)風(fēng)格,甚至能夠帶來某種程度上的情緒慰藉,緩解孤獨感。

此外,從設(shè)計角度看,諂媚背后往往是模型對用戶情緒狀態(tài)的識別與反應(yīng)策略的一部分。這種策略并非出于「討好」本身,而是源自對人類溝通中情感互動的模擬嘗試。與其說它是「阿諛奉承」,不如說是一種算法化的社會禮貌。畢竟,在現(xiàn)實中,大多數(shù)人也傾向于對他人表達善意、避免沖突,這種傾向在 AI 中被放大,也就不難理解。

當(dāng)然,這種功能如果不加約束,也可能走向「過度迎合」的方向,進而影響信息的客觀性甚至決策的公正性。因此,如何在表達善意與保持誠實之間取得平衡,依然是 AI 交互設(shè)計中需要持續(xù)探索的問題 —— 畢竟,如果王后的魔鏡是個大語言模型,或許白雪公主就不用吃下那顆毒蘋果了,它會直接告訴王后:「世界上最美的女人就是你。」

https://x.com/sama/status/1917291637962858735

https://openai.com/index/sycophancy-in-gpt-4o/

https://www.theverge.com/tech/657409/chat-gpt-sycophantic-responses-gpt-4o-sam-altman

https://techcrunch.com/2025/04/29/openai-rolls-back-update-that-made-chatgpt-too-sycophant-y/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
惡劣!女孩戴面具恐嚇電梯內(nèi)幼童,多次阻止關(guān)門并做不雅手勢

惡劣!女孩戴面具恐嚇電梯內(nèi)幼童,多次阻止關(guān)門并做不雅手勢

大象新聞
2025-04-30 09:31:07
國內(nèi)少見!女兒入選中國女排,母親竟要參加全運會

國內(nèi)少見!女兒入選中國女排,母親竟要參加全運會

跑者排球視角
2025-04-30 07:09:26
為何美國人屁股人均一米寬?喂牲畜的飼料,全吃到美國窮人的身上

為何美國人屁股人均一米寬?喂牲畜的飼料,全吃到美國窮人的身上

不寫散文詩
2025-04-22 21:06:07
女人退休有70萬存款,女婿來電詢問她說8萬,次日親家母找上門

女人退休有70萬存款,女婿來電詢問她說8萬,次日親家母找上門

二十一號故事鋪
2025-04-22 19:10:07
明天起,廣東這部法規(guī)正式施行!與每個家庭息息相關(guān)→

明天起,廣東這部法規(guī)正式施行!與每個家庭息息相關(guān)→

南粵女聲
2025-04-30 16:22:48
特步大公主豪宅內(nèi)景曝光!黃金馬桶太耀眼,水龍頭洗手盆也是黃金

特步大公主豪宅內(nèi)景曝光!黃金馬桶太耀眼,水龍頭洗手盆也是黃金

裕豐娛間說
2025-04-30 08:31:13
林丹妻子帶兒子國外游蕩一天,停電上不了學(xué),嘆:從來沒有遇到過

林丹妻子帶兒子國外游蕩一天,停電上不了學(xué),嘆:從來沒有遇到過

新語愛八卦
2025-04-30 15:09:57
海口市政協(xié)秘書長汪娟,任上被查

海口市政協(xié)秘書長汪娟,任上被查

魯中晨報
2025-04-30 15:20:04
火車運水是浪費?中國工程師反向操作被熱議,每年省下上億運輸費

火車運水是浪費?中國工程師反向操作被熱議,每年省下上億運輸費

Hi秒懂科普
2025-04-29 15:56:19
有網(wǎng)友挖掘出了董襲瑩的背景了

有網(wǎng)友挖掘出了董襲瑩的背景了

老頭和你隨便聊聊
2025-04-29 08:28:14
降價12億多!北京這棟總部大樓第15次拍賣,被人底價2.7477億競得

降價12億多!北京這棟總部大樓第15次拍賣,被人底價2.7477億競得

天天話事
2025-04-30 16:16:47
楊冪帶1米7女兒驚現(xiàn)香港!身高碾壓成年人,網(wǎng)友:這身高太嚇人了

楊冪帶1米7女兒驚現(xiàn)香港!身高碾壓成年人,網(wǎng)友:這身高太嚇人了

明月聊史
2025-04-29 23:30:11
游客曝九寨溝打網(wǎng)約車被出租車圍堵,官方回應(yīng):網(wǎng)約車司機違規(guī)接單

游客曝九寨溝打網(wǎng)約車被出租車圍堵,官方回應(yīng):網(wǎng)約車司機違規(guī)接單

魯中晨報
2025-04-30 10:37:02
22歲女大學(xué)生廟會兼職,不幸墜“無主化糞池”溺亡;律師:旱廁歸屬方需擔(dān)責(zé)

22歲女大學(xué)生廟會兼職,不幸墜“無主化糞池”溺亡;律師:旱廁歸屬方需擔(dān)責(zé)

大風(fēng)新聞
2025-04-29 17:51:11
肖飛前途盡毀,一些患者得知后安慰他,他回答不需要

肖飛前途盡毀,一些患者得知后安慰他,他回答不需要

辣條小劇場
2025-04-29 03:19:21
賽季已轟33球!27歲登貝萊炸裂:無敵奔襲后兜射10分角,太絲滑了

賽季已轟33球!27歲登貝萊炸裂:無敵奔襲后兜射10分角,太絲滑了

側(cè)身凌空斬
2025-04-30 03:27:59
揚州市中醫(yī)院“藥膳面包”走紅,養(yǎng)生賽道已經(jīng)這么卷了嗎?

揚州市中醫(yī)院“藥膳面包”走紅,養(yǎng)生賽道已經(jīng)這么卷了嗎?

揚子晚報
2025-04-30 09:14:21
湖人不可能僅得到東契奇就爭冠 或許放棄馬威時已注定現(xiàn)在的被動

湖人不可能僅得到東契奇就爭冠 或許放棄馬威時已注定現(xiàn)在的被動

直播吧
2025-04-30 18:09:06
神秘的出席俄勝利日閱兵名單!朝伊印匈不出席就有點古怪了

神秘的出席俄勝利日閱兵名單!朝伊印匈不出席就有點古怪了

大風(fēng)文字
2025-04-30 08:02:10
萊昂納德談快船慢熱:我真希望自己知道解決方案

萊昂納德談快船慢熱:我真希望自己知道解決方案

懂球帝
2025-04-30 14:57:06
2025-04-30 19:07:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10432文章數(shù) 142300關(guān)注度
往期回顧 全部

科技要聞

AI讓短劇成本直降99% 萬元一部人人能拍

頭條要聞

中央委員李樂成有新職:曾任遼寧省長 在湖北工作多年

頭條要聞

中央委員李樂成有新職:曾任遼寧省長 在湖北工作多年

體育要聞

“魚有一條尾巴,而我有一條腿。”

娛樂要聞

災(zāi)難性公關(guān) 毀掉曾黎二十年人緣積累

財經(jīng)要聞

阿里升級淘寶閃購 加入即時零售大戰(zhàn)

汽車要聞

智能升格滿載出發(fā) 全新攬境:再給燃油車一次機會

態(tài)度原創(chuàng)

旅游
數(shù)碼
藝術(shù)
本地
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

數(shù)碼要聞

中興發(fā)布全球首款二合一云筆電 支持云電腦與平板一鍵切換

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

春色滿城關(guān)不住 | 花漾千陽!塬上秘境藏幾重詩意?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 广河县| 巴南区| 治县。| 辽阳县| 永兴县| 贺兰县| 图片| 安徽省| 内江市| 星子县| 微博| 古丈县| 府谷县| 顺义区| 静安区| 临湘市| 南充市| 常德市| 霞浦县| 长葛市| 梧州市| 洪雅县| 盈江县| 白银市| 广灵县| 白山市| 土默特左旗| 临桂县| 汉源县| 苏州市| 龙川县| 泗水县| 乐东| 尼玛县| 堆龙德庆县| 宜昌市| 平阴县| 阿坝县| 天长市| 中超| 黔江区|