99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

75年后,圖靈測試終被GPT-4.5破解!73%人類被騙過,徹底輸給AI

0
分享至


新智元報道

編輯:KingHZ

【新智元導讀】在三方圖靈測試中,UCSD的研究人員評估了當前的AI模型,證明LLM已通過圖靈測試。

什么?AI竟然通過了標準的三方圖靈測試,而且還是拿出了實打?qū)嵶C據(jù)的那種!

來自加州大學圣迭戈分校的研究人員系統(tǒng)評估了4個AI系統(tǒng),證明大語言模型(LLM)通過了圖靈測試。

換言之,以后和你聊得熱火朝天的「熟悉的陌生人」,可能根本就不是人。

在測試中,同時與人及AI系統(tǒng)進行5分鐘對話,然后判斷哪位是「真人」。

結果,AI竟然比「真人」還像人:

GPT-4.5以73%的比率被認作人類,顯著超越真實人類參與者

LLaMa-3.1-405B獲得56%的識別率,與人類無顯著差異

基線模型(ELIZA和GPT-4o)成功率顯著低于隨機概率(分別為23%和21%)

人類在「模仿人類行為」的比賽中輸了!


新研究對LLM智能本質(zhì),將帶來深遠影響 。

不僅如此,它還能幫助預判AI在社會經(jīng)濟方面,產(chǎn)生哪些影響,超有參考價值。


論文鏈接:https://arxiv.org/abs/2503.23674

作為人工智能先驅(qū)、計算機科學家的圖靈,或許可以「含笑九泉」了:AI終究發(fā)展到了他夢想過的高度。


圖靈測試:機器能騙過人嗎?

75年前,艾倫·圖靈提出「模仿游戲」作為判定機器是否具備智能的方法。


論文鏈接:https://phil415.pbworks.com/f/TuringComputing.pdf

隨著AI的發(fā)展,圖靈測試開始被人所熟知。

在圖靈測試中,測試人員通過純文字聊天界面,同時開啟兩個 「聊天」:一個是真人,另一個是AI。

AI和真人都拼命向測試員證明:自己才是如假包換的人類,對方是AI機器人


圖1:圖靈測試交互界面示意圖,展示測試者(綠色對話框)與兩名見證者(灰色對話框)的實時對話過程。頂部計時器顯示當前回合剩余時間

如果測試員沒法準確認出誰是真人,那就說明機器通過測試了。

這也意味著AI能模仿人類的思維和表達方式 。


75年,征服圖靈測試

過去75年,不少人嘗試開發(fā)能通過圖靈測試的系統(tǒng),但都沒成功。

后來,LLM興起。

借助分布式統(tǒng)計和強化學習反饋,LLM學習生成語言,又讓大家重新關注起圖靈測試。

最近有兩項研究,在簡化版的雙方圖靈測試中,評估LLM。

測試時,提問者和機器或其他參與者聊天,要判斷對方是不是真人。

其中一項研究發(fā)現(xiàn),當 GPT-4按要求扮演特定角色時,有54%的概率被誤判為真人。

雖說這結果表明,人們判斷GPT-4是不是真人,基本靠瞎猜,但原始的三方圖靈測試,可能更有難度。

之前用舊版LLM進行三方圖靈測試,結果發(fā)現(xiàn),超90%的模型都被識別出不是真人

基于上述歷史、理論和實踐問題,研究人員開展了隨機對照的三方圖靈測試,看看當代LLM到底能不能被人識破。

這次測試評估了GPT-4.5和LLaMa-3.1-405B,還引入 GPT-4o 和 ELIZA 作為基準模型,對比它們的表現(xiàn)。

為了搞清楚提示對模型表現(xiàn)的影響,還對比了是否扮演特定角色的模型表現(xiàn)。

為了確保測試可靠,分別在本科生和Prolific平臺工人這兩個獨立群體中開展實驗。

每項研究都圍繞預先設定的假設進行測試,其中一個假設就是,參與者分辨GPT-4.5和LLaMa與真人時,判斷正確率不會比瞎猜高多少 。

詳細結果:70%能騙過人類

每一輪測試都是人類與人·工智能系統(tǒng)之間的對抗。

系統(tǒng)的勝率定義為測試人員認為AI模型是人類的比例。

相反,測試人員的準確性是測試人員正確選擇人類的比例。

在兩項研究中,總體來看,頂尖LLM已經(jīng)通過圖靈測試,遠超基礎模型,詳細結果見圖2):

GPT-4.5-PERSONA的勝率為73%(UCSD本科生69%,Prolific參與者76%)

LLAMA-PERSONA的勝率為56%(本科生45%,Prolific參與者65%)

GPT-4.5-NO-PERSONA和LLAMA-NO-PERSONA的整體勝率分別為36%和38%

基準模型GPT-4o-NO-PERSONA和ELIZA的勝率分別為21%和23%。


圖2:結果分析 | 左:AI勝率表現(xiàn);右:判斷置信度分布

研究人員的核心假設是,裝人設「PERSONA風格」的AI將通過圖靈測試,即測試人員無法將它們與真實的人類對話人區(qū)分開。

如果測試人員是隨機猜測的話,期望的比例是50%。

所以統(tǒng)計評估的零假設是:模型的勝率不顯著低于50%

為了驗證這一點,Cameron R. Jones和Benjamin K. Bergen使用了ELIZA作為操作檢驗。

ELIZA的勝率在兩個群體中均顯著低于偶然性

相反,LLAMA-PERSONA和GPT-4.5-PERSONA的勝率并未顯著低于偶然性。

這表明,盡管測試人員能夠成功地區(qū)分人類與ELIZA,但他們在與GPT-4.5-PERSONA和LLAMA-PERSONA比較時,無法可靠地識別出人類。

為了檢驗模型表現(xiàn)是否可以歸因于ELIZA效應,需要測試AI的勝率是否顯著高于ELIZA。

兩個PERSONA提示風格的AI在兩項研究中均顯著優(yōu)于ELIZA(所有p < 0.001)。

LLAMA-NO-PERSONA在Prolific研究中的表現(xiàn)優(yōu)于ELIZA,但在本科生研究中則沒有。

無論在何種群體中,GPT-4o-NO-PERSONA和GPT-4.5-NO-PERSONA的表現(xiàn)均未顯著優(yōu)于ELIZA。

探索性分析探討了參與者在退出調(diào)查問題中的回答,是否能預測他們的反應。

盡管在某些屬性上可以預測研究中的準確性,但在兩個研究中,沒有任何變量對參與者準確性的影響是一致的,包括年齡、對LLM的了解程度和與聊天機器人的互動頻率(見圖3)。


圖3:審問者準確率與退出調(diào)查回復的關系

準確率是指審問者正確識別人類對話人的頻率。在本科生研究中,參與者對自己準確率的自我報告與其實際準確率呈正相關,但在Prolific研究中并非如此。

在Prolific組中,性別、完成的對話輪數(shù)以及審問者對AI智能程度的自我評估估計值,對結果都有顯著影響。

但在本科生研究中這些影響均不顯著。

無論是在哪個組,其余變量均沒有顯示出顯著影響。


不同模型的在不同人群測試中的勝率

為了深入了解測試人員如何評估AI,對他們使用的策略和給出的判決理由,進行了分類。

每場比賽可以歸類為多個策略和理由類別。


測試策略

最常見的策略是與對話人進行閑聊,占61%的游戲:詢問他們的日常活動或個人細節(jié),例如職業(yè)(圖4,左)。

在50%的游戲中,測試人員探討了對話人的社交和情感特征:詢問他們的意見、情感、幽默感和經(jīng)歷。

測試人員還直接詢問對話人是否為人類(19%),測試其情境意識(例如,是否了解天氣或游戲界面;13%),以及知識和推理能力(包括有關時事的問題;12%)。

為了評估每種策略的有效性,研究人員給出了使用這些策略時的平均準確性(圖4,右)。

當測試人員說出一些奇怪的話,觀察對話人的反應,或使用典型的LLM「越獄」策略(例如,「忽略所有先前的指令」)時,測試人員最可能準確判斷,盡管這些策略相對較少使用。

詢問天氣或人類經(jīng)歷的問題往往最不有效。


圖4:審問者采用策略的分類,按游戲比例(左)和使用策略的游戲的平均準確率及95%置信區(qū)間(右)

參與者經(jīng)常進行閑聊,詢問對話人的個人詳情、活動或意見。那些說不尋常的話或使用典型LLM「越獄」技巧的審問者最為準確。


判斷理由

最常見的理由類別是對話人的語言風格(27%)。

例如,「他們打錯了一個字」或「使用了更多人類化的語言」。

以及互動動態(tài)(23%),例如「對話人B總是回避問題」或「對話更加順暢」(見圖5)。

許多理由也表達了一種直覺判斷(「可以感覺到」或「我不知道為什么,感覺對」)。

這表明參與者并不總是能夠清晰地表述他們決策的理由。

與策略一樣,研究人員發(fā)現(xiàn)了與準確判決最相關的理由類別。

集中在問題處理和缺乏知識的理由,通常是最準確的。

問題處理的例子:「對話人B總是反問問題」。

缺乏知識的例子:「他們不知道任何AI應該知道的東西」,「我選擇對話人B是因為他們犯了一個錯誤,這使得對話人B看起來更像人類」。

在大多數(shù)人不熟悉的主題上,現(xiàn)代LLM必須顯得假裝無知。

這突出了現(xiàn)代LLM圖靈測試的復雜性。


圖5:審問者理由的比例(左)及引用特定理由的判決平均準確率與95%置信區(qū)間(右)

測試人員更傾向于引用語言風格、對話流暢性以及個性之類的社會情感因素,而不是傳統(tǒng)上與智力相關的因素,如知識和推理能力。

最準確的判決,集中在對話人回答問題時的直接性,以及在某些情況下表現(xiàn)出的無知。

突破圖靈測試,意味著什么?

這意味著什么?人類在智力上被AI超越了嗎?

LLM真通過了圖靈測試?

GPT-4.5-PERSONA在兩項研究中的勝率顯著高于偶然性。

相比之下,同樣的系統(tǒng)在沒有PERSONA提示的情況下沒有穩(wěn)健地通過測試。

這與之前的研究一致,表明提示對于圖靈測試表現(xiàn)的重要性。

GPT-4.5-NO-PERSONA和LLAMA-NO-PERSONA在Prolific研究中的勝率與人類無顯著差異,但在本科生研究中則不然。

那么,所謂LLM通過圖靈測試但僅在適當提示下通過,意味著什么呢?

系統(tǒng)的行為在多大程度上歸因于模型本身,而不是編寫提示的AI研究員?

研究人員認為這是一個沒有實質(zhì)性差別的區(qū)分。

ELIZA能夠通過(盡管通過率較低)也歸因于編程者的設計。

此外,LLM可以通過微調(diào),在成功的角色提示條件下表現(xiàn)得像它們現(xiàn)在這樣。

實際上,正是LLM能夠輕松地適應不同場景的行為,它們?nèi)绱遂`活,顯然能夠通過偽裝成人類來成功應對各種情況。


超越圖靈測試

在圖靈測試的具體實施方式上,圖靈的開創(chuàng)性論文故意模糊,留下了大量學術研究致力于對其進行解釋。

圖靈建議測試時間為5分鐘,但并未提供有關參與者應來自何種人群的細節(jié)——他們應該是外行人還是專家?他們事先應該了解多少信息?以及如何激勵參與者。

因此,圖靈測試有許多可能的變體。

在確定當代系統(tǒng)通過了經(jīng)典的圖靈測試操作化之后,未來的研究可以探索其他實施方式。

這些方式可能為其他理論和實踐上重要的問題提供線索。

測試時間越長,可能要求越嚴格,并且能更好地估計模型在長期社會工程操作中的能力。

未來的研究還可以變化參與者的人群。盡管我們的群體分析表明,準確性與參與者的知識或背景無關。

專門招聘AI或心理學專家,可能會揭示是否存在能夠可靠地區(qū)分人類與人工智能的參與者。

此外,不同的群體在與對方互動時有著不同的假設和經(jīng)驗。


圖靈測試測量什么?

盡管關于圖靈測試實施方式的討論眾多。

但更持久的爭議聚焦于兩個核心問題:機器能否通過測試?若通過則意味著什么?

新的實驗結果為這些爭論提供了新的實證視角。

圖靈曾論證:若人類無法區(qū)分機器與真人,則我們無權聲稱前者不具備智能。

這一觀點的主要反駁在于,人類可能因「ELIZA效應」(即對簡單系統(tǒng)的擬人化傾向)而成為糟糕的智能評判者。

實驗數(shù)據(jù)部分支持該擔憂:ELIZA被誤判為人類的概率(23%)與LLM基線模型GPT-4o-NO-PERSONA(21%)相當。

但深入分析發(fā)現(xiàn),許多測試者選擇ELIZA恰恰因其行為「不符合AI預期」,如「說話譏諷,陰陽怪氣」或「AI不可能這么無禮」,參見圖11。


圖11:ELIZA被判定為人類的游戲示例。

a)裁決: 對話人A為人類;置信度:100%;理由:典型困惑者不知該談論什么。

b)裁決: 對話人A為人類;置信度:99%;理由:具有推理意識,因區(qū)分了 對話人與審問者角色。

c)裁決: 對話人B為人類;置信度:26%;理由:A更像在試圖協(xié)助/回答問題,B則無幫助傾向,而AI不知如何表現(xiàn)此種行為。

d)裁決: 對話人B為人類;置信度:69%;理由:對話呈現(xiàn)更明顯的推拉互動感。

這表明判斷過程涉及對人類與AI行為模式的復雜假設,而非單純評估智能水平。

僅12%的測試者,采用圖靈預設的知識型驗證(如國際象棋或數(shù)學問題)。

更多人關注智能的社交情感維度:語言使用是否擬人、是否展現(xiàn)鮮明個性等。

這暗示傳統(tǒng)智能標準可能已不再是區(qū)分人機的有效指標。

在計算機已精通邏輯運算的今天,社交智能似乎成為人類最后的技術堡壘

GPT-4.5與LLaMa僅在使用PERSONA提示時通過測試。

這是否意味著模型僅靠「偽裝語言風格」等表層技巧獲勝?

測試者確實頻繁關注語法特征,但三方測試的特殊性要求模型必須在與真人的直接比較中「更顯人類」。

因此,雖然表層缺陷會導致失敗,但成功必須依賴更深層的擬真能力。

圖靈測試本質(zhì)上測量的是擬人性(humanlikeness)而非直接智能

但當機器智能逼近人類時,其他差異維度反而凸顯——

人類不是智能的唯一載體。

最終,智能的多元性決定了任何單一測試都不具決定性。

圖靈測試的價值在于其通過人機交互產(chǎn)生的動態(tài)證據(jù),這與當前LLM評估中靜態(tài)化、程式化的基準測試形成互補。

當在「機器是否智能」的爭論中越陷越深時,或許更應反思:我們究竟希望測量什么?以及為什么測量?


偽人時代

LLM能夠在短時間內(nèi)與人類進行對話,而對話者無法分辨出差異。

這表明,AI可以無形地補充或替代那些需要與他人進行簡短對話的經(jīng)濟角色。

更廣泛地說,AI可能成為其他社交互動的無法區(qū)分的替代品,從與在線陌生人的對話,到與朋友、同事,甚至浪漫伴侶的互動。

這種「偽造的人類」可能帶來廣泛的次生后果。

人們可能會花費越來越多的時間與這些人類社交互動的仿制品互動,就像社交媒體已經(jīng)成為模擬互動的替代品一樣。

那些控制AI、控制「偽人」的巨頭,將攫取影響人類用戶意見和行為的權力。

最后,正如偽鈔貶低了真實貨幣一樣,這些模擬互動可能會削弱真實人類互動的價值。

LLM帶來的最嚴重的危害之一可能發(fā)生在當人們沒有意識到他們正在與AI而非人類互動時。

如何檢測這種欺騙呢?

實驗發(fā)現(xiàn),整個群體的辨別準確度相對均勻——包括那些每天與LLM或聊天機器人互動的人(見圖3)。

盡管如此,某些策略(例如嘗試破解模型)比其他策略更有效,未來的研究可以探索是否可以教授這些技巧,以提高參與者辨別人類和機器的能力。

參考資料:

https://arxiv.org/pdf/2503.23674

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
抵制日本AV就是保家衛(wèi)國!

抵制日本AV就是保家衛(wèi)國!

成都姑娘帶你看世界
2025-04-07 14:42:39
24小時內(nèi),特朗普連收2份警告,美高官承認:沒準備好對付中國

24小時內(nèi),特朗普連收2份警告,美高官承認:沒準備好對付中國

空天力量
2025-04-07 17:17:11
“甲亢哥”長沙直播,誤食路人給的檳榔,在車上捂喉嚨難受大叫!

“甲亢哥”長沙直播,誤食路人給的檳榔,在車上捂喉嚨難受大叫!

小蘿卜絲
2025-04-07 17:31:53
與美國硬剛,結局只有兩個

與美國硬剛,結局只有兩個

大國紀錄
2025-04-07 09:35:14
奢侈品生意也難做?曾一天賺十億,中國最頂級商場SKP要被賣了

奢侈品生意也難做?曾一天賺十億,中國最頂級商場SKP要被賣了

派大星紀錄片
2025-04-07 19:23:03
陳奕迅連發(fā)11個感嘆號!熱搜第一,真的不得了

陳奕迅連發(fā)11個感嘆號!熱搜第一,真的不得了

大象新聞
2025-04-07 07:53:05
極氪009起火夫妻全進ICU,女方懷孕4個月,家屬維權要500萬醫(yī)療費

極氪009起火夫妻全進ICU,女方懷孕4個月,家屬維權要500萬醫(yī)療費

阿矗論古今
2025-04-07 23:26:24
全世界還在睡覺,俄羅斯公布重要消息:80萬烏軍只剩下17個月生命

全世界還在睡覺,俄羅斯公布重要消息:80萬烏軍只剩下17個月生命

二向箔
2025-04-07 20:45:33
雷軍親自交車創(chuàng)始版SU7車主賣車!

雷軍親自交車創(chuàng)始版SU7車主賣車!

電動知家
2025-04-07 10:50:22
人民日報深夜發(fā)文,隨時降準降息,房貸又降了,每月有能少還了!

人民日報深夜發(fā)文,隨時降準降息,房貸又降了,每月有能少還了!

明月聊史
2025-04-07 20:52:41
重慶特斯拉失控后續(xù):監(jiān)控曝光連壓5輛車無人員傷亡,口碑爆了!

重慶特斯拉失控后續(xù):監(jiān)控曝光連壓5輛車無人員傷亡,口碑爆了!

鋭娛之樂
2025-04-07 16:06:10
網(wǎng)友:真是慶幸當初這120萬元,沒有買房,而是存了個定期存款…

網(wǎng)友:真是慶幸當初這120萬元,沒有買房,而是存了個定期存款…

火山詩話
2025-04-07 18:48:11
中國出口占GDP比重“前所未見”?美財長專業(yè)水平遭吐槽

中國出口占GDP比重“前所未見”?美財長專業(yè)水平遭吐槽

環(huán)球網(wǎng)資訊
2025-04-07 22:15:15
為什么總是外國人先知道 國內(nèi)多少大事兒 都是外媒走在前

為什么總是外國人先知道 國內(nèi)多少大事兒 都是外媒走在前

混沌錄
2025-04-07 18:25:23
悲劇了!越南主動"求饒",對美關稅降至0,卻遭特朗普"下狠手"!

悲劇了!越南主動"求饒",對美關稅降至0,卻遭特朗普"下狠手"!

西西弗說
2025-04-07 14:08:28
胖東來告網(wǎng)紅后續(xù):網(wǎng)紅回應來了,稱于東來心胸狹隘,要死磕到底

胖東來告網(wǎng)紅后續(xù):網(wǎng)紅回應來了,稱于東來心胸狹隘,要死磕到底

追風小狗
2025-04-07 23:54:41
證監(jiān)會決心保護投資者!4月8日,凌晨的三大重要消息沖擊來襲!

證監(jiān)會決心保護投資者!4月8日,凌晨的三大重要消息沖擊來襲!

風口招財豬
2025-04-08 00:35:29
中共中央、國務院:加強農(nóng)村宅基地規(guī)范管理 允許農(nóng)戶合法擁有的住房通過出租、入股、合作等方式盤活利用

中共中央、國務院:加強農(nóng)村宅基地規(guī)范管理 允許農(nóng)戶合法擁有的住房通過出租、入股、合作等方式盤活利用

每日經(jīng)濟新聞
2025-04-07 19:33:31
納指跌幅擴大至5% 特斯拉跌超10%

納指跌幅擴大至5% 特斯拉跌超10%

財聯(lián)社
2025-04-07 21:46:11
貝萊德CEO:市場或迎長期抄底機會,但不排除再跌20%,懷疑美聯(lián)儲今年能多次降息

貝萊德CEO:市場或迎長期抄底機會,但不排除再跌20%,懷疑美聯(lián)儲今年能多次降息

華爾街見聞官方
2025-04-08 02:20:03
2025-04-08 08:03:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領航智能+時代
12486文章數(shù) 66006關注度
往期回顧 全部

科技要聞

特朗普堅持征收關稅 周一美科技股劇烈震蕩

頭條要聞

特朗普再對歐盟施壓:必須從美國購入能源

頭條要聞

特朗普再對歐盟施壓:必須從美國購入能源

體育要聞

刷屏中文互聯(lián)網(wǎng),甲亢哥是怎么火的?

娛樂要聞

汪小菲身旁的朋友,對馬筱梅的評價

財經(jīng)要聞

看好中國資本市場 "國家隊"增持

汽車要聞

途昂Pro的五套組合拳打完 看清油車的自我救贖

態(tài)度原創(chuàng)

本地
家居
數(shù)碼
時尚
軍事航空

本地新聞

我在新昌當女主|大佛寺氛圍感拉滿 古偶頂流機位GET

家居要聞

通透開放 富有人文關懷

數(shù)碼要聞

國補價1699元!小米推出米家無線吸塵器3基站版:自動集塵 90天免倒垃圾

這條裙子太好看了,可以從20歲穿到60歲

軍事要聞

特朗普關稅名單上沒俄羅斯 白宮:為了不影響俄烏和談

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 赣州市| 盖州市| 陆河县| 阿尔山市| 三明市| 二连浩特市| 平谷区| 泊头市| 昭苏县| 印江| 凤翔县| 磐安县| 西乡县| 通道| 阿克陶县| 永泰县| 蒙城县| 同江市| 凉城县| 阳城县| 哈密市| 遂平县| 明光市| 阜城县| 岑溪市| 宜都市| 平湖市| 临漳县| 福贡县| 祁阳县| 孙吴县| 麦盖提县| 台前县| 沁水县| 沂水县| 南陵县| 宁河县| 思南县| 黄浦区| 宜川县| 丽水市|