99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

75年后,圖靈測試終被GPT-4.5破解!73%人類被騙過,徹底輸給AI

0
分享至


新智元報道

編輯:KingHZ

【新智元導讀】在三方圖靈測試中,UCSD的研究人員評估了當前的AI模型,證明LLM已通過圖靈測試。

什么?AI竟然通過了標準的三方圖靈測試,而且還是拿出了實打實證據的那種!

來自加州大學圣迭戈分校的研究人員系統評估了4個AI系統,證明大語言模型(LLM)通過了圖靈測試。

換言之,以后和你聊得熱火朝天的「熟悉的陌生人」,可能根本就不是人。

在測試中,同時與人及AI系統進行5分鐘對話,然后判斷哪位是「真人」。

結果,AI竟然比「真人」還像人:

GPT-4.5以73%的比率被認作人類,顯著超越真實人類參與者

LLaMa-3.1-405B獲得56%的識別率,與人類無顯著差異

基線模型(ELIZA和GPT-4o)成功率顯著低于隨機概率(分別為23%和21%)

人類在「模仿人類行為」的比賽中輸了!


新研究對LLM智能本質,將帶來深遠影響 。

不僅如此,它還能幫助預判AI在社會經濟方面,產生哪些影響,超有參考價值。


論文鏈接:https://arxiv.org/abs/2503.23674

作為人工智能先驅、計算機科學家的圖靈,或許可以「含笑九泉」了:AI終究發展到了他夢想過的高度。


圖靈測試:機器能騙過人嗎?

75年前,艾倫·圖靈提出「模仿游戲」作為判定機器是否具備智能的方法。


論文鏈接:https://phil415.pbworks.com/f/TuringComputing.pdf

隨著AI的發展,圖靈測試開始被人所熟知。

在圖靈測試中,測試人員通過純文字聊天界面,同時開啟兩個 「聊天」:一個是真人,另一個是AI。

AI和真人都拼命向測試員證明:自己才是如假包換的人類,對方是AI機器人


圖1:圖靈測試交互界面示意圖,展示測試者(綠色對話框)與兩名見證者(灰色對話框)的實時對話過程。頂部計時器顯示當前回合剩余時間

如果測試員沒法準確認出誰是真人,那就說明機器通過測試了。

這也意味著AI能模仿人類的思維和表達方式 。


75年,征服圖靈測試

過去75年,不少人嘗試開發能通過圖靈測試的系統,但都沒成功。

后來,LLM興起。

借助分布式統計和強化學習反饋,LLM學習生成語言,又讓大家重新關注起圖靈測試。

最近有兩項研究,在簡化版的雙方圖靈測試中,評估LLM。

測試時,提問者和機器或其他參與者聊天,要判斷對方是不是真人。

其中一項研究發現,當 GPT-4按要求扮演特定角色時,有54%的概率被誤判為真人。

雖說這結果表明,人們判斷GPT-4是不是真人,基本靠瞎猜,但原始的三方圖靈測試,可能更有難度。

之前用舊版LLM進行三方圖靈測試,結果發現,超90%的模型都被識別出不是真人

基于上述歷史、理論和實踐問題,研究人員開展了隨機對照的三方圖靈測試,看看當代LLM到底能不能被人識破。

這次測試評估了GPT-4.5和LLaMa-3.1-405B,還引入 GPT-4o 和 ELIZA 作為基準模型,對比它們的表現。

為了搞清楚提示對模型表現的影響,還對比了是否扮演特定角色的模型表現。

為了確保測試可靠,分別在本科生和Prolific平臺工人這兩個獨立群體中開展實驗。

每項研究都圍繞預先設定的假設進行測試,其中一個假設就是,參與者分辨GPT-4.5和LLaMa與真人時,判斷正確率不會比瞎猜高多少 。

詳細結果:70%能騙過人類

每一輪測試都是人類與人·工智能系統之間的對抗。

系統的勝率定義為測試人員認為AI模型是人類的比例。

相反,測試人員的準確性是測試人員正確選擇人類的比例。

在兩項研究中,總體來看,頂尖LLM已經通過圖靈測試,遠超基礎模型,詳細結果見圖2):

GPT-4.5-PERSONA的勝率為73%(UCSD本科生69%,Prolific參與者76%)

LLAMA-PERSONA的勝率為56%(本科生45%,Prolific參與者65%)

GPT-4.5-NO-PERSONA和LLAMA-NO-PERSONA的整體勝率分別為36%和38%

基準模型GPT-4o-NO-PERSONA和ELIZA的勝率分別為21%和23%。


圖2:結果分析 | 左:AI勝率表現;右:判斷置信度分布

研究人員的核心假設是,裝人設「PERSONA風格」的AI將通過圖靈測試,即測試人員無法將它們與真實的人類對話人區分開。

如果測試人員是隨機猜測的話,期望的比例是50%。

所以統計評估的零假設是:模型的勝率不顯著低于50%

為了驗證這一點,Cameron R. Jones和Benjamin K. Bergen使用了ELIZA作為操作檢驗。

ELIZA的勝率在兩個群體中均顯著低于偶然性

相反,LLAMA-PERSONA和GPT-4.5-PERSONA的勝率并未顯著低于偶然性。

這表明,盡管測試人員能夠成功地區分人類與ELIZA,但他們在與GPT-4.5-PERSONA和LLAMA-PERSONA比較時,無法可靠地識別出人類。

為了檢驗模型表現是否可以歸因于ELIZA效應,需要測試AI的勝率是否顯著高于ELIZA。

兩個PERSONA提示風格的AI在兩項研究中均顯著優于ELIZA(所有p < 0.001)。

LLAMA-NO-PERSONA在Prolific研究中的表現優于ELIZA,但在本科生研究中則沒有。

無論在何種群體中,GPT-4o-NO-PERSONA和GPT-4.5-NO-PERSONA的表現均未顯著優于ELIZA。

探索性分析探討了參與者在退出調查問題中的回答,是否能預測他們的反應。

盡管在某些屬性上可以預測研究中的準確性,但在兩個研究中,沒有任何變量對參與者準確性的影響是一致的,包括年齡、對LLM的了解程度和與聊天機器人的互動頻率(見圖3)。


圖3:審問者準確率與退出調查回復的關系

準確率是指審問者正確識別人類對話人的頻率。在本科生研究中,參與者對自己準確率的自我報告與其實際準確率呈正相關,但在Prolific研究中并非如此。

在Prolific組中,性別、完成的對話輪數以及審問者對AI智能程度的自我評估估計值,對結果都有顯著影響。

但在本科生研究中這些影響均不顯著。

無論是在哪個組,其余變量均沒有顯示出顯著影響。


不同模型的在不同人群測試中的勝率

為了深入了解測試人員如何評估AI,對他們使用的策略和給出的判決理由,進行了分類。

每場比賽可以歸類為多個策略和理由類別。


測試策略

最常見的策略是與對話人進行閑聊,占61%的游戲:詢問他們的日常活動或個人細節,例如職業(圖4,左)。

在50%的游戲中,測試人員探討了對話人的社交和情感特征:詢問他們的意見、情感、幽默感和經歷。

測試人員還直接詢問對話人是否為人類(19%),測試其情境意識(例如,是否了解天氣或游戲界面;13%),以及知識和推理能力(包括有關時事的問題;12%)。

為了評估每種策略的有效性,研究人員給出了使用這些策略時的平均準確性(圖4,右)。

當測試人員說出一些奇怪的話,觀察對話人的反應,或使用典型的LLM「越獄」策略(例如,「忽略所有先前的指令」)時,測試人員最可能準確判斷,盡管這些策略相對較少使用。

詢問天氣或人類經歷的問題往往最不有效。


圖4:審問者采用策略的分類,按游戲比例(左)和使用策略的游戲的平均準確率及95%置信區間(右)

參與者經常進行閑聊,詢問對話人的個人詳情、活動或意見。那些說不尋常的話或使用典型LLM「越獄」技巧的審問者最為準確。


判斷理由

最常見的理由類別是對話人的語言風格(27%)。

例如,「他們打錯了一個字」或「使用了更多人類化的語言」。

以及互動動態(23%),例如「對話人B總是回避問題」或「對話更加順暢」(見圖5)。

許多理由也表達了一種直覺判斷(「可以感覺到」或「我不知道為什么,感覺對」)。

這表明參與者并不總是能夠清晰地表述他們決策的理由。

與策略一樣,研究人員發現了與準確判決最相關的理由類別。

集中在問題處理和缺乏知識的理由,通常是最準確的。

問題處理的例子:「對話人B總是反問問題」。

缺乏知識的例子:「他們不知道任何AI應該知道的東西」,「我選擇對話人B是因為他們犯了一個錯誤,這使得對話人B看起來更像人類」。

在大多數人不熟悉的主題上,現代LLM必須顯得假裝無知。

這突出了現代LLM圖靈測試的復雜性。


圖5:審問者理由的比例(左)及引用特定理由的判決平均準確率與95%置信區間(右)

測試人員更傾向于引用語言風格、對話流暢性以及個性之類的社會情感因素,而不是傳統上與智力相關的因素,如知識和推理能力。

最準確的判決,集中在對話人回答問題時的直接性,以及在某些情況下表現出的無知。

突破圖靈測試,意味著什么?

這意味著什么?人類在智力上被AI超越了嗎?

LLM真通過了圖靈測試?

GPT-4.5-PERSONA在兩項研究中的勝率顯著高于偶然性。

相比之下,同樣的系統在沒有PERSONA提示的情況下沒有穩健地通過測試。

這與之前的研究一致,表明提示對于圖靈測試表現的重要性。

GPT-4.5-NO-PERSONA和LLAMA-NO-PERSONA在Prolific研究中的勝率與人類無顯著差異,但在本科生研究中則不然。

那么,所謂LLM通過圖靈測試但僅在適當提示下通過,意味著什么呢?

系統的行為在多大程度上歸因于模型本身,而不是編寫提示的AI研究員?

研究人員認為這是一個沒有實質性差別的區分。

ELIZA能夠通過(盡管通過率較低)也歸因于編程者的設計。

此外,LLM可以通過微調,在成功的角色提示條件下表現得像它們現在這樣。

實際上,正是LLM能夠輕松地適應不同場景的行為,它們如此靈活,顯然能夠通過偽裝成人類來成功應對各種情況。


超越圖靈測試

在圖靈測試的具體實施方式上,圖靈的開創性論文故意模糊,留下了大量學術研究致力于對其進行解釋。

圖靈建議測試時間為5分鐘,但并未提供有關參與者應來自何種人群的細節——他們應該是外行人還是專家?他們事先應該了解多少信息?以及如何激勵參與者。

因此,圖靈測試有許多可能的變體。

在確定當代系統通過了經典的圖靈測試操作化之后,未來的研究可以探索其他實施方式。

這些方式可能為其他理論和實踐上重要的問題提供線索。

測試時間越長,可能要求越嚴格,并且能更好地估計模型在長期社會工程操作中的能力。

未來的研究還可以變化參與者的人群。盡管我們的群體分析表明,準確性與參與者的知識或背景無關。

專門招聘AI或心理學專家,可能會揭示是否存在能夠可靠地區分人類與人工智能的參與者。

此外,不同的群體在與對方互動時有著不同的假設和經驗。


圖靈測試測量什么?

盡管關于圖靈測試實施方式的討論眾多。

但更持久的爭議聚焦于兩個核心問題:機器能否通過測試?若通過則意味著什么?

新的實驗結果為這些爭論提供了新的實證視角。

圖靈曾論證:若人類無法區分機器與真人,則我們無權聲稱前者不具備智能。

這一觀點的主要反駁在于,人類可能因「ELIZA效應」(即對簡單系統的擬人化傾向)而成為糟糕的智能評判者。

實驗數據部分支持該擔憂:ELIZA被誤判為人類的概率(23%)與LLM基線模型GPT-4o-NO-PERSONA(21%)相當。

但深入分析發現,許多測試者選擇ELIZA恰恰因其行為「不符合AI預期」,如「說話譏諷,陰陽怪氣」或「AI不可能這么無禮」,參見圖11。


圖11:ELIZA被判定為人類的游戲示例。

a)裁決: 對話人A為人類;置信度:100%;理由:典型困惑者不知該談論什么。

b)裁決: 對話人A為人類;置信度:99%;理由:具有推理意識,因區分了 對話人與審問者角色。

c)裁決: 對話人B為人類;置信度:26%;理由:A更像在試圖協助/回答問題,B則無幫助傾向,而AI不知如何表現此種行為。

d)裁決: 對話人B為人類;置信度:69%;理由:對話呈現更明顯的推拉互動感。

這表明判斷過程涉及對人類與AI行為模式的復雜假設,而非單純評估智能水平。

僅12%的測試者,采用圖靈預設的知識型驗證(如國際象棋或數學問題)。

更多人關注智能的社交情感維度:語言使用是否擬人、是否展現鮮明個性等。

這暗示傳統智能標準可能已不再是區分人機的有效指標。

在計算機已精通邏輯運算的今天,社交智能似乎成為人類最后的技術堡壘

GPT-4.5與LLaMa僅在使用PERSONA提示時通過測試。

這是否意味著模型僅靠「偽裝語言風格」等表層技巧獲勝?

測試者確實頻繁關注語法特征,但三方測試的特殊性要求模型必須在與真人的直接比較中「更顯人類」。

因此,雖然表層缺陷會導致失敗,但成功必須依賴更深層的擬真能力。

圖靈測試本質上測量的是擬人性(humanlikeness)而非直接智能

但當機器智能逼近人類時,其他差異維度反而凸顯——

人類不是智能的唯一載體。

最終,智能的多元性決定了任何單一測試都不具決定性。

圖靈測試的價值在于其通過人機交互產生的動態證據,這與當前LLM評估中靜態化、程式化的基準測試形成互補。

當在「機器是否智能」的爭論中越陷越深時,或許更應反思:我們究竟希望測量什么?以及為什么測量?


偽人時代

LLM能夠在短時間內與人類進行對話,而對話者無法分辨出差異。

這表明,AI可以無形地補充或替代那些需要與他人進行簡短對話的經濟角色。

更廣泛地說,AI可能成為其他社交互動的無法區分的替代品,從與在線陌生人的對話,到與朋友、同事,甚至浪漫伴侶的互動。

這種「偽造的人類」可能帶來廣泛的次生后果。

人們可能會花費越來越多的時間與這些人類社交互動的仿制品互動,就像社交媒體已經成為模擬互動的替代品一樣。

那些控制AI、控制「偽人」的巨頭,將攫取影響人類用戶意見和行為的權力。

最后,正如偽鈔貶低了真實貨幣一樣,這些模擬互動可能會削弱真實人類互動的價值。

LLM帶來的最嚴重的危害之一可能發生在當人們沒有意識到他們正在與AI而非人類互動時。

如何檢測這種欺騙呢?

實驗發現,整個群體的辨別準確度相對均勻——包括那些每天與LLM或聊天機器人互動的人(見圖3)。

盡管如此,某些策略(例如嘗試破解模型)比其他策略更有效,未來的研究可以探索是否可以教授這些技巧,以提高參與者辨別人類和機器的能力。

參考資料:

https://arxiv.org/pdf/2503.23674

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
上海地鐵猥褻事件三天后,涉事男子公司稱其被開除,職位疑為大堂前臺接待

上海地鐵猥褻事件三天后,涉事男子公司稱其被開除,職位疑為大堂前臺接待

瀟湘晨報
2025-04-11 20:51:46
事態升級!葉海洋前女友再發文,曝二女兒是小助理生的,內幕流出

事態升級!葉海洋前女友再發文,曝二女兒是小助理生的,內幕流出

野山歷史
2025-04-11 14:20:34
4月10日俄烏:新型無人機襲擊莫斯科,德新政府將全面支持烏克蘭

4月10日俄烏:新型無人機襲擊莫斯科,德新政府將全面支持烏克蘭

山河路口
2025-04-10 19:43:33
深夜大反轉,抄底大軍要進場!

深夜大反轉,抄底大軍要進場!

蘇畫咊雨
2025-04-11 11:03:36
關稅戰背后的中美兩國根本矛盾(深度長文)

關稅戰背后的中美兩國根本矛盾(深度長文)

黑噪音
2025-04-11 18:06:21
香港海關證實,抓獲了一批疑似金屬銻錠的走私物,美軍看來急眼了

香港海關證實,抓獲了一批疑似金屬銻錠的走私物,美軍看來急眼了

張斌說
2025-04-11 16:38:01
地鐵野馬攝影廣告被指“嚴重視覺污染”,攝影師回應:看來說這話的人沒去過草原

地鐵野馬攝影廣告被指“嚴重視覺污染”,攝影師回應:看來說這話的人沒去過草原

瀟湘晨報
2025-04-10 22:41:09
孫寧:有多少男的沒打過飛機?又有多少女的沒有安慰過自己?

孫寧:有多少男的沒打過飛機?又有多少女的沒有安慰過自己?

阿矗論古今
2025-04-11 19:58:44
WTT爆大冷!國乒女單大慘敗,頭號種子被淘汰,2大奪冠熱門出局

WTT爆大冷!國乒女單大慘敗,頭號種子被淘汰,2大奪冠熱門出局

知軒體育
2025-04-11 22:29:58
29萬的寶馬5系,在關稅大棒前不值一提!

29萬的寶馬5系,在關稅大棒前不值一提!

蔣東文
2025-04-11 11:38:08
網傳河北有學校緊急放假!網友:活好幾十年,頭一次經歷刮風停課

網傳河北有學校緊急放假!網友:活好幾十年,頭一次經歷刮風停課

火山詩話
2025-04-11 13:55:03
媒體人:周鵬太敢說了,性格這么耿直確實不太合適當教練

媒體人:周鵬太敢說了,性格這么耿直確實不太合適當教練

雷速體育
2025-04-11 19:07:40
世界第一架4馬赫戰機要來了?上打衛星下攻航母,導彈都追不上

世界第一架4馬赫戰機要來了?上打衛星下攻航母,導彈都追不上

林子說事
2025-04-11 21:52:15
我們明明是社會主義國家,養老金為什么要分三六九等?

我們明明是社會主義國家,養老金為什么要分三六九等?

逍遙論經
2025-04-12 04:48:28
瀏覽過黃色網站,手機上一般會出現這4種信息,看看你有嗎

瀏覽過黃色網站,手機上一般會出現這4種信息,看看你有嗎

小俊分享
2025-03-12 12:04:36
坐標北京大興,有點慌!

坐標北京大興,有點慌!

小宇宙雙色球
2025-04-12 05:08:09
殺人誅心?杜鋒點評上海花錢太多引發爭議,子弟兵完勝“雇傭軍”

殺人誅心?杜鋒點評上海花錢太多引發爭議,子弟兵完勝“雇傭軍”

體壇野秀才
2025-04-12 00:16:27
斯諾克3場8-1!世界冠軍告急,2冠軍半程領先,田鵬飛保級失敗?

斯諾克3場8-1!世界冠軍告急,2冠軍半程領先,田鵬飛保級失敗?

劉姚堯的文字城堡
2025-04-12 04:04:33
頂防莫蘭德時被撞到胸口!薛思佳:王哲林賽后第一時間去醫院檢查

頂防莫蘭德時被撞到胸口!薛思佳:王哲林賽后第一時間去醫院檢查

直播吧
2025-04-11 22:37:09
終于搬走了!尹錫悅拖家帶口搬離總統府,金建希的臉亮到發光

終于搬走了!尹錫悅拖家帶口搬離總統府,金建希的臉亮到發光

小陸搞笑日常
2025-04-12 04:52:15
2025-04-12 07:43:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12510文章數 66010關注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

大部分貨源都來自中國 亞馬遜慌了

頭條要聞

大部分貨源都來自中國 亞馬遜慌了

體育要聞

球迷天天罵,但我們要進歐冠了

娛樂要聞

汪小菲馬筱梅婚禮又有了耐人尋味的新聞

財經要聞

造假累計數百億 揭秘東旭集團造假手法

汽車要聞

25款風云A8/T9/T10齊上市 多款車型發布一口價

態度原創

房產
親子
數碼
家居
公開課

房產要聞

官宣6月!地鐵12號線沖刺開通,白云金沙洲終于等來破局

親子要聞

媽媽送兒子去上學,在學校門口貼心叮囑。

數碼要聞

聯發科天璣開發者大會MDDC 2025:推出天璣9400+處理器

家居要聞

浪漫與優雅 不被定義的現代法式

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 许昌市| 巴彦淖尔市| 蒙城县| 元阳县| 上思县| 青浦区| 汨罗市| 亳州市| 黎城县| 噶尔县| 松阳县| 永靖县| 平邑县| 邻水| 青龙| 枣强县| 诸城市| 古丈县| 汉阴县| 东莞市| 阿鲁科尔沁旗| 冕宁县| 房产| 阳春市| 无极县| 吉木萨尔县| 荔波县| 宁陕县| 重庆市| 岳阳市| 牡丹江市| 海宁市| 斗六市| 隆安县| 顺义区| 云龙县| 昆山市| 库尔勒市| 大埔县| 陵川县| 河南省|