網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

得分僅1%！所有AI模型都輸了！但我們真要解決的問題是……

2025-04-02 06:43:11　來源: 王煜全

北京舉報

分享至

▲點擊圖片報名，抓住風口（iOS用戶請用電腦端打開小程序）

本期要點：AI也要應試？但真正該做的是換條路！

你好，我是王煜全，這里是王煜全要聞評論。

面對這場AI浪潮，大家常常感到恐慌。特別是在馬斯克的不斷宣傳下，很多人都擔心AI很快會取代人類，甚至導致人類毀滅。

但是，就像昨天我們介紹楊立昆對人形機器人的看法時提到的，人類距離實現(xiàn)AGI（通用人工智能）還很遙遠，所以大家大可不必被“AI末日說”搞得一驚一乍。

而且，最近我們又看到了一個有趣的新聞，證明了AI至少在短期內(nèi)無法替代人類。

上周，“弧光獎基金會”（Arc Prize Foundation）發(fā)布了一項名為ARC-AGI-2的測試。根據(jù)他們的數(shù)據(jù)，這個測試已經(jīng)難倒了幾乎所有現(xiàn)有的AI模型。

如OpenAI的o1-pro和DeepSeek的R1等推理AI大模型，在ARC-AGI-2測試中的得分僅為1%~1.3%。而各類非推理模型，如GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Flash等，得分則更低。

更關鍵的是，研究人員邀請了400多個普通人參與ARC-AGI-2測試。結果顯示，平均而言，大家答對了測試中60%的問題，遠遠超過了所有模型的得分。

也就是說，“弧光獎基金會”找到了一類人類比較擅長、但AI幾乎無法完成的任務，而且鑒于AI得分如此之低，它們在短期內(nèi)想要超過人類，難度很大。

我認為，當前大模型在ARC-AGI-2測試中的潰敗，確實暴露了AI方法論上的問題，表明單純堆砌算力和數(shù)據(jù)量并不能碾壓一切。如果要進一步發(fā)展，必須轉換思路。同時，這也觸及了人工智能領域的一個核心問題：如何判斷一個模型是否真正具備了通用智能。

首先，你也許會好奇，是什么事情把AI難住了？

其實在科技界，ARC-AGI測試已小有名氣。這些問題類似于謎題，比如要求AI從一組顏色各異的方塊中識別出視覺模式，并生成正確的“答案”網(wǎng)格。說白了，就是給AI一些從未見過的新問題，考驗其發(fā)現(xiàn)規(guī)律、解決問題的能力。

簡而言之，這就是為了測試AI的“小樣本泛化”能力，也就是我們常說的“舉一反三”、“觸類旁通”—-從對少量案例的觀察中發(fā)現(xiàn)規(guī)律、并運用到后續(xù)實踐中的能力。通過不了ARC-AGI-2測試，至少說明當前的AI方法論存在上限，未來也很難實現(xiàn)AGI。

ARC-AGI-2測試題目

人類智能的獨特性，正體現(xiàn)在能從有限的經(jīng)驗中抽象出通用規(guī)則。例如，我們能從數(shù)字變化中總結出乘法規(guī)則，然后還能用這些規(guī)則進行計算，既不會算錯，也不會因為問題的表述形式（比如是應用題、而不是算術式）而不會解題。

但當前的AI大模型經(jīng)常出現(xiàn)幻覺，在99%的情況下非常可靠，在1%的狀況下卻會發(fā)生荒誕失誤。正如Meta首席AI科學家楊立昆（Yann LeCun）所指出的，當前AI大模型都是基于自回歸預測機制，也就是“猜下一個詞”，這還是概率，而不是真的理解了規(guī)律，自然永遠無法超越人類智能。

因為現(xiàn)有的AI，不光不能“觸類旁通”，還得“舉一萬才能返三”，所以，對那些沒見過的事情，AI就是答不出來；對那些小概率事件，AI就是應對不好，這是刻在骨子里的缺陷。

但是，話說回來，我想強調的是，單純追求小樣本泛化的能力的測試結果，可能會陷入測試導向的發(fā)展誤區(qū)。

如果未來有AI大模型通過了ARC-AGI-2測試，是否就意味著實現(xiàn)了AGI呢？這顯然是站不住腳的，因為這樣的測試并沒有排除用別的方法找到結果的可能性，也就是說，做對了題的AI，也不保證用的就是“小樣本泛化”能力。

實際上，在ARC-AGI的第一代測試中，就有模型通過暴力破解的方式獲得了高分。

例如，OpenAI的o3，就是首個在ARC-AGI-1上取得了75.7%高分的模型。但很明顯，這并不能真正證明o3有小樣本泛化能力，更不能證明它達到了AGI的水平，大概率是模型為了刷分而專門進行了優(yōu)化。

為了解決這一問題，ARC-AGI-2測試就要求模型在解答問題時，每項任務花費不能超過0.42美元。不僅要能獲得高分，還要考慮效率和成本。由于o3模型每解答一個問題就需要消耗約200美元的計算成本，所以無法通過新的測試。

可是這并沒有高枕無憂，只要是設計的測試題，就有可能存在漏洞。很難說以后不會有模型在訓練中，找到新的暴力破解或者偶然撞對答案的方法，那樣，測試題的效力就會大打折扣。

那么，究竟該怎么辦呢？我認為，自然是要嘗試新的具有真正理解能力的模型設計，而不是仍然試圖通過現(xiàn)有模型概率預測的舊方法來取得高分。

楊立昆倡導“世界模型”，通過嵌入物理定律和因果推理模塊來構建基礎認知架構，以求從范式上超越現(xiàn)有AI大模型。他們的團隊也開始了初步探索，未來可以關注其后續(xù)進展。

但我覺得，“世界模型”也是不夠的。AI的競爭不僅靠技術革命，更要靠認知革命。

首先，我們或許應該要理解人類“舉一反三”的能力從何而來。所謂泛化，其實是記憶、感知和抽象動態(tài)交互的結果。遇到新事物時，我們會以很低的功耗從現(xiàn)象中抽象出規(guī)則，并在可控范圍內(nèi)將其與已有的規(guī)則和經(jīng)驗進行比較。

就像古人第一次見到大象時，雖然叫不出其名字，但也會與既往的認知進行關聯(lián)，將其放入大型野生動物的認知框架之中，知道不能切成一塊塊的來稱重量。

其次，我們的認知其實是個貝葉斯式漸進優(yōu)化的過程，體現(xiàn)為以目標為導向、且能持續(xù)進行自我修正。即便碰到?jīng)]見過的問題，在大部分情況下，我們通過學習知識、原理分析和實踐嘗試，就能在有限次的循環(huán)中朝正確方向收斂。而AI只有實現(xiàn)了這一點，才能避免陷入重復試錯的低效運轉之中。

最后，我還想強調的是，社會化AI可能才是通往下一階段的重要路徑，因為人類的智慧不僅來自個體，更來自于群體。具體可以回看以往的思想薈文章，我有更詳細的論述。

當然，對于廣大的開發(fā)者和創(chuàng)業(yè)者而言，我們不用管AGI何時到來，專家型AI確實可以遠超人類專家，專家級的、個性化的、連續(xù)的、普惠的智能服務已經(jīng)可以實現(xiàn)，真正的黃金時代其實就已經(jīng)到來了。如果你也想抓住時代紅利，歡迎掃碼加入特訓營直播課，與我一起，先人一步，看清未來！

此外，前哨AI小課第四季已經(jīng)進展到第五講了，想用AI提升自己職業(yè)能力的朋友，千萬不要錯過！最后，您的寶貴意見是我們不斷優(yōu)化課程內(nèi)容的關鍵，在此誠摯地邀請您抽出幾分鐘，掃碼參與AI小課的問卷調查，一起幫助我們提升課程質量。非常感謝！

以上就是今天的內(nèi)容，王煜全要聞評論，我們明天見。

【科技特訓營】看懂科技產(chǎn)業(yè)，離不開長期觀察。線上書院模式，與王老師深度鏈接！為未來五年做好準備，先人一步，領先一路！

↓長按圖片掃碼報名，先人一步，領先一路

↓￥399，掌握王煜全AI產(chǎn)業(yè)預測精華（iOS用戶請在電腦端打開）

此外，我們還為您準備了一份清單

“全球AI獨角獸公司TOP10”

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.