▲點擊圖片報名,抓住風口(iOS用戶請用電腦端打開小程序)
本期要點:AI也要應試?但真正該做的是換條路!
你好,我是王煜全,這里是王煜全要聞評論。
面對這場AI浪潮,大家常常感到恐慌。特別是在馬斯克的不斷宣傳下,很多人都擔心AI很快會取代人類,甚至導致人類毀滅。
但是,就像昨天我們介紹楊立昆對人形機器人的看法時提到的,人類距離實現(xiàn)AGI(通用人工智能)還很遙遠,所以大家大可不必被“AI末日說”搞得一驚一乍。
而且,最近我們又看到了一個有趣的新聞,證明了AI至少在短期內(nèi)無法替代人類。
上周,“弧光獎基金會”(Arc Prize Foundation)發(fā)布了一項名為ARC-AGI-2的測試。根據(jù)他們的數(shù)據(jù),這個測試已經(jīng)難倒了幾乎所有現(xiàn)有的AI模型。
如OpenAI的o1-pro和DeepSeek的R1等推理AI大模型,在ARC-AGI-2測試中的得分僅為1%~1.3%。而各類非推理模型,如GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Flash等,得分則更低。
更關鍵的是,研究人員邀請了400多個普通人參與ARC-AGI-2測試。結果顯示,平均而言,大家答對了測試中60%的問題,遠遠超過了所有模型的得分。
也就是說,“弧光獎基金會”找到了一類人類比較擅長、但AI幾乎無法完成的任務,而且鑒于AI得分如此之低,它們在短期內(nèi)想要超過人類,難度很大。
我認為,當前大模型在ARC-AGI-2測試中的潰敗,確實暴露了AI方法論上的問題,表明單純堆砌算力和數(shù)據(jù)量并不能碾壓一切。如果要進一步發(fā)展,必須轉換思路。同時,這也觸及了人工智能領域的一個核心問題:如何判斷一個模型是否真正具備了通用智能。
首先,你也許會好奇,是什么事情把AI難住了?
其實在科技界,ARC-AGI測試已小有名氣。這些問題類似于謎題,比如要求AI從一組顏色各異的方塊中識別出視覺模式,并生成正確的“答案”網(wǎng)格。說白了,就是給AI一些從未見過的新問題,考驗其發(fā)現(xiàn)規(guī)律、解決問題的能力。
簡而言之,這就是為了測試AI的“小樣本泛化”能力,也就是我們常說的“舉一反三”、“觸類旁通”—-從對少量案例的觀察中發(fā)現(xiàn)規(guī)律、并運用到后續(xù)實踐中的能力。通過不了ARC-AGI-2測試,至少說明當前的AI方法論存在上限,未來也很難實現(xiàn)AGI。
ARC-AGI-2測試題目
人類智能的獨特性,正體現(xiàn)在能從有限的經(jīng)驗中抽象出通用規(guī)則。例如,我們能從數(shù)字變化中總結出乘法規(guī)則,然后還能用這些規(guī)則進行計算,既不會算錯,也不會因為問題的表述形式(比如是應用題、而不是算術式)而不會解題。
但當前的AI大模型經(jīng)常出現(xiàn)幻覺,在99%的情況下非常可靠,在1%的狀況下卻會發(fā)生荒誕失誤。正如Meta首席AI科學家楊立昆(Yann LeCun)所指出的,當前AI大模型都是基于自回歸預測機制,也就是“猜下一個詞”,這還是概率,而不是真的理解了規(guī)律,自然永遠無法超越人類智能。
因為現(xiàn)有的AI,不光不能“觸類旁通”,還得“舉一萬才能返三”,所以,對那些沒見過的事情,AI就是答不出來;對那些小概率事件,AI就是應對不好,這是刻在骨子里的缺陷。
但是,話說回來,我想強調的是,單純追求小樣本泛化的能力的測試結果,可能會陷入測試導向的發(fā)展誤區(qū)。
如果未來有AI大模型通過了ARC-AGI-2測試,是否就意味著實現(xiàn)了AGI呢?這顯然是站不住腳的,因為這樣的測試并沒有排除用別的方法找到結果的可能性,也就是說,做對了題的AI,也不保證用的就是“小樣本泛化”能力。
實際上,在ARC-AGI的第一代測試中,就有模型通過暴力破解的方式獲得了高分。
例如,OpenAI的o3,就是首個在ARC-AGI-1上取得了75.7%高分的模型。但很明顯,這并不能真正證明o3有小樣本泛化能力,更不能證明它達到了AGI的水平,大概率是模型為了刷分而專門進行了優(yōu)化。
為了解決這一問題,ARC-AGI-2測試就要求模型在解答問題時,每項任務花費不能超過0.42美元。不僅要能獲得高分,還要考慮效率和成本。由于o3模型每解答一個問題就需要消耗約200美元的計算成本,所以無法通過新的測試。
可是這并沒有高枕無憂,只要是設計的測試題,就有可能存在漏洞。很難說以后不會有模型在訓練中,找到新的暴力破解或者偶然撞對答案的方法,那樣,測試題的效力就會大打折扣。
那么,究竟該怎么辦呢?我認為,自然是要嘗試新的具有真正理解能力的模型設計,而不是仍然試圖通過現(xiàn)有模型概率預測的舊方法來取得高分。
楊立昆倡導“世界模型”,通過嵌入物理定律和因果推理模塊來構建基礎認知架構,以求從范式上超越現(xiàn)有AI大模型。他們的團隊也開始了初步探索,未來可以關注其后續(xù)進展。
但我覺得,“世界模型”也是不夠的。AI的競爭不僅靠技術革命,更要靠認知革命。
首先,我們或許應該要理解人類“舉一反三”的能力從何而來。所謂泛化,其實是記憶、感知和抽象動態(tài)交互的結果。遇到新事物時,我們會以很低的功耗從現(xiàn)象中抽象出規(guī)則,并在可控范圍內(nèi)將其與已有的規(guī)則和經(jīng)驗進行比較。
就像古人第一次見到大象時,雖然叫不出其名字,但也會與既往的認知進行關聯(lián),將其放入大型野生動物的認知框架之中,知道不能切成一塊塊的來稱重量。
其次,我們的認知其實是個貝葉斯式漸進優(yōu)化的過程,體現(xiàn)為以目標為導向、且能持續(xù)進行自我修正。即便碰到?jīng)]見過的問題,在大部分情況下,我們通過學習知識、原理分析和實踐嘗試,就能在有限次的循環(huán)中朝正確方向收斂。而AI只有實現(xiàn)了這一點,才能避免陷入重復試錯的低效運轉之中。
最后,我還想強調的是,社會化AI可能才是通往下一階段的重要路徑,因為人類的智慧不僅來自個體,更來自于群體。具體可以回看以往的思想薈文章,我有更詳細的論述。
當然,對于廣大的開發(fā)者和創(chuàng)業(yè)者而言,我們不用管AGI何時到來,專家型AI確實可以遠超人類專家,專家級的、個性化的、連續(xù)的、普惠的智能服務已經(jīng)可以實現(xiàn),真正的黃金時代其實就已經(jīng)到來了。如果你也想抓住時代紅利,歡迎掃碼加入特訓營直播課,與我一起,先人一步,看清未來!
此外,前哨AI小課第四季已經(jīng)進展到第五講了,想用AI提升自己職業(yè)能力的朋友,千萬不要錯過!最后,您的寶貴意見是我們不斷優(yōu)化課程內(nèi)容的關鍵,在此誠摯地邀請您抽出幾分鐘,掃碼參與AI小課的問卷調查,一起幫助我們提升課程質量。非常感謝!
以上就是今天的內(nèi)容,王煜全要聞評論,我們明天見。
【科技特訓營】看懂科技產(chǎn)業(yè),離不開長期觀察。線上書院模式,與王老師深度鏈接!為未來五年做好準備,先人一步,領先一路!
↓長按圖片掃碼報名, 先人一步,領先一路
↓¥399,掌握王煜全AI產(chǎn)業(yè)預測精華(iOS用戶請在電腦端打開)
此外,我們還為您準備了一份清單
“全球AI獨角獸公司TOP10”
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.