新智元報道
編輯:桃子 英智
【新智元導讀】AI界「智商大考」ARC-AGI-2重磅出爐了!一個人類用5分鐘輕松解開的謎題,卻讓最頂尖LLM全線崩盤得分掛零,o3更是從曾經76%暴跌至4%。它正式宣告,人類還未實現AGI。
時隔6年,ARC-AGI-2正式推出!
一大早,Keras之父Fran?ois Chollet官宣了全新迭代后的ARC-AGI-2,再次拉高了AI「大考」的難度。
這些對人類再簡單不過的題目,LLM最先敗北,先上結果:
基礎大模型(GPT-4.5、Claude 3.7 Sonnet、Gemini 2 ),全部得0分。
CoT推理模型(Claude Thinking、R1、o3-mini),得分也不過4%。
相較之下,2024年ARC Prize冠軍模型(53.5%)卻在新版本考試中,成績僅剩3.5%。
OpenAI的o3-low模型也從75.7%驟降至4%。而且,每項任務成本效率也是o3-low和o1-pro最高,達到200美金。
相反,在ARC-AGI-2里的每個任務,都至少有兩名人類能在兩次嘗試內成功解決。
ARC-AGI-2的出世,證明了「人類尚未實現AGI」!
現場400人實測,普通人無訓練能拿下60%準確率,10人小組能達到100%
初代ARC-AGI(2019年),曾在去年揭示了AI重大轉變,LLM從「純記憶」向「測試時推理」的進化。
許多之前一眼就看透的問題,在ARC-AGI-2中,至少需要幾分鐘的深思熟慮——人類測試者平均需要5分鐘才能解題。
最新ARC-AGI-2,恰恰暴露了當前AI三大短板:符號解釋、組合推理、上下文規則應用。
這些皆需要LLM在測試時,展現真正的適應能力,具備靈活應對新問題的「流體智力」,而不是靠預訓練數據「硬背」過關。
值得一提的是,2025年ARC獎本周將在Kaggle平臺上線,總獎金高達100萬美元。
今年的競賽在去年基礎上再加碼,計算資源翻倍,旨在推動開源項目發展,助力打造能戰勝ARC-AGI-2的系統。
AI「大考」難度進階,AGI夢碎?
其他AI基準測試,基本都聚焦于測試「博士以上水平」的技能,來考察超越人類的能力或專業知識。
但ARC-AGI關注的是對人類相對容易,對AI卻困難重重的任務。
這樣一來,就能精準定位那些不會因為規模擴大就自動消失的能力差距。
ARC獎將此融入對AGI的衡量標準:對人類容易、對AI困難的任務之間的差距,即「人機差距」。
當這個差距變為零,也就是不存在能難倒AI的任務時,我們就實現了AGI。
要彌補這些能力差距,需要全新的見解和思路。ARC-AGI不只是衡量AGI的進展,更重要的是激勵研究人員探索新思路。
AI系統在不少特定領域(如圍棋、圖像識別)已超越人類。但這些只是狹隘、專門的能力。
「人機差距」揭示了AGI所欠缺的部分:高效獲取新技能的能力。
ARC-AGI-2登場,基礎LLM掛零
今日正式發布的ARC-AGI-2基準測試,在對人類難度不變的前提下,極大提高了對AI的難度挑戰。
在一項有400人參與的對照研究中,ARC-AGI-2的每個任務,都至少有兩名參與者能在兩次或更少的嘗試內解決。
這和給AI設定的規則一致,每個任務AI都有兩次嘗試機會。
與ARC-AGI-1類似,ARC-AGI-2采用「兩次嘗試通過(pass@2)」的評估體系,因為部分任務存在顯著的模糊性,需要兩次猜測來消除歧義,同時也用于排查數據集中可能無意出現的模糊或錯誤之處。
經過人類測試,相較于ARC-AGI-1,作者對ARC-AGI-2任務質量更具信心。
以下是ARC-AGI-2的官方更新內容:
所有評估集(公開、半私有、私有)的任務數量從100個增加至120個。
剔除了評估集中易受暴力搜索破解的任務,即2020年原始Kaggle競賽中已被解決的所有任務。
開展人類測試,以校準評估集難度,確保任務獨立同分布,并驗證至少有兩名人類可在兩次嘗試內解決任務,這與對AI的要求一致。
根據研究成果,設計了新任務來挑戰AI推理系統,涵蓋符號解釋、組合推理、上下文規則等多個方面。
2019年推出的ARC-AGI-1,主要是為了挑戰深度學習,尤其是防止模型單純「記憶」訓練數據集。
ARC-AGI包含一個訓練數據集和多個評估集,其中私有評估集用于2024年ARC獎競賽。訓練集的作用是讓模型學習解決評估集中任務所需的核心知識。
為了完成評估集中的任務,AI必須展現出適應全新任務的能力。
打個比方,訓練集就像是教你認識小學算術符號,而評估集則要求用這些符號知識去解代數方程。你不能靠死記硬背得出答案,必須把知識靈活運用到新問題上。
ARC-AGI-2對AI的要求更高,要想戰勝它,必須具備高度的適應性和高效性。
下面是ARC-AGI-2的示例任務,滿足兩個條件:一是至少有兩名人類能在兩次嘗試內解決;二是所有前沿AI推理系統都無法解決。
符號解釋
前沿AI推理系統在處理需要賦予符號超出視覺模式意義的任務時,表現欠佳。
系統能進行對稱性檢查、鏡像、變換,甚至識別連接元素,但就是無法理解符號本身的語義。
組合推理
AI推理系統在處理需要同時應用多個規則,或者應用相互關聯規則的任務時,困難重重。
相反,要是任務只有一兩條全局規則,這些系統就能發現并運用規則。
上下文規則應用
AI推理系統在面對需根據上下文靈活應用規則的任務時,也會陷入困境。
它們往往只關注表面模式,無法理解背后的選擇原則。
兩人組隊拿滿分,o3僅4%
ARC-AGI-2由以下數據集構成:
校準指的是這些任務具有獨立同分布(IDD)特性。理論上,在公開、半私有和私有評估集上,未出現過擬合情況的分數應具有直接可比性。
為收集相關數據,在嚴格受控的環境下,對400多位人類進行了測試。
接下來幾周,公開任務的人類可解性數據將與ARC-AGI-2論文一同發布。
對所有公開的AI系統重新評估,ARC-AGI-2起始分數如下:
帶*的分數,是根據目前收集到的部分結果,還有o1-pro的定價估算出來的。完整結果一出來,馬上會公布。
所有分數均按照「兩次嘗試通過(pass@2)」標準,且基于半私有評估集得出(ARC-AGI-1人類小組和ARChitects除外,分別基于公開評估集和私有評估集)。
人類小組的效率計算基于115-150美元的到場費用,外加解決每個任務獎勵5美元。
對成本進行了優化以提升到場率(實際到場率為注冊人數的70%)。盡管人類智能成本效率的極限可能在每個任務2-5美元區間,但基于實際收集的數據,報告中每個任務17美元。
等OpenAI o3 low/high的API開放,將對其正式版本進行測試。
用從ARC-AGI-1轉到ARC-AGI-2的任務進行預估,o3-low得分約為4%,如果計算量特別大(每個任務數千美元),o3-high得分有望達到15-20%。
智能并非僅是能力
從現在開始,所有ARC-AGI的報告都將附帶一項效率指標。
首先選擇成本作為指標,因為在對比人類與AI性能時,成本具有最直接的可比性。
智能并非僅是解決問題和獲取高分的能力。獲取和運用這些能力的效率,是智能的關鍵要素。
核心問題不僅在于「AI能否掌握解決任務的技能?」,更在于「以怎樣的效率或成本來掌握?」
前沿AI系統在ARC-AGI-1與ARC-AGI-2上的得分
僅靠規模遠遠不夠
在資源與搜索時間不受限的情況下,暴力搜索最終能夠解決ARC-AGI問題。
但這絕非真正的智能。智能在于高效地找到解決方案,而非盲目窮舉。
關注效率是ARC-AGI的核心原則。
明確量化智能的成本,要求解決方案不僅展示能力,更要展現對資源的高效利用,這才是AGI的本質。
全新的ARC-AGI排行榜頁面將從分數和成本兩個維度同步呈現。
截至2025年3月24日,ARC-AGI新排行榜同時展示分數與效率
本周競賽盛大開啟!
隨著ARC-AGI-2的發布,2025年ARC Prize重磅回歸!競賽將于3月至11月期間在Kaggle平臺舉辦。
競賽設有12.5萬美元的保底進展獎,以及高達70萬美元的大獎,團隊得分超過85%即可解鎖!
此外,還有17.5萬美元的獎項待后續公布細則。
Kaggle競賽規則禁止使用互聯網API,每次提交僅可使用約50美元的計算資源。
為獲取獲獎資格,參賽者需在競賽結束時開源解決方案。
去年的競賽成果斐然,超過1500支團隊踴躍參與,產出了40篇極具影響力的研究論文。
獲獎研究人員提出的創新理念已在AI行業得到廣泛應用。
參考資料:
https://x.com/arcprize/status/1904269307284230593
https://x.com/fchollet/status/1904265979192086882
https://arcprize.org/blog/announcing-arc-agi-2-and-arc-prize-2025
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.