99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

全球頂級模型集體0分，AI終極大考人類5分鐘秒殺！Keras之父戳破AGI神話

2025-03-25 12:17:06　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：桃子英智

【新智元導讀】AI界「智商大考」ARC-AGI-2重磅出爐了！一個人類用5分鐘輕松解開的謎題，卻讓最頂尖LLM全線崩盤得分掛零，o3更是從曾經76%暴跌至4%。它正式宣告，人類還未實現AGI。

時隔6年，ARC-AGI-2正式推出！

一大早，Keras之父Fran?ois Chollet官宣了全新迭代后的ARC-AGI-2，再次拉高了AI「大考」的難度。

這些對人類再簡單不過的題目，LLM最先敗北，先上結果：

基礎大模型（GPT-4.5、Claude 3.7 Sonnet、Gemini 2 ），全部得0分。

CoT推理模型（Claude Thinking、R1、o3-mini），得分也不過4%。

相較之下，2024年ARC Prize冠軍模型（53.5%）卻在新版本考試中，成績僅剩3.5%。

OpenAI的o3-low模型也從75.7%驟降至4%。而且，每項任務成本效率也是o3-low和o1-pro最高，達到200美金。

相反，在ARC-AGI-2里的每個任務，都至少有兩名人類能在兩次嘗試內成功解決。

ARC-AGI-2的出世，證明了「人類尚未實現AGI」！

現場400人實測，普通人無訓練能拿下60%準確率，10人小組能達到100%

初代ARC-AGI（2019年），曾在去年揭示了AI重大轉變，LLM從「純記憶」向「測試時推理」的進化。

許多之前一眼就看透的問題，在ARC-AGI-2中，至少需要幾分鐘的深思熟慮——人類測試者平均需要5分鐘才能解題。

最新ARC-AGI-2，恰恰暴露了當前AI三大短板：符號解釋、組合推理、上下文規則應用。

這些皆需要LLM在測試時，展現真正的適應能力，具備靈活應對新問題的「流體智力」，而不是靠預訓練數據「硬背」過關。

值得一提的是，2025年ARC獎本周將在Kaggle平臺上線，總獎金高達100萬美元。

今年的競賽在去年基礎上再加碼，計算資源翻倍，旨在推動開源項目發展，助力打造能戰勝ARC-AGI-2的系統。

AI「大考」難度進階，AGI夢碎？

其他AI基準測試，基本都聚焦于測試「博士以上水平」的技能，來考察超越人類的能力或專業知識。

但ARC-AGI關注的是對人類相對容易，對AI卻困難重重的任務。

這樣一來，就能精準定位那些不會因為規模擴大就自動消失的能力差距。

ARC獎將此融入對AGI的衡量標準：對人類容易、對AI困難的任務之間的差距，即「人機差距」。

當這個差距變為零，也就是不存在能難倒AI的任務時，我們就實現了AGI。

要彌補這些能力差距，需要全新的見解和思路。ARC-AGI不只是衡量AGI的進展，更重要的是激勵研究人員探索新思路。

AI系統在不少特定領域（如圍棋、圖像識別）已超越人類。但這些只是狹隘、專門的能力。

「人機差距」揭示了AGI所欠缺的部分：高效獲取新技能的能力。

ARC-AGI-2登場，基礎LLM掛零

今日正式發布的ARC-AGI-2基準測試，在對人類難度不變的前提下，極大提高了對AI的難度挑戰。

在一項有400人參與的對照研究中，ARC-AGI-2的每個任務，都至少有兩名參與者能在兩次或更少的嘗試內解決。

這和給AI設定的規則一致，每個任務AI都有兩次嘗試機會。

與ARC-AGI-1類似，ARC-AGI-2采用「兩次嘗試通過（pass@2）」的評估體系，因為部分任務存在顯著的模糊性，需要兩次猜測來消除歧義，同時也用于排查數據集中可能無意出現的模糊或錯誤之處。

經過人類測試，相較于ARC-AGI-1，作者對ARC-AGI-2任務質量更具信心。

以下是ARC-AGI-2的官方更新內容：

所有評估集（公開、半私有、私有）的任務數量從100個增加至120個。
剔除了評估集中易受暴力搜索破解的任務，即2020年原始Kaggle競賽中已被解決的所有任務。
開展人類測試，以校準評估集難度，確保任務獨立同分布，并驗證至少有兩名人類可在兩次嘗試內解決任務，這與對AI的要求一致。
根據研究成果，設計了新任務來挑戰AI推理系統，涵蓋符號解釋、組合推理、上下文規則等多個方面。

2019年推出的ARC-AGI-1，主要是為了挑戰深度學習，尤其是防止模型單純「記憶」訓練數據集。

ARC-AGI包含一個訓練數據集和多個評估集，其中私有評估集用于2024年ARC獎競賽。訓練集的作用是讓模型學習解決評估集中任務所需的核心知識。

為了完成評估集中的任務，AI必須展現出適應全新任務的能力。

打個比方，訓練集就像是教你認識小學算術符號，而評估集則要求用這些符號知識去解代數方程。你不能靠死記硬背得出答案，必須把知識靈活運用到新問題上。

ARC-AGI-2對AI的要求更高，要想戰勝它，必須具備高度的適應性和高效性。

下面是ARC-AGI-2的示例任務，滿足兩個條件：一是至少有兩名人類能在兩次嘗試內解決；二是所有前沿AI推理系統都無法解決。

符號解釋

前沿AI推理系統在處理需要賦予符號超出視覺模式意義的任務時，表現欠佳。

系統能進行對稱性檢查、鏡像、變換，甚至識別連接元素，但就是無法理解符號本身的語義。

組合推理
AI推理系統在處理需要同時應用多個規則，或者應用相互關聯規則的任務時，困難重重。

相反，要是任務只有一兩條全局規則，這些系統就能發現并運用規則。

上下文規則應用
AI推理系統在面對需根據上下文靈活應用規則的任務時，也會陷入困境。

它們往往只關注表面模式，無法理解背后的選擇原則。

兩人組隊拿滿分，o3僅4%

ARC-AGI-2由以下數據集構成：

校準指的是這些任務具有獨立同分布（IDD）特性。理論上，在公開、半私有和私有評估集上，未出現過擬合情況的分數應具有直接可比性。

為收集相關數據，在嚴格受控的環境下，對400多位人類進行了測試。

接下來幾周，公開任務的人類可解性數據將與ARC-AGI-2論文一同發布。

對所有公開的AI系統重新評估，ARC-AGI-2起始分數如下：

帶*的分數，是根據目前收集到的部分結果，還有o1-pro的定價估算出來的。完整結果一出來，馬上會公布。

所有分數均按照「兩次嘗試通過（pass@2）」標準，且基于半私有評估集得出（ARC-AGI-1人類小組和ARChitects除外，分別基于公開評估集和私有評估集）。

人類小組的效率計算基于115-150美元的到場費用，外加解決每個任務獎勵5美元。

對成本進行了優化以提升到場率（實際到場率為注冊人數的70%）。盡管人類智能成本效率的極限可能在每個任務2-5美元區間，但基于實際收集的數據，報告中每個任務17美元。

等OpenAI o3 low/high的API開放，將對其正式版本進行測試。

用從ARC-AGI-1轉到ARC-AGI-2的任務進行預估，o3-low得分約為4%，如果計算量特別大（每個任務數千美元），o3-high得分有望達到15-20%。

智能并非僅是能力

從現在開始，所有ARC-AGI的報告都將附帶一項效率指標。

首先選擇成本作為指標，因為在對比人類與AI性能時，成本具有最直接的可比性。

智能并非僅是解決問題和獲取高分的能力。獲取和運用這些能力的效率，是智能的關鍵要素。

核心問題不僅在于「AI能否掌握解決任務的技能？」，更在于「以怎樣的效率或成本來掌握？」

前沿AI系統在ARC-AGI-1與ARC-AGI-2上的得分

僅靠規模遠遠不夠

在資源與搜索時間不受限的情況下，暴力搜索最終能夠解決ARC-AGI問題。

但這絕非真正的智能。智能在于高效地找到解決方案，而非盲目窮舉。

關注效率是ARC-AGI的核心原則。

明確量化智能的成本，要求解決方案不僅展示能力，更要展現對資源的高效利用，這才是AGI的本質。

全新的ARC-AGI排行榜頁面將從分數和成本兩個維度同步呈現。

截至2025年3月24日，ARC-AGI新排行榜同時展示分數與效率

本周競賽盛大開啟！

隨著ARC-AGI-2的發布，2025年ARC Prize重磅回歸！競賽將于3月至11月期間在Kaggle平臺舉辦。

競賽設有12.5萬美元的保底進展獎，以及高達70萬美元的大獎，團隊得分超過85%即可解鎖！

此外，還有17.5萬美元的獎項待后續公布細則。

Kaggle競賽規則禁止使用互聯網API，每次提交僅可使用約50美元的計算資源。

為獲取獲獎資格，參賽者需在競賽結束時開源解決方案。

去年的競賽成果斐然，超過1500支團隊踴躍參與，產出了40篇極具影響力的研究論文。

獲獎研究人員提出的創新理念已在AI行業得到廣泛應用。

參考資料：

https://x.com/arcprize/status/1904269307284230593

https://x.com/fchollet/status/1904265979192086882

https://arcprize.org/blog/announcing-arc-agi-2-and-arc-prize-2025

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Meta發布Llama 4系列模型，參數高達2萬億

DeepTech深科技 2025-04-06 21:56:32
2 跟貼 2
反向傳播、前向傳播都不要，這種無梯度學習方法是Hinton想要的嗎

機器之心Pro 2025-04-07 14:55:47
1 跟貼 1

CLIP被淘汰了？LeCun謝賽寧新作，多模態訓練無需語言監督更強！

新智元 2025-04-07 13:11:02
0 跟貼 0

OpenAI招了個高中輟學的，入職Sora團隊專攻AGI

量子位 2024-12-05 14:10:36
82 跟貼 82
首個個性化對齊大模型問世！可精準識別用戶內在動機和偏好

量子位 2025-04-07 17:08:38
0 跟貼 0

AI 圈今年最大丑聞曝光！Llama 4 被揭訓練作弊，實測慘遭滑鐵盧，核心骨干憤然離職

愛范兒 2025-04-07 18:26:17
1 跟貼 1

7B擴散LLM，居然能跟671B的DeepSeek V3掰手腕，誰才是未來？

機器之心Pro 2025-04-07 15:32:45
11 跟貼 11
剛學會歧視的AI，就開始PUA我了

新周刊 2025-03-19 09:04:03
1 跟貼 1

微軟AI模型MatterGen能根據需求生成新材料

量子位 2025-01-21 18:07:40
29 跟貼 29
AI爬蟲肆虐，OpenAI等大廠不講武德！開發者打造「神級武器」宣戰

新智元 2025-04-06 18:04:15
8 跟貼 8
ILLUME+：華為諾亞探索新GPT-4o架構，理解生成一體模型

機器之心Pro 2025-04-07 14:47:31
0 跟貼 0
清華耶魯推理模型新范式：動態推理實現高效測試時擴展

量子位 2025-04-07 17:34:42
1 跟貼 1
OpenAI放大招：免費開放ChatGPT搜索，無需注冊

每日經濟新聞 2025-02-06 10:49:09
0 跟貼 0
博睿數據全面接入DeepSeek：運用AI 鋪就大模型可觀測性進階之路

經濟觀察報 2025-04-07 20:39:06
0 跟貼 0
兩年干出100億美元，25歲程序員把AI玩瘋了

虎嗅APP 2025-04-08 05:12:07
1 跟貼 1
“充電廠商”為何跨界AI眼鏡？對話閃極創始人張波

量子位 2025-04-07 21:39:53
1 跟貼 1
虎嗅【作·嗅之星】周榜第255~256期

虎嗅APP 2025-04-08 01:00:07
0 跟貼 0
為了800元，一家五口全部被害，全程高能推理，案情不斷反轉

板姐說車 2025-04-06 09:13:38
0 跟貼 0
R2前奏？DeepSeek聯合清華新論文找到強化學習新方法：27B模型“干翻”671B

AI寒武紀 2025-04-04 18:24:13
35 跟貼 35
關鍵時刻人民日報重磅發聲：天塌不下來

北京青年報 2025-04-07 08:35:19
34695 跟貼 34695
河北三河，商戶門頭禁用紅黑藍三色？

大象新聞 2025-04-07 19:16:56
129 跟貼 129
美國F22猛禽極限飛行表演全過程，飛行員干拔起飛，高清實拍

樂雯小視界 2025-04-07 07:39:16
1 跟貼 1
進階版海鮮盛宴，春光燦爛每一天

溫油辣辣 2025-04-05 17:30:00
31 跟貼 31
1992年真實影像，老布什參加日本國宴，身體不受控瘋狂抽搐嘔吐

通史言說 2025-04-05 15:15:00
2 跟貼 2
實測車載DeepSeek：理財哄娃，做北京旅游攻略，避開喝豆汁兒那種

智能車參考 2025-04-04 14:58:43
0 跟貼 0
胡塞武裝導彈封鎖VS美以軍事鐵幕，誰在改寫中東規則？

時光慢遞員 2025-04-06 03:40:55
0 跟貼 0
“理解選擇”之九：有限理性如何應對無限的選擇？

解毒時光 2025-04-08 00:57:07
1 跟貼 1
你看到的，都是想讓你看到的，真正的秘密，你永遠不會知道！

包子同學呀 2025-04-06 11:15:47
15 跟貼 15
媒體：俄烏戰事又擴大了烏軍隊攻入俄又一邊境州

新民周刊 2025-04-07 11:55:25
10594 跟貼 10594
我以為你在怠速，原來你已經是極限了！

呼乎美食 2025-04-07 11:23:59
0 跟貼 0
大利好，湖人火箭雷霆可以打默契球，聯手讓4-8名斗得更加激烈

看球老人 2025-04-07 22:05:32
76 跟貼 76
中國005航母：顛覆性技術或改寫海戰規則

領略非凡 2025-04-07 03:01:53
0 跟貼 0
火箭終結勇士5連勝格林21+5庫里10中1

網易體育 2025-04-07 10:57:31
8926 跟貼 8926
鉸鏈物體的通用世界模型，超越擴散方法，入選CVPR 2025

機器之心Pro 2025-04-07 14:59:24
0 跟貼 0
男人這段比武，把比賽規則諷刺的淋漓盡致

浪嫂剪輯 2025-04-06 11:45:03
1 跟貼 1
為什么泰森在提起李小龍時敢直言：“如果拳擊沒有規則的話，我能

御風趣說 2025-04-05 14:43:14
1 跟貼 1
加密貨幣市場超44萬人爆倉

證券時報 2025-04-07 17:31:06
2449 跟貼 2449
1/72德國豹2A7+主戰坦克塑料成品推推樂模型開箱測評

DS北風 2025-04-05 20:00:00
0 跟貼 0
跟著跑步高手沉浸式體驗，天門山999級天梯極限跑酷，網友：看著就腿軟

童話鶴壁 2025-04-06 22:16:48
0 跟貼 0
極限拉扯！消防員走進校園普及消防知識網友：這是相聲專場？

星辰視頻 2025-04-07 08:26:40
8 跟貼 8

權貴越無恥，民粹越極端

特例的貓

2025-04-07 07:55:54

小米SU7續保被拒：保費上漲到近萬元？多家保險公司否認拒保，保費是否上漲與去年違章、出險理賠等緊密相關

小米SU7續保被拒：保費上漲到近萬元？多家保險公司否認拒保，保費是否上漲與去年違章、出險理賠等緊密相關

和訊網

2025-04-07 18:10:45

科勒·卡戴珊攜塑身衣品牌高調亮相

科勒·卡戴珊攜塑身衣品牌高調亮相

述家娛記

2025-04-07 18:25:15

冠軍得靠自己爭！基耶薩替補13分鐘1射正，還得出場一次才有獎牌

冠軍得靠自己爭！基耶薩替補13分鐘1射正，還得出場一次才有獎牌

直播吧

2025-04-07 11:05:36

大洗牌開始了

后視鏡里de未來

2025-04-07 11:08:58

美國商品在香港繼續0關稅！“購物天堂”有望復活

美國商品在香港繼續0關稅！“購物天堂”有望復活

北美商業電訊

2025-04-07 16:59:04

舞協3領導栽倒：包養情婦，潛規則女演員！美艷秘書長同一關系網

舞協3領導栽倒：包養情婦，潛規則女演員！美艷秘書長同一關系網

大江看潮

2025-04-05 18:25:42

卡住馬六甲咽喉？解放軍迎來歷史性一天，第二個海外基地掛牌！

卡住馬六甲咽喉？解放軍迎來歷史性一天，第二個海外基地掛牌！

戰爭史

2025-04-07 13:32:18

斯諾克4人晉級！首場10-0誕生，中國新人或逆轉，趙心童半場8-1！

斯諾克4人晉級！首場10-0誕生，中國新人或逆轉，趙心童半場8-1！

劉姚堯的文字城堡

2025-04-08 04:18:53

澤連斯基要倒霉了，他最后的下場，將會跟卡扎菲和薩達姆一樣

澤連斯基要倒霉了，他最后的下場，將會跟卡扎菲和薩達姆一樣

利刃號

2025-04-02 10:40:23

同曦被淘汰更衣室！貝帥+劉家成肯定全隊，曾繁日捂臉，全隊沮喪

同曦被淘汰更衣室！貝帥+劉家成肯定全隊，曾繁日捂臉，全隊沮喪

籃球資訊達人

2025-04-08 01:09:55

恭喜！王祖藍的妹妹結婚了！長得一模一樣！深得哥哥疼愛金器戴滿身，獲送千萬豪宅！

恭喜！王祖藍的妹妹結婚了！長得一模一樣！深得哥哥疼愛金器戴滿身，獲送千萬豪宅！

我愛追港劇

2025-04-06 22:59:28

丈夫癱瘓在床后,公公和兒媳外出跑大車賺錢,過年回家時卻發生意外

丈夫癱瘓在床后,公公和兒媳外出跑大車賺錢,過年回家時卻發生意外

溫情郵局

2025-03-26 11:58:52

這個家缺不了你啊！劉維偉執教G1青島大勝劉維偉缺席G2青島慘敗

這個家缺不了你啊！劉維偉執教G1青島大勝劉維偉缺席G2青島慘敗

直播吧

2025-04-07 22:16:07

如果最后3場打滿約基奇再拿90分12助就能達成賽季場均30+三雙

如果最后3場打滿約基奇再拿90分12助就能達成賽季場均30+三雙

直播吧

2025-04-07 14:49:18

凌晨3點，歐冠191億大戰！皇馬復仇之夜，贏阿森納=打破19年魔咒

凌晨3點，歐冠191億大戰！皇馬復仇之夜，贏阿森納=打破19年魔咒

侃球熊弟

2025-04-08 04:49:55

正式確認！兩大國產巨頭宣布合并，小米有“對手”了

正式確認！兩大國產巨頭宣布合并，小米有“對手”了

小柱解說游戲

2025-04-08 00:44:43

商戶門頭牌匾禁用“紅、黑、藍”三底色？三河市城管部門：是城市規劃要求，文件還沒發布

商戶門頭牌匾禁用“紅、黑、藍”三底色？三河市城管部門：是城市規劃要求，文件還沒發布

大風新聞

2025-04-07 14:58:04

越南宣布對中國鋼材加稅，加到27.83%，韓國馬上跟進，加到38%

越南宣布對中國鋼材加稅，加到27.83%，韓國馬上跟進，加到38%

瀘沽湖

2025-04-07 10:16:24

外國藥企不跟我們玩了，正在集體退出集采，罕見病患者靠啥續命？

外國藥企不跟我們玩了，正在集體退出集采，罕見病患者靠啥續命？

蜉蝣說

2025-01-25 18:46:48

AI產業主平臺領航智能+時代

12486文章數 66006關注度

往期回顧全部

科技要聞

特朗普堅持征收關稅周一美科技股劇烈震蕩

頭條要聞

特朗普再對歐盟施壓：必須從美國購入能源

頭條要聞

特朗普再對歐盟施壓：必須從美國購入能源

體育要聞

刷屏中文互聯網，甲亢哥是怎么火的？

娛樂要聞

汪小菲身旁的朋友，對馬筱梅的評價

財經要聞

看好中國資本市場 "國家隊"增持

汽車要聞

途昂Pro的五套組合拳打完看清油車的自我救贖

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

親子

數碼

公開課

軍事航空

鋼嵐：奧菲利亞+卡夏專武實測報告！這次策劃還真是要另辟蹊徑了

親子要聞

您會走路嗎？

數碼要聞

國補價1699元！小米推出米家無線吸塵器3基站版：自動集塵 90天免倒垃圾

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
中國最大沙漠中唯一的城市，周邊300公里被黃沙覆蓋
李彥宏：百度離破產30天

軍事要聞

特朗普關稅名單上沒俄羅斯白宮：為了不影響俄烏和談

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：潼关县| 武胜县| 巴林左旗| 漾濞| 萍乡市| 饶平县| 同仁县| 抚顺县| 宜宾县| 改则县| 呼图壁县| 武乡县| 汪清县| 沂水县| 南陵县| 海阳市| 蓬莱市| 桐乡市| 社旗县| 东阿县| 大田县| 图木舒克市| 靖远县| 花垣县| 湘乡市| 龙口市| 原平市| 南涧| 天水市| 安化县| 桐城市| 平谷区| 米泉市| 巫山县| 遂平县| 靖江市| 安新县| 建水县| 常德市| 武安市| 水富县|

^{<blockquote id="vxmpw"></blockquote>}

<cite id="vxmpw"></cite>