99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<sub id="vwut9"></sub>

<wbr id="vwut9"></wbr>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

o3狂燒3萬美金解一題，反被AGI榜單除名！試錯1024次不如10歲小孩哥4分鐘

2025-04-03 15:20:11　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：編輯部 YNH

【新智元導讀】OpenAI o3推理成本從3000美元飆至3萬美元，暴增10倍。o3-high靠暴力試錯生成4300萬字解題，卻被ARC-AGI「除名」。

短短幾個月，最新評估顯示，o3推理成本比預初估計暴漲10倍！

在ARC-AGI最新測試上，AI單次任務曾用3000美元，而如今已飆升至30000美元。

來自牛津大學的高級研究員Toby Ord指出，o3-high看似性能強大，實則更多地依賴于海量計算，而非真正的推理突破。

o3-high在對每個任務嘗試1024次，每次生成137頁文本，總計4300萬字——相當于為每個任務寫了一本《大英百科全書》（4400萬字）。

結果就是，完成每個任務成本高達3萬美金。而這些簡單的謎題，一個10歲的孩子可能只需4分鐘就能解決。

成本飆升直接導致了o3-high超出ARC-AGI每個任務1萬美元限制，直接被排除在排行榜之外

甚至，o3-high的算力消耗竟是o3-low的172倍。

這種「暴力試錯」的方式不禁讓人質疑：這真的是智能解題嗎？

從驚艷到驚嚇，o3成本暴增10倍

去年12月，OpenAI推出了推理模型o3。

為了展示o3的強大性能，他們邀請了ARC PrizeFoundation主席Greg Kamradt一同參與那次發布會。

就在上周，ARC Prize Foundation更新了他們對o3模型計算成本的估算，結果令人震驚。

最初，他們估計o3-low解決一個ARC-AGI任務的成本為20美元，o3-high為3000美元。

而現在，根據修訂后的ARC-AGI表，這些數字分別增加到200美元和3萬美元。

這要比他們預計的成本整整高出10倍，這也可能是OpenAI遲遲沒有正式發布o3的原因。

成本實在是太高了。

對此，ARC Prize Foundation的聯合創始人之一Mike Knoop表示：「我們認為o1-pro更接近o3的真實成本，因為它在測試時用了大量的計算資源」。

o3的原始估算僅為OpenAI現有o1-pro模型收費的1/10，因此，他們以o1-pro定價作為參考，更新了定價數據。

「但這只是個參考，我們在排行榜上把o3標記為預覽版，就是為了反映官方定價的不確定性。」

研究員Toby Ord稱，令人失望的是，更新后的圖表顯示，o3整體表現幾乎未超出o1對數收益的趨勢。

他對此推測，或許是因為o3是在ARC-AGI公開測試集的75%上進行了專門的訓練，而OpenAI并未發布任何消融數據澄清這一增益的來源。

相較之下，o3-mini更讓人眼前一亮，所用的計算資源比o3-high要燒1000倍，卻能展現出真正突破趨勢的表現。

一直以來都有傳言稱OpenAI打算為企業客戶推出昂貴的會員計劃。

有人可能會覺得，即便是如此高的會員費也比請一個員工便宜。

但當一個任務需要3萬美元、4300萬字「暴力堆砌」下才能解決，這種效率是否真的劃算。

ARC-AGI五年不敗，難倒了一片AI

提起ARC-AGI，最初只是Keras之父Fran?ois Chollet在谷歌一個副業項目，如今卻成為所有AI必考題。

ARC Prize Foundation是一家非營利組織，使命是在基準測試期間成為AGI的北極星。

他們的第一個基準ARC-AGI，是Fran?ois Chollet于2019年在關于智力測量的論文中發表的，它在AI領域已經保持5年不敗。

隨著模型變得越來越強，上個月，他們更新了ARC-AGI-2。

不像ARC-AGI-1，這個新版本不容易靠蠻力破解。這對AI來講非常難。

難到什么程度呢？

像GPT-4.5、Claude 3.7 Sonnet、Gemini 2等這些現在頂尖的基礎模型得分都是0%。也就是說一道也解不出來。

推理模型也沒好到哪里去，Claude Thinking、DeepSeek-R1、o3-mini得分也只有0-1%。

為什么會這樣？

原因在于ARC-AGI-2的所有任務都需要一些認真的思考。

也就是說，推理模型在解決這些任務時，需要進行大量的推理，消耗非常多的Token。

比如，當前最先進的推理模型在處理需要把符號看作「有意義的內容」時，表現并不好。

它們會嘗試檢查對稱性、做鏡像、進行圖形變換，甚至能識別符號之間的連接關系，但卻無法理解這些符號本身所代表的含義。

符號解釋：ARC-AGI-2公共評估任務#e3721c99

在需要同時運用多條規則，或者這些規則相互影響的任務中表現得也很吃力。

相比之下，如果任務只涉及一條或極少數幾條整體性的規則，AI通常能穩定地發現并正確運用這些規則。

組合推理：ARC-AGI-2公開評估任務 #cbebaa4b

在面對需要根據具體情境靈活應用規則的任務時這些推理模型同樣表現不佳。

它們往往只關注表面模式，而不是理解背后真正的選擇原則。

上下文規則應用：ARC-AGI-2 公共評估任務 #b5ca7ac4

幾年內，AGI或將出現

雖然這些頂尖的推理模型在ARC-AGI的測試中表現不理想，但并沒有妨礙很多人對實現AGI的暢想。

在最新一篇博客中，DeepMind就表示「通用人工智能（AGI）可能在未來幾年內到來」。

結合AI智能體的能力，AGI可以大幅提升AI在理解、推理、規劃和自主執行行動方面的能力。這種技術進步將為社會提供寶貴的工具，以應對包括藥物發現、經濟增長和氣候變化在內的關鍵全球挑戰。

而這也意味著，我們可以期待數十億人將從中獲得切實的益處。例如：

通過實現更快速、更精準的醫療診斷，它可以革新醫療保健領域；
通過提供個性化的學習體驗，它例如，使教育更加普及且更具吸引力；
通過增強信息處理能力，它可以幫助降低創新和創造的門檻；
通過使先進工具和知識的獲取更加便捷，它可以讓小型組織有能力解決那些以前只有大型、資金充足的機構才能應對的復雜挑戰。

而現在，o3成本暴漲10倍，智能邊界似乎比我們想象的更遠。

未來幾年，AGI曙光或許將至，但眼下，燒錢智能并不代表著真正的推理突破，我們仍需保持清醒與期待。

參考資料：

https://x.com/tobyordoxford/status/1907379921825014094

https://techcrunch.com/2025/04/02/openais-o3-model-might-be-costlier-to-run-than-originally-estimated/

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

OpenAI招了個高中輟學的，入職Sora團隊專攻AGI

量子位 2024-12-05 14:10:36
82 跟貼 82
Meta發布Llama 4系列模型，參數高達2萬億

DeepTech深科技 2025-04-06 21:56:32
2 跟貼 2

讓ChatGPT不敢開口的名字！神秘bug引馬斯克圍觀

量子位 2024-12-02 19:33:09
189 跟貼 189

Claude腦回路被開盒：AI會撒謊和暗中計劃

量子位 2025-04-04 12:20:26
0 跟貼 0
微軟AI模型MatterGen能根據需求生成新材料

量子位 2025-01-21 18:07:40
29 跟貼 29

國產機器人深圳街頭散步爆火！超自然步態嚇呆國外網友

量子位 2025-01-10 16:29:56
798 跟貼 798

為了難倒AI，人類想出了什么變態考題？

量子位 2025-02-27 12:11:03
0 跟貼 0
剛學會歧視的AI，就開始PUA我了

新周刊 2025-03-19 09:04:03
1 跟貼 1

4o生圖前端效果騙了太多人，網友扒出逐行生成的演示當不得真

量子位 2025-04-02 21:22:14
0 跟貼 0
DeepSeek開口說話了反應超神無限打斷只要兩行代碼15分鐘

量子位 2025-03-07 14:20:34
0 跟貼 0
ILLUME+：華為諾亞探索新GPT-4o架構，理解生成一體模型

機器之心Pro 2025-04-07 14:47:31
0 跟貼 0
一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0
爆火開源工具Browser Use，能讓AI操作瀏覽器找工作

量子位 2025-01-13 09:50:42
0 跟貼 0
DeepSeek的橫空出世，讓AI+騰訊云數據庫產生了什么化學反應？

量子位 2025-03-04 20:07:47
0 跟貼 0
“充電廠商”為何跨界AI眼鏡？對話閃極創始人張波

量子位 2025-04-07 21:39:53
1 跟貼 1
7B擴散LLM，居然能跟671B的DeepSeek V3掰手腕，誰才是未來？

機器之心Pro 2025-04-07 15:32:45
11 跟貼 11
清華耶魯推理模型新范式：動態推理實現高效測試時擴展

量子位 2025-04-07 17:34:42
1 跟貼 1
兩年干出100億美元，25歲程序員把AI玩瘋了

虎嗅APP 2025-04-08 05:12:07
1 跟貼 1
DeepSeek應用如何落地？解鎖性能釋放x多模態融合xRAG增強

量子位 2025-03-07 22:58:40
0 跟貼 0
DeepSeek引爆AI革命，誰能笑到最后？

量子位 2025-03-11 17:16:22
0 跟貼 0
吳恩達預言成真？AI運維專家橫掃職場，精準解決80%運維難題

量子位 2025-01-10 16:51:31
0 跟貼 0
阿里萬相秒殺Sora，4070就能跑

量子位 2025-02-26 17:08:09
0 跟貼 0
o1竟在用中文思考？網友新發現外網熱議

量子位 2025-01-22 11:13:04
0 跟貼 0
AI鑒別神器來了，幾秒內就知是否AI生成

量子位 2025-01-23 19:14:34
0 跟貼 0
DeepSeek開口說話了：只要15分鐘就能讓DeepSeek開口說話

量子位 2025-03-10 18:03:15
0 跟貼 0
AI生成視頻復刻動作，上傳視頻+一句話即可

量子位 2025-02-04 12:32:15
0 跟貼 0
實測訊飛曉醫VS DeepSeek-R1，誰是更懂你的家庭健康助手？

量子位 2025-03-08 19:20:56
0 跟貼 0
首個個性化對齊大模型問世！可精準識別用戶內在動機和偏好

量子位 2025-04-07 17:08:38
0 跟貼 0
虎嗅【作·嗅之星】周榜第255~256期

虎嗅APP 2025-04-08 01:00:07
0 跟貼 0
為了800元，一家五口全部被害，全程高能推理，案情不斷反轉

板姐說車 2025-04-06 09:13:38
0 跟貼 0
R2前奏？DeepSeek聯合清華新論文找到強化學習新方法：27B模型“干翻”671B

AI寒武紀 2025-04-04 18:24:13
35 跟貼 35
實測車載DeepSeek：理財哄娃，做北京旅游攻略，避開喝豆汁兒那種

智能車參考 2025-04-04 14:58:43
0 跟貼 0
奧特曼公開回懟馬斯克：他一生缺乏安全感

量子位 2025-02-15 12:09:37
1 跟貼 1
史上最大人肉機械臂，能拿東西還能做復雜手勢

量子位 2025-03-29 17:36:24
0 跟貼 0
關鍵時刻人民日報重磅發聲：天塌不下來

北京青年報 2025-04-07 08:35:19
33069 跟貼 33069
“理解選擇”之九：有限理性如何應對無限的選擇？

解毒時光 2025-04-08 00:57:07
1 跟貼 1
鋼琴家用機械外骨骼突破手速極限，訓練完手速能得到巨大提升

量子位 2025-01-26 12:43:42
0 跟貼 0
河北三河，商戶門頭禁用紅黑藍三色？

大象新聞 2025-04-07 19:16:56
104 跟貼 104
甲亢哥與功夫機器人的互動，他又被中國科技給震驚了！

臺海大林 2025-04-06 00:00:24
0 跟貼 0
弄死電腦的13種方法，塞滿硬拆！

量子位 2025-01-22 18:06:18
0 跟貼 0

權貴越無恥，民粹越極端

特例的貓

2025-04-07 07:55:54

劉亦菲素顏出鏡，與路人無差別，網友：這才是真實的狀態

劉亦菲素顏出鏡，與路人無差別，網友：這才是真實的狀態

喜歡歷史的阿繁

2025-04-07 17:13:10

再戰雷霆輪休可能性？雷迪克：沒什么是板上釘釘的都是每日觀察

再戰雷霆輪休可能性？雷迪克：沒什么是板上釘釘的都是每日觀察

直播吧

2025-04-08 07:50:16

外國藥企不跟我們玩了，正在集體退出集采，罕見病患者靠啥續命？

外國藥企不跟我們玩了，正在集體退出集采，罕見病患者靠啥續命？

蜉蝣說

2025-01-25 18:46:48

九邊：大上海是剩女的天堂！但對男人卻很殘酷！看了副本都要跑！

九邊：大上海是剩女的天堂！但對男人卻很殘酷！看了副本都要跑！

陳博世財經

2025-04-07 15:39:10

同曦被淘汰更衣室！貝帥+劉家成肯定全隊，曾繁日捂臉，全隊沮喪

同曦被淘汰更衣室！貝帥+劉家成肯定全隊，曾繁日捂臉，全隊沮喪

籃球資訊達人

2025-04-08 01:09:55

“看看美國關稅大棒，再看看中國海南…”

“看看美國關稅大棒，再看看中國海南…”

觀察者網

2025-04-07 19:40:06

立訊精密、藍思科技、領益智造等多家“果鏈”龍頭回應“對等關稅”

立訊精密、藍思科技、領益智造等多家“果鏈”龍頭回應“對等關稅”

每日經濟新聞

2025-04-07 19:45:03

越南宣布對中國鋼材加稅，加到27.83%，韓國馬上跟進，加到38%

越南宣布對中國鋼材加稅，加到27.83%，韓國馬上跟進，加到38%

瀘沽湖

2025-04-07 10:16:24

NBA官方：字母哥和萊昂納德分獲上周東西部最佳球員

NBA官方：字母哥和萊昂納德分獲上周東西部最佳球員

懂球帝

2025-04-08 07:49:20

1場10-4后，中國晉級第1人誕生！鞏晨智逆轉奪賽點，趙心童大勝？

1場10-4后，中國晉級第1人誕生！鞏晨智逆轉奪賽點，趙心童大勝？

劉姚堯的文字城堡

2025-04-08 05:09:17

熱聞|“金條還沒到手已虧4萬多”！大漲后大跌！金店老板稱20年沒見過這樣的行情

熱聞|“金條還沒到手已虧4萬多”！大漲后大跌！金店老板稱20年沒見過這樣的行情

齊魯壹點

2025-04-08 06:52:10

慘不忍睹！包茂高速多車相撞，目擊者：30多輛車子撞在一起了

慘不忍睹！包茂高速多車相撞，目擊者：30多輛車子撞在一起了

阿鳧愛吐槽

2025-04-07 15:42:07

43歲余文樂在遼寧，在五星級酒店吃飯，眼凸嘴小，身上老人味好重

43歲余文樂在遼寧，在五星級酒店吃飯，眼凸嘴小，身上老人味好重

涵豆說娛

2025-04-06 17:53:14

全球股市黑色星期一！A股超半數股票跌停，總市值一天蒸發7.6萬億元

全球股市黑色星期一！A股超半數股票跌停，總市值一天蒸發7.6萬億元

華夏時報

2025-04-07 18:02:31

名記：若謝潑德每場能打25-30分鐘他將輕松獲得年度最佳新秀

名記：若謝潑德每場能打25-30分鐘他將輕松獲得年度最佳新秀

直播吧

2025-04-08 01:16:45

結束了，金秀賢丑聞最擔心的事情發生了，韓娛頂流的光環也救不了

結束了，金秀賢丑聞最擔心的事情發生了，韓娛頂流的光環也救不了

墨印齋

2025-04-07 17:08:50

A股行情已經很清晰，不必等待了！接下來，將會迎來更大的變盤？

A股行情已經很清晰，不必等待了！接下來，將會迎來更大的變盤？

財經大拿

2025-04-08 03:20:02

劉燁兒子上法國新聞聯播，14歲諾一長相大變不敢認，一圈胡子搶鏡

劉燁兒子上法國新聞聯播，14歲諾一長相大變不敢認，一圈胡子搶鏡

頭號劇委會

2025-04-07 07:42:51

生死時速！大連一小米SU7飆到225公里每小時，乘客竟說：這不算快

生死時速！大連一小米SU7飆到225公里每小時，乘客竟說：這不算快

云景侃記

2025-04-07 22:10:07

AI產業主平臺領航智能+時代

12486文章數 66006關注度

往期回顧全部

科技要聞

特朗普堅持征收關稅周一美科技股劇烈震蕩

頭條要聞

特朗普再對歐盟施壓：必須從美國購入能源

頭條要聞

特朗普再對歐盟施壓：必須從美國購入能源

體育要聞

刷屏中文互聯網，甲亢哥是怎么火的？

娛樂要聞

汪小菲身旁的朋友，對馬筱梅的評價

財經要聞

看好中國資本市場 "國家隊"增持

汽車要聞

途昂Pro的五套組合拳打完看清油車的自我救贖

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

手機

親子

藝術

本地

公開課

手機要聞

超大杯手機為什么很少做直屏 OPPO周意保揭秘：無奈之舉

親子要聞

您會走路嗎？

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

本地新聞

我在新昌當女主｜大佛寺氛圍感拉滿古偶頂流機位GET

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
中國最大沙漠中唯一的城市，周邊300公里被黃沙覆蓋
李彥宏：百度離破產30天

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：大名县| 甘孜| 宜都市| 寿光市| 突泉县| 德庆县| 景洪市| 荥阳市| 崇阳县| 永年县| 古浪县| 金秀| 安岳县| 镇远县| 新泰市| 武鸣县| 汤阴县| 凉城县| 丹棱县| 阳西县| 合江县| 西乡县| 通道| 库伦旗| 顺义区| 广南县| 青冈县| 遂宁市| 庆阳市| 翁牛特旗| 慈利县| 西充县| 仁寿县| 桂阳县| 淮滨县| 岱山县| 锡林郭勒盟| 静安区| 尖扎县| 普定县| 马龙县|

<blockquote id="x4l2m"><p id="x4l2m"></p></blockquote>