99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

o3狂燒3萬美金解一題,反被AGI榜單除名!試錯1024次不如10歲小孩哥4分鐘

0
分享至


新智元報道

編輯:編輯部 YNH

【新智元導讀】OpenAI o3推理成本從3000美元飆至3萬美元,暴增10倍。o3-high靠暴力試錯生成4300萬字解題,卻被ARC-AGI「除名」。

短短幾個月,最新評估顯示,o3推理成本比預初估計暴漲10倍!

在ARC-AGI最新測試上,AI單次任務曾用3000美元,而如今已飆升至30000美元。

來自牛津大學的高級研究員Toby Ord指出,o3-high看似性能強大,實則更多地依賴于海量計算,而非真正的推理突破。


o3-high在對每個任務嘗試1024次,每次生成137頁文本,總計4300萬字——相當于為每個任務寫了一本《大英百科全書》(4400萬字)。

結果就是,完成每個任務成本高達3萬美金。而這些簡單的謎題,一個10歲的孩子可能只需4分鐘就能解決。


成本飆升直接導致了o3-high超出ARC-AGI每個任務1萬美元限制,直接被排除在排行榜之外

甚至,o3-high的算力消耗竟是o3-low的172倍。

這種「暴力試錯」的方式不禁讓人質疑:這真的是智能解題嗎?

從驚艷到驚嚇,o3成本暴增10倍

去年12月,OpenAI推出了推理模型o3。

為了展示o3的強大性能,他們邀請了ARC PrizeFoundation主席Greg Kamradt一同參與那次發布會。

就在上周,ARC Prize Foundation更新了他們對o3模型計算成本的估算,結果令人震驚。

最初,他們估計o3-low解決一個ARC-AGI任務的成本為20美元,o3-high為3000美元。

而現在,根據修訂后的ARC-AGI表,這些數字分別增加到200美元和3萬美元。

這要比他們預計的成本整整高出10倍,這也可能是OpenAI遲遲沒有正式發布o3的原因。

成本實在是太高了。


對此,ARC Prize Foundation的聯合創始人之一Mike Knoop表示:「我們認為o1-pro更接近o3的真實成本,因為它在測試時用了大量的計算資源」。

o3的原始估算僅為OpenAI現有o1-pro模型收費的1/10,因此,他們以o1-pro定價作為參考,更新了定價數據。


「但這只是個參考,我們在排行榜上把o3標記為預覽版,就是為了反映官方定價的不確定性。」

研究員Toby Ord稱,令人失望的是,更新后的圖表顯示,o3整體表現幾乎未超出o1對數收益的趨勢。

他對此推測,或許是因為o3是在ARC-AGI公開測試集的75%上進行了專門的訓練,而OpenAI并未發布任何消融數據澄清這一增益的來源。

相較之下,o3-mini更讓人眼前一亮,所用的計算資源比o3-high要燒1000倍,卻能展現出真正突破趨勢的表現。


一直以來都有傳言稱OpenAI打算為企業客戶推出昂貴的會員計劃。

有人可能會覺得,即便是如此高的會員費也比請一個員工便宜。

但當一個任務需要3萬美元、4300萬字「暴力堆砌」下才能解決,這種效率是否真的劃算。


ARC-AGI五年不敗,難倒了一片AI

提起ARC-AGI,最初只是Keras之父Fran?ois Chollet在谷歌一個副業項目,如今卻成為所有AI必考題。

ARC Prize Foundation是一家非營利組織,使命是在基準測試期間成為AGI的北極星。

他們的第一個基準ARC-AGI,是Fran?ois Chollet于2019年在關于智力測量的論文中發表的,它在AI領域已經保持5年不敗。


隨著模型變得越來越強,上個月,他們更新了ARC-AGI-2。


不像ARC-AGI-1,這個新版本不容易靠蠻力破解。這對AI來講非常難。

難到什么程度呢?

像GPT-4.5、Claude 3.7 Sonnet、Gemini 2等這些現在頂尖的基礎模型得分都是0%。也就是說一道也解不出來。

推理模型也沒好到哪里去,Claude Thinking、DeepSeek-R1、o3-mini得分也只有0-1%。

為什么會這樣?

原因在于ARC-AGI-2的所有任務都需要一些認真的思考。

也就是說,推理模型在解決這些任務時,需要進行大量的推理,消耗非常多的Token。

比如,當前最先進的推理模型在處理需要把符號看作「有意義的內容」時,表現并不好。

它們會嘗試檢查對稱性、做鏡像、進行圖形變換,甚至能識別符號之間的連接關系,但卻無法理解這些符號本身所代表的含義。


符號解釋:ARC-AGI-2公共評估任務#e3721c99

在需要同時運用多條規則,或者這些規則相互影響的任務中表現得也很吃力。

相比之下,如果任務只涉及一條或極少數幾條整體性的規則,AI通常能穩定地發現并正確運用這些規則。


組合推理:ARC-AGI-2公開評估任務 #cbebaa4b

在面對需要根據具體情境靈活應用規則的任務時這些推理模型同樣表現不佳。

它們往往只關注表面模式,而不是理解背后真正的選擇原則。


上下文規則應用:ARC-AGI-2 公共評估任務 #b5ca7ac4

幾年內,AGI或將出現

雖然這些頂尖的推理模型在ARC-AGI的測試中表現不理想,但并沒有妨礙很多人對實現AGI的暢想。

在最新一篇博客中,DeepMind就表示「通用人工智能(AGI)可能在未來幾年內到來」。


結合AI智能體的能力,AGI可以大幅提升AI在理解、推理、規劃和自主執行行動方面的能力。這種技術進步將為社會提供寶貴的工具,以應對包括藥物發現、經濟增長和氣候變化在內的關鍵全球挑戰。

而這也意味著,我們可以期待數十億人將從中獲得切實的益處。例如:

  • 通過實現更快速、更精準的醫療診斷,它可以革新醫療保健領域;

  • 通過提供個性化的學習體驗,它例如,使教育更加普及且更具吸引力;

  • 通過增強信息處理能力,它可以幫助降低創新和創造的門檻;

  • 通過使先進工具和知識的獲取更加便捷,它可以讓小型組織有能力解決那些以前只有大型、資金充足的機構才能應對的復雜挑戰。

而現在,o3成本暴漲10倍,智能邊界似乎比我們想象的更遠。

未來幾年,AGI曙光或許將至,但眼下,燒錢智能并不代表著真正的推理突破,我們仍需保持清醒與期待。

參考資料:

https://x.com/tobyordoxford/status/1907379921825014094

https://techcrunch.com/2025/04/02/openais-o3-model-might-be-costlier-to-run-than-originally-estimated/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
權貴越無恥,民粹越極端

權貴越無恥,民粹越極端

特例的貓
2025-04-07 07:55:54
劉亦菲素顏出鏡,與路人無差別,網友:這才是真實的狀態

劉亦菲素顏出鏡,與路人無差別,網友:這才是真實的狀態

喜歡歷史的阿繁
2025-04-07 17:13:10
再戰雷霆輪休可能性?雷迪克:沒什么是板上釘釘的 都是每日觀察

再戰雷霆輪休可能性?雷迪克:沒什么是板上釘釘的 都是每日觀察

直播吧
2025-04-08 07:50:16
外國藥企不跟我們玩了,正在集體退出集采,罕見病患者靠啥續命?

外國藥企不跟我們玩了,正在集體退出集采,罕見病患者靠啥續命?

蜉蝣說
2025-01-25 18:46:48
九邊:大上海是剩女的天堂!但對男人卻很殘酷!看了副本都要跑!

九邊:大上海是剩女的天堂!但對男人卻很殘酷!看了副本都要跑!

陳博世財經
2025-04-07 15:39:10
同曦被淘汰更衣室!貝帥+劉家成肯定全隊,曾繁日捂臉,全隊沮喪

同曦被淘汰更衣室!貝帥+劉家成肯定全隊,曾繁日捂臉,全隊沮喪

籃球資訊達人
2025-04-08 01:09:55
“看看美國關稅大棒,再看看中國海南…”

“看看美國關稅大棒,再看看中國海南…”

觀察者網
2025-04-07 19:40:06
立訊精密、藍思科技、領益智造等多家“果鏈”龍頭回應“對等關稅”

立訊精密、藍思科技、領益智造等多家“果鏈”龍頭回應“對等關稅”

每日經濟新聞
2025-04-07 19:45:03
越南宣布對中國鋼材加稅,加到27.83%,韓國馬上跟進,加到38%

越南宣布對中國鋼材加稅,加到27.83%,韓國馬上跟進,加到38%

瀘沽湖
2025-04-07 10:16:24
NBA官方:字母哥和萊昂納德分獲上周東西部最佳球員

NBA官方:字母哥和萊昂納德分獲上周東西部最佳球員

懂球帝
2025-04-08 07:49:20
1場10-4后,中國晉級第1人誕生!鞏晨智逆轉奪賽點,趙心童大勝?

1場10-4后,中國晉級第1人誕生!鞏晨智逆轉奪賽點,趙心童大勝?

劉姚堯的文字城堡
2025-04-08 05:09:17
熱聞|“金條還沒到手已虧4萬多”!大漲后大跌!金店老板稱20年沒見過這樣的行情

熱聞|“金條還沒到手已虧4萬多”!大漲后大跌!金店老板稱20年沒見過這樣的行情

齊魯壹點
2025-04-08 06:52:10
慘不忍睹!包茂高速多車相撞,目擊者:30多輛車子撞在一起了

慘不忍睹!包茂高速多車相撞,目擊者:30多輛車子撞在一起了

阿鳧愛吐槽
2025-04-07 15:42:07
43歲余文樂在遼寧,在五星級酒店吃飯,眼凸嘴小,身上老人味好重

43歲余文樂在遼寧,在五星級酒店吃飯,眼凸嘴小,身上老人味好重

涵豆說娛
2025-04-06 17:53:14
全球股市黑色星期一!A股超半數股票跌停,總市值一天蒸發7.6萬億元

全球股市黑色星期一!A股超半數股票跌停,總市值一天蒸發7.6萬億元

華夏時報
2025-04-07 18:02:31
名記:若謝潑德每場能打25-30分鐘 他將輕松獲得年度最佳新秀

名記:若謝潑德每場能打25-30分鐘 他將輕松獲得年度最佳新秀

直播吧
2025-04-08 01:16:45
結束了,金秀賢丑聞最擔心的事情發生了,韓娛頂流的光環也救不了

結束了,金秀賢丑聞最擔心的事情發生了,韓娛頂流的光環也救不了

墨印齋
2025-04-07 17:08:50
A股行情已經很清晰,不必等待了!接下來,將會迎來更大的變盤?

A股行情已經很清晰,不必等待了!接下來,將會迎來更大的變盤?

財經大拿
2025-04-08 03:20:02
劉燁兒子上法國新聞聯播,14歲諾一長相大變不敢認,一圈胡子搶鏡

劉燁兒子上法國新聞聯播,14歲諾一長相大變不敢認,一圈胡子搶鏡

頭號劇委會
2025-04-07 07:42:51
生死時速!大連一小米SU7飆到225公里每小時,乘客竟說:這不算快

生死時速!大連一小米SU7飆到225公里每小時,乘客竟說:這不算快

云景侃記
2025-04-07 22:10:07
2025-04-08 08:11:00
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12486文章數 66006關注度
往期回顧 全部

科技要聞

特朗普堅持征收關稅 周一美科技股劇烈震蕩

頭條要聞

特朗普再對歐盟施壓:必須從美國購入能源

頭條要聞

特朗普再對歐盟施壓:必須從美國購入能源

體育要聞

刷屏中文互聯網,甲亢哥是怎么火的?

娛樂要聞

汪小菲身旁的朋友,對馬筱梅的評價

財經要聞

看好中國資本市場 "國家隊"增持

汽車要聞

途昂Pro的五套組合拳打完 看清油車的自我救贖

態度原創

手機
親子
藝術
本地
公開課

手機要聞

超大杯手機為什么很少做直屏 OPPO周意保揭秘:無奈之舉

親子要聞

您會走路嗎?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

我在新昌當女主|大佛寺氛圍感拉滿 古偶頂流機位GET

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 大名县| 甘孜| 宜都市| 寿光市| 突泉县| 德庆县| 景洪市| 荥阳市| 崇阳县| 永年县| 古浪县| 金秀| 安岳县| 镇远县| 新泰市| 武鸣县| 汤阴县| 凉城县| 丹棱县| 阳西县| 合江县| 西乡县| 通道| 库伦旗| 顺义区| 广南县| 青冈县| 遂宁市| 庆阳市| 翁牛特旗| 慈利县| 西充县| 仁寿县| 桂阳县| 淮滨县| 岱山县| 锡林郭勒盟| 静安区| 尖扎县| 普定县| 马龙县|