99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

o3狂燒3萬美金解一題,反被AGI榜單除名!試錯(cuò)1024次不如10歲小孩哥4分鐘

0
分享至


新智元報(bào)道

編輯:編輯部 YNH

【新智元導(dǎo)讀】OpenAI o3推理成本從3000美元飆至3萬美元,暴增10倍。o3-high靠暴力試錯(cuò)生成4300萬字解題,卻被ARC-AGI「除名」。

短短幾個(gè)月,最新評(píng)估顯示,o3推理成本比預(yù)初估計(jì)暴漲10倍!

在ARC-AGI最新測(cè)試上,AI單次任務(wù)曾用3000美元,而如今已飆升至30000美元。

來自牛津大學(xué)的高級(jí)研究員Toby Ord指出,o3-high看似性能強(qiáng)大,實(shí)則更多地依賴于海量計(jì)算,而非真正的推理突破。


o3-high在對(duì)每個(gè)任務(wù)嘗試1024次,每次生成137頁文本,總計(jì)4300萬字——相當(dāng)于為每個(gè)任務(wù)寫了一本《大英百科全書》(4400萬字)。

結(jié)果就是,完成每個(gè)任務(wù)成本高達(dá)3萬美金。而這些簡單的謎題,一個(gè)10歲的孩子可能只需4分鐘就能解決。


成本飆升直接導(dǎo)致了o3-high超出ARC-AGI每個(gè)任務(wù)1萬美元限制,直接被排除在排行榜之外

甚至,o3-high的算力消耗竟是o3-low的172倍。

這種「暴力試錯(cuò)」的方式不禁讓人質(zhì)疑:這真的是智能解題嗎?

從驚艷到驚嚇,o3成本暴增10倍

去年12月,OpenAI推出了推理模型o3。

為了展示o3的強(qiáng)大性能,他們邀請(qǐng)了ARC PrizeFoundation主席Greg Kamradt一同參與那次發(fā)布會(huì)。

就在上周,ARC Prize Foundation更新了他們對(duì)o3模型計(jì)算成本的估算,結(jié)果令人震驚。

最初,他們估計(jì)o3-low解決一個(gè)ARC-AGI任務(wù)的成本為20美元,o3-high為3000美元。

而現(xiàn)在,根據(jù)修訂后的ARC-AGI表,這些數(shù)字分別增加到200美元和3萬美元。

這要比他們預(yù)計(jì)的成本整整高出10倍,這也可能是OpenAI遲遲沒有正式發(fā)布o(jì)3的原因。

成本實(shí)在是太高了。


對(duì)此,ARC Prize Foundation的聯(lián)合創(chuàng)始人之一Mike Knoop表示:「我們認(rèn)為o1-pro更接近o3的真實(shí)成本,因?yàn)樗跍y(cè)試時(shí)用了大量的計(jì)算資源」。

o3的原始估算僅為OpenAI現(xiàn)有o1-pro模型收費(fèi)的1/10,因此,他們以o1-pro定價(jià)作為參考,更新了定價(jià)數(shù)據(jù)。


「但這只是個(gè)參考,我們?cè)谂判邪裆习裲3標(biāo)記為預(yù)覽版,就是為了反映官方定價(jià)的不確定性。」

研究員Toby Ord稱,令人失望的是,更新后的圖表顯示,o3整體表現(xiàn)幾乎未超出o1對(duì)數(shù)收益的趨勢(shì)。

他對(duì)此推測(cè),或許是因?yàn)閛3是在ARC-AGI公開測(cè)試集的75%上進(jìn)行了專門的訓(xùn)練,而OpenAI并未發(fā)布任何消融數(shù)據(jù)澄清這一增益的來源。

相較之下,o3-mini更讓人眼前一亮,所用的計(jì)算資源比o3-high要燒1000倍,卻能展現(xiàn)出真正突破趨勢(shì)的表現(xiàn)。


一直以來都有傳言稱OpenAI打算為企業(yè)客戶推出昂貴的會(huì)員計(jì)劃。

有人可能會(huì)覺得,即便是如此高的會(huì)員費(fèi)也比請(qǐng)一個(gè)員工便宜。

但當(dāng)一個(gè)任務(wù)需要3萬美元、4300萬字「暴力堆砌」下才能解決,這種效率是否真的劃算。


ARC-AGI五年不敗,難倒了一片AI

提起ARC-AGI,最初只是Keras之父Fran?ois Chollet在谷歌一個(gè)副業(yè)項(xiàng)目,如今卻成為所有AI必考題。

ARC Prize Foundation是一家非營利組織,使命是在基準(zhǔn)測(cè)試期間成為AGI的北極星。

他們的第一個(gè)基準(zhǔn)ARC-AGI,是Fran?ois Chollet于2019年在關(guān)于智力測(cè)量的論文中發(fā)表的,它在AI領(lǐng)域已經(jīng)保持5年不敗。


隨著模型變得越來越強(qiáng),上個(gè)月,他們更新了ARC-AGI-2。


不像ARC-AGI-1,這個(gè)新版本不容易靠蠻力破解。這對(duì)AI來講非常難。

難到什么程度呢?

像GPT-4.5、Claude 3.7 Sonnet、Gemini 2等這些現(xiàn)在頂尖的基礎(chǔ)模型得分都是0%。也就是說一道也解不出來。

推理模型也沒好到哪里去,Claude Thinking、DeepSeek-R1、o3-mini得分也只有0-1%。

為什么會(huì)這樣?

原因在于ARC-AGI-2的所有任務(wù)都需要一些認(rèn)真的思考。

也就是說,推理模型在解決這些任務(wù)時(shí),需要進(jìn)行大量的推理,消耗非常多的Token。

比如,當(dāng)前最先進(jìn)的推理模型在處理需要把符號(hào)看作「有意義的內(nèi)容」時(shí),表現(xiàn)并不好。

它們會(huì)嘗試檢查對(duì)稱性、做鏡像、進(jìn)行圖形變換,甚至能識(shí)別符號(hào)之間的連接關(guān)系,但卻無法理解這些符號(hào)本身所代表的含義。


符號(hào)解釋:ARC-AGI-2公共評(píng)估任務(wù)#e3721c99

在需要同時(shí)運(yùn)用多條規(guī)則,或者這些規(guī)則相互影響的任務(wù)中表現(xiàn)得也很吃力。

相比之下,如果任務(wù)只涉及一條或極少數(shù)幾條整體性的規(guī)則,AI通常能穩(wěn)定地發(fā)現(xiàn)并正確運(yùn)用這些規(guī)則。


組合推理:ARC-AGI-2公開評(píng)估任務(wù) #cbebaa4b

在面對(duì)需要根據(jù)具體情境靈活應(yīng)用規(guī)則的任務(wù)時(shí)這些推理模型同樣表現(xiàn)不佳。

它們往往只關(guān)注表面模式,而不是理解背后真正的選擇原則。


上下文規(guī)則應(yīng)用:ARC-AGI-2 公共評(píng)估任務(wù) #b5ca7ac4

幾年內(nèi),AGI或?qū)⒊霈F(xiàn)

雖然這些頂尖的推理模型在ARC-AGI的測(cè)試中表現(xiàn)不理想,但并沒有妨礙很多人對(duì)實(shí)現(xiàn)AGI的暢想。

在最新一篇博客中,DeepMind就表示「通用人工智能(AGI)可能在未來幾年內(nèi)到來」。


結(jié)合AI智能體的能力,AGI可以大幅提升AI在理解、推理、規(guī)劃和自主執(zhí)行行動(dòng)方面的能力。這種技術(shù)進(jìn)步將為社會(huì)提供寶貴的工具,以應(yīng)對(duì)包括藥物發(fā)現(xiàn)、經(jīng)濟(jì)增長和氣候變化在內(nèi)的關(guān)鍵全球挑戰(zhàn)。

而這也意味著,我們可以期待數(shù)十億人將從中獲得切實(shí)的益處。例如:

  • 通過實(shí)現(xiàn)更快速、更精準(zhǔn)的醫(yī)療診斷,它可以革新醫(yī)療保健領(lǐng)域;

  • 通過提供個(gè)性化的學(xué)習(xí)體驗(yàn),它例如,使教育更加普及且更具吸引力;

  • 通過增強(qiáng)信息處理能力,它可以幫助降低創(chuàng)新和創(chuàng)造的門檻;

  • 通過使先進(jìn)工具和知識(shí)的獲取更加便捷,它可以讓小型組織有能力解決那些以前只有大型、資金充足的機(jī)構(gòu)才能應(yīng)對(duì)的復(fù)雜挑戰(zhàn)。

而現(xiàn)在,o3成本暴漲10倍,智能邊界似乎比我們想象的更遠(yuǎn)。

未來幾年,AGI曙光或許將至,但眼下,燒錢智能并不代表著真正的推理突破,我們?nèi)孕璞3智逍雅c期待。

參考資料:

https://x.com/tobyordoxford/status/1907379921825014094

https://techcrunch.com/2025/04/02/openais-o3-model-might-be-costlier-to-run-than-originally-estimated/

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
何智麗:入日本籍擊敗鄧亞萍一句“呦西”引熱議,退役想回國

何智麗:入日本籍擊敗鄧亞萍一句“呦西”引熱議,退役想回國

丹寶說文史
2023-09-15 17:17:40
威少正式申請(qǐng)交易,被掘金羞辱后果斷離隊(duì),點(diǎn)名加盟2支球隊(duì)

威少正式申請(qǐng)交易,被掘金羞辱后果斷離隊(duì),點(diǎn)名加盟2支球隊(duì)

舟望停云
2025-04-11 05:05:44
央視怒批!目不識(shí)丁、丟人現(xiàn)眼,難怪兩會(huì)上馮遠(yuǎn)征建議演員多學(xué)習(xí)

央視怒批!目不識(shí)丁、丟人現(xiàn)眼,難怪兩會(huì)上馮遠(yuǎn)征建議演員多學(xué)習(xí)

峰哥娛樂動(dòng)漫
2025-03-10 08:22:49
朱立倫向大陸叫囂:我們?cè)趺纯梢宰寗e人在自己的天空上耀武揚(yáng)威

朱立倫向大陸叫囂:我們?cè)趺纯梢宰寗e人在自己的天空上耀武揚(yáng)威

野山歷史
2025-04-11 11:16:34
在性生活中,男人怎么做才能更持久?你要相信科學(xué)的答案

在性生活中,男人怎么做才能更持久?你要相信科學(xué)的答案

左與右心理
2025-03-27 13:44:31
李嘉誠預(yù)言或成真?未來全國近一半的家庭,將會(huì)面臨“4大難題”

李嘉誠預(yù)言或成真?未來全國近一半的家庭,將會(huì)面臨“4大難題”

歷史阿務(wù)
2025-02-20 17:27:04
朝鮮每年賣給中國20億的商品,都是些什么?你可能一輩子都猜不到

朝鮮每年賣給中國20億的商品,都是些什么?你可能一輩子都猜不到

百姓識(shí)天下
2025-04-10 18:26:14
唐尚珺逃課被舉報(bào)?數(shù)萬網(wǎng)友力挺:大學(xué)容不下“不完美奮斗者”?

唐尚珺逃課被舉報(bào)?數(shù)萬網(wǎng)友力挺:大學(xué)容不下“不完美奮斗者”?

教育人看世界
2025-04-11 15:03:45
萬萬沒想到,中國對(duì)美關(guān)稅125%后,突然不玩了

萬萬沒想到,中國對(duì)美關(guān)稅125%后,突然不玩了

智觀科技
2025-04-12 00:29:07
張嘉倪久違亮相,成都出席活動(dòng),模樣大變認(rèn)不出,有點(diǎn)網(wǎng)紅臉了

張嘉倪久違亮相,成都出席活動(dòng),模樣大變認(rèn)不出,有點(diǎn)網(wǎng)紅臉了

可樂談情感
2025-04-11 01:15:19
WCBA生死戰(zhàn)G4:廣東女籃如何破局衛(wèi)冕冠軍?三招鎖定總冠軍

WCBA生死戰(zhàn)G4:廣東女籃如何破局衛(wèi)冕冠軍?三招鎖定總冠軍

中山印象體育攝影師
2025-04-11 11:54:52
謝賢遮羞布被揭,公開和張柏芝關(guān)系,謝霆鋒得知后急忙否認(rèn)

謝賢遮羞布被揭,公開和張柏芝關(guān)系,謝霆鋒得知后急忙否認(rèn)

她時(shí)尚丫
2025-04-11 15:20:54
壞消息,勇士隊(duì)進(jìn)季后賽必勝之戰(zhàn),小佩頓、波斯特均在傷病名單上

壞消息,勇士隊(duì)進(jìn)季后賽必勝之戰(zhàn),小佩頓、波斯特均在傷病名單上

好火子
2025-04-12 02:49:47
電影局發(fā)聲后美電影公司股價(jià)大跌

電影局發(fā)聲后美電影公司股價(jià)大跌

界面新聞
2025-04-11 09:18:23
馬斯克成小丑了,美國關(guān)稅正在狠狠背刺特斯拉。

馬斯克成小丑了,美國關(guān)稅正在狠狠背刺特斯拉。

差評(píng)XPIN
2025-04-12 00:13:58
上海被淘汰揪出三敗筆!李添榮只能刷分,劉錚大跌眼鏡,盧偉太軟

上海被淘汰揪出三敗筆!李添榮只能刷分,劉錚大跌眼鏡,盧偉太軟

籃球資訊達(dá)人
2025-04-12 01:35:17
美國多州禁止伊斯蘭教法,馬斯克痛恨的“覺醒病毒”與“文化戰(zhàn)”

美國多州禁止伊斯蘭教法,馬斯克痛恨的“覺醒病毒”與“文化戰(zhàn)”

漢娜書房
2025-04-10 16:01:32
?區(qū)區(qū)兩周工資!薩拉赫簽約時(shí)手戴奢侈手表,價(jià)值超72萬英鎊

?區(qū)區(qū)兩周工資!薩拉赫簽約時(shí)手戴奢侈手表,價(jià)值超72萬英鎊

直播吧
2025-04-11 22:30:17
內(nèi)蒙張世春遭羞辱血洗售樓處,女銷售:求求你放過我,我懷孕了

內(nèi)蒙張世春遭羞辱血洗售樓處,女銷售:求求你放過我,我懷孕了

懸案解密檔案
2025-03-24 15:56:19
女人到了多少歲,會(huì)對(duì)男人完全失去興趣?答案顯而易見

女人到了多少歲,會(huì)對(duì)男人完全失去興趣?答案顯而易見

第一心理
2023-09-18 16:06:26
2025-04-12 05:32:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺(tái)領(lǐng)航智能+時(shí)代
12510文章數(shù) 66010關(guān)注度
往期回顧 全部

科技要聞

單臺(tái)年入20萬!首批人形機(jī)器人致富者來了

頭條要聞

專家:不用太擔(dān)心關(guān)稅 現(xiàn)在要看的是中美雙方誰扛不住

頭條要聞

專家:不用太擔(dān)心關(guān)稅 現(xiàn)在要看的是中美雙方誰扛不住

體育要聞

球迷天天罵,但我們要進(jìn)歐冠了

娛樂要聞

汪小菲馬筱梅婚禮又有了耐人尋味的新聞

財(cái)經(jīng)要聞

造假累計(jì)數(shù)百億 揭秘東旭集團(tuán)造假手法

汽車要聞

25款風(fēng)云A8/T9/T10齊上市 多款車型發(fā)布一口價(jià)

態(tài)度原創(chuàng)

時(shí)尚
教育
旅游
游戲
軍事航空

那些認(rèn)真生活的人,才最時(shí)髦!

教育要聞

考研清華425分,斷層第一被全網(wǎng)看好,復(fù)試卻被刷,是什么原因

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

LPL觀眾徹底絕望?BLG爆冷不敵AL,涵藝連發(fā)多條微博開噴!

軍事要聞

蘇丹西部一難民營遭炮擊 至少150人傷亡

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 遵义市| 威信县| 林口县| 平潭县| 拉孜县| 闽清县| 望城县| 望江县| 泽州县| 西安市| 绿春县| 阿克苏市| 象山县| 宁阳县| 晋州市| 洪湖市| 邛崃市| 永年县| 岑巩县| 徐水县| 耒阳市| 阳原县| 蓬溪县| 蒙自县| 贵德县| 万山特区| 阳城县| 乌什县| 兴安县| 赣榆县| 苏尼特左旗| 铁岭市| 延长县| 龙井市| 荆州市| 南城县| 正宁县| 柯坪县| 元阳县| 陕西省| 常山县|