得分比第二名翻倍,成本卻僅為1/20?!
o3中杯在超難推理任務ARC-AGI上的新成績,屬實又給眾人帶來了億點點震撼。
根據ARC Prize官方介紹,本輪測試得出的關鍵結論如下:
- o3 (Medium) 在ARC-AGI-1上得分為57%,成本為1.5美元/任務,優于目前所有已知COT推理模型;
- o4-mini(Medium)在ARC-AGI-1上得分為42%,成本為0.23美元/任務,準確率不足但成本優勢明顯;
- 在難度升級的ARC-AGI-2上,兩種型號模型的準確率均未超過3%
按照最新ARC測試,中杯o3堪稱目前OpenAI所有模型中的“性價比之王”。
不過值得注意的是,相比2024年12月OpenAI在“雙十二”直播活動中發布的o3模型,最新成績可謂“大幅縮水”。
當時o3在低推理能力設置下(Low)得分高達75.7%,并且讓模型推理更長時間后,其得分更是首次超越人類(85%)飆升至87.5%。
那么問題來了,為何短短幾個月過去,o3模型在ARC測試上的得分差異明顯呢?
原來前后兩個模型雖然名稱一樣,但實際并非相同的模型。
- OpenAI當下最新的o3,已針對聊天和產品應用進行了微調。
△圖源:ARC Prize官網
甚至,OpenAI研究員們也強調,最新發布的o3并未專門針對ARC-AGI測試進行訓練。
也就是說,中杯o3第一次挑戰ARC難題就取得了好成績。
賓大沃頓商學院教授Ethan Mollick更是直言:
- 現在有更多的證據表明, o3代表著一次重大進步。
與此同時,時代雜志發表的一篇獨家文章表示,o3優于94%的專業病毒學家。其在這一專業領域的準確率達到了43.8%,相比之下博士級人類專家的準確率僅為22.1%。
中杯o3 ARC-AGI測試成績出爐
ARC-AGI是一項旨在評判大模型的“智力”,或者說“AGI能力”的基準測試。
里面包含了一系列拼圖問題,要求AI從不同顏色的方塊中識別出視覺模式,并生成正確的 “答案” 網格。這些問題主要是為了迫使AI適應未曾見過的新問題。
正如開頭所言,在ARC-AGI-1中,o3模型曾以75.7%的得分“稱王稱霸”。而在看到這一成績后,ARC官方感受到了進一步更新的緊迫性。
于是在2024年3月,他們上新了ARC-AGI-2版本,核心目標是測試模型能否高效地獲取超出其訓練數據的新技能。
具體而言,在ARC-AGI-1基礎之上,官方引入了更多符號解釋、多組合規則以及需要更深層次抽象的任務,難度再次大升級。
正是基于以上兩個測試基準,在OpenAI最新上線了o3和o4-mini之后,ARC又重新進行了測試。
除了中杯o3取得的好成績,更多測試結果如下:
首先是o3 (high),ARC官方自稱耗費超過5萬美元,最終仍未獲得o3 (high)的完整測試結論。
理由是,在高推理能力設置下,模型在大多數情況下均無法響應或超時,最后只有不到一半的任務返回了結果。
不過參與審查的Mike Knoop表示,建議默認使用o3 (high)設置,除非遇到超時才切換到Medium選項。
同時他認為,雖然中杯o3的準確率遠低于o3-preview(去年12月的版本),但毫無疑問o3整體在準確率和成本優化方面做得非常出色。
- 如今,你在其他任何地方都買不到o3級別的AI推理能力。
一言以蔽之,本輪測試結果表明,中杯o3在繼承o3-preview大部分新功能的前提下,成本有了大幅下降。
除此之外,ARC官方還得出了三個關鍵發現:
1、早期響應準確率更高:模型越早返回的任務,準確率越高。而那些耗時更長(無論是運行時間還是token使用量)的任務,失敗的可能性更大。
2、高級推理可能效率低下:在相同任務上比較中杯o3和o3 (high)時,發現后者始終使用更多token來得出相同的答案。
3、每秒token數的最小變化:在o系列模型中,不同任務的每秒token數差異較小。特別是o3-mini-low和o4-mini-low的吞吐量(tok/s)高于中高版本。
One More Thing
順帶一提,ARC官方早前還測試過DeepSeek-R1。
最終結果是,在ARC-AGI-1基準上,DeepSeek-R1得分為15.8%,遠低于o3模型。
你怎么看o3的新測試?
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.