(關注公眾號設為標,獲取AI深度洞察)
全文 2,000字 | 閱讀約8分鐘
隨著DeepSeek R1、Grok 3和Claude 3.7在短短一兩個月內相繼亮相,OpenAI昨天周四又將GPT-4.5加入這場愈發激烈的大模型競賽。AI發展的速度令人瞠目,模型更新迭代的周期不斷壓縮,工業界和學術界都在感嘆人工智能進化之快。
代號為"Orion"的GPT-4.5作為OpenAI迄今投入最多計算資源和數據的模型,其登場引發了業界對傳統預訓練方法是否已達天花板的深度思考盡管規模龐大,OpenAI在白皮書中指出,它并不認為GPT-4.5是一個前沿模型。
從周四2月27日開始,訂閱OpenAI每月200美元ChatGPT Pro計劃的用戶將能夠在研究預覽階段在ChatGPT中使用GPT-4.5。使用OpenAI API付費套餐的開發者也可以從今天開始使用GPT-4.5。至于其他ChatGPT用戶,OpenAI發言人告訴TechCrunch,注冊了ChatGPT Plus和ChatGPT Team的客戶應該會在下周獲得該模型的使用權。
(與GPT-4o和GPT-4omini相比, GPT-4.5 的API定價太貴了)
業界一直對Orion屏息以待,一些人認為它是傳統AI訓練方法可行性的風向標。GPT-4.5的開發使用了與OpenAI開發GPT-4、GPT-3、GPT-2和GPT-1相同的關鍵技術——在稱為無監督學習的"預訓練"階段大幅增加計算能力和數據量。 在GPT-4.5之前的每一代GPT中,規模擴大都帶來了數學、寫作和編程等領域性能的巨大飛躍。確實,OpenAI表示,GPT-4.5的增大規模賦予了它"更深入的世界知識"和"更高的情商"。然而,有跡象表明,擴大數據和計算能力帶來的收益開始趨于平緩。但是,在一些AI基準測試中,GPT-4.5的表現不如DeepSeek、Anthropic以及OpenAI自身的較新AI"推理"模型。
OpenAI承認,GPT-4.5的運行成本也非常高昂——如此昂貴以至于該公司表示正在評估是否繼續長期在其API中提供GPT-4.5服務。
"我們將GPT-4.5作為研究預覽版分享,以更好地了解其優勢和局限性,"OpenAI在分享的博客文章中表示。"我們仍在探索它的能力,并期待看到人們以我們可能沒有預料到的方式使用它。"
綜合表現
OpenAI強調,GPT-4.5并非旨在完全替代GPT-4o——該公司為大多數API和ChatGPT提供支持的主力模型。雖然GPT-4.5支持文件和圖像上傳以及ChatGPT的畫布工具等功能,但目前缺少一些能力,比如對ChatGPT逼真的雙向語音模式的支持。
從優勢方面看,GPT-4.5的性能比GPT-4o更強——也超過了許多其他模型。 在OpenAI的SimpleQA基準測試中,該測試評估AI模型對直接、事實性問題的處理能力,GPT-4.5在準確性方面優于GPT-4o和OpenAI的推理模型o1和o3-mini。根據OpenAI的說法,GPT-4.5比大多數模型產生幻覺的頻率更低,理論上這意味著它編造內容的可能性應該更小。
OpenAI并未在SimpleQA測試中列出其頂級AI推理模型之一——deep research(深度研究)。值得注意的是,AI創業公司Perplexity的Deep Research模型在其他基準測試中與OpenAI的deep research表現相似,但在這項事實準確性測試中優于GPT-4.5。
在一部分編程問題子集——SWE-Bench Verified基準測試中,GPT-4.5的表現與GPT-4o和o3-mini大致相當,但不如OpenAI的deep research和Anthropic的Claude 3.7 Sonnet模型。在另一個編程測試——OpenAI的SWE-Lancer基準測試中(該測試衡量AI模型開發完整軟件功能的能力),GPT-4.5的表現優于GPT-4o和o3-mini,但仍不如deep research模型。
GPT-4.5雖然在AIME和GPQA等困難學術基準測試中未能達到領先的AI推理模型(如o3-mini、DeepSeek的R1和Claude 3.7 Sonnet(技術上屬于混合模型))的性能水平,但在這些相同測試中,它與或超過了領先的非推理模型,表明該模型在數學和科學相關問題上表現良好。
OpenAI還聲稱,GPT-4.5在基準測試不能很好捕捉的領域,如理解人類意圖的能力方面,在質量上優于其他模型。OpenAI表示,GPT-4.5回應的語氣更溫暖、更自然,在寫作和設計等創造性任務上表現出色。
我們實測效果發現GPT-4.5 不是一個推理模型(Reasoning Model) 它不是為編碼或數學而設計的。它是為了創造力和寫作而設計的。
在一項非正式測試中,OpenAI要求GPT-4.5和另外兩個模型(GPT-4o和o3-mini)使用SVG(一種基于數學公式和代碼顯示圖形的格式)創建獨角獸圖像。結果只有GPT-4.5創建出了類似獨角獸的形象。
在另一項測試中,OpenAI要求GPT-4.5和其他兩個模型回應提示:"我在考試失敗后正經歷一段艱難時期。"GPT-4o和o3-mini提供了有用的信息,但GPT-4.5的回應在社交適當性方面表現最佳。
擴展定律依舊受到挑戰
OpenAI的GPT-4.5處于"無監督學習所能達到的前沿水平"。這可能是事實,但該模型的局限性似乎也證實了專家們的猜測——預訓練的"擴展定律"將不再持續有效。
OpenAI聯合創始人兼前首席科學家Ilya Sutskever在去年12月表示,"我們已經達到了數據峰值",并且"我們所知道的預訓練方式無疑將會終結"。他的評論呼應了AI投資者、創始人和研究人員在去年11月向TechCrunch分享的擔憂。
面對預訓練的障礙,包括OpenAI在內的整個行業已經開始擁抱推理模型,這類模型執行任務的時間比非推理模型更長,但通常更加一致。通過增加AI推理模型用于"思考"問題的時間和計算能力,AI實驗室確信他們可以顯著提高模型的能力。 OpenAI計劃最終將其GPT系列模型與o系列推理模型結合起來,從今年晚些時候推出的GPT-5開始。GPT-4.5據報道訓練成本極高,多次推遲發布,且未能達到內部期望,它可能無法獨自奪取AI基準測試的桂冠。但OpenAI很可能將其視為通往更強大技術的墊腳石。
星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標
參考資料:
https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-its-largest-ai-model-yet/
https://www.youtube.com/watch?v=cfRYp0nItZ8&t=10s&ab_channel=OpenAI
來源:官方媒體/網絡新聞
排版:Atlas
編輯:深思
主編: 圖靈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.