網易首頁 > 網易號 > 正文申請入駐

OpenAI發布最強推理模型o3和o4-mini：圖像深度思考首秀，還能自主調用工具

2025-04-17 12:43:02　來源: 直面派

北京舉報

分享至

文 | 蘇揚金鹿

轉載自 | 騰訊科技（ID:qqtech）

北京時間4月17日凌晨，OpenAI 發布了兩款突破性AI模型——o3和o4-mini，它們能通過圖像進行推理，并可自主調用多種工具，被專家稱為人工智能能力的一次飛躍式提升。

這兩款模型都是OpenAI “o 系列” 推理模型的最新成員，經過訓練后，它們可在響應前進行更長時間的思考。同時，它們也是OpenAI迄今發布的最智能、最強大的模型。

這些推理模型可以自主組合并使用ChatGPT內的所有工具——包括網頁搜索、利用Python分析上傳的文件和數據、對視覺輸入進行深入推理，甚至還能生成圖像。

最重要的是，這些模型不僅能判斷何時使用工具，還能決定如何使用工具，從而以正確的輸出格式，在一分鐘內給出經過深思熟慮的詳細回答，幫助解決更復雜的問題。

這意味著它們能更高效地應對多層次、多步驟的問題，讓ChatGPT具備“自主執行任務”的能力。將頂級推理能力與完整工具訪問權限結合在一起，讓這些新模型在學術評測和實際任務中的表現都有了顯著提升。

Sam Altman在X上引述內測用戶、免疫學專家Derya Unutmaz對o3模型的評價，稱其“近乎天才水準”。

性能提升

OpenAI聲稱， o3是其迄今推出的最強大推理模型，在編程、數學、科學、視覺理解等多個領域均取得了突破性進展。它在多項基準測試中都創下新紀錄，包括Codeforces、SWE-bench和MMMU。

OpenAI新模型o3和o4-mini等在數學競賽、編程、指令遵循和工具調用方面的表現

這款模型非常適合需要多維度分析、答案并不直觀的復雜查詢，在視覺任務（如圖像、圖表和圖形分析）中表現尤為突出。

根據外部專家的評估，在現實世界的高難度任務中，o3的重大錯誤率比OpenAI o1降低了20%，在編程、商業/咨詢和創意構思等領域表現也很出色。早期測試者稱其為具有極高分析能力的“思考伙伴”，尤其擅長在生物學、數學和工程領域提出并評估全新的假設。

與o3相比，OpenAI o4-mini是一款更小巧、但高效能的推理模型，專為快速、成本友好的應用場景而優化。在數學、編程和視覺任務上，它展現出了驚人的性價比。o4-mini是AIME 2024和AIME2025基準測試中表現最好的模型之一。

在專家評估中，o4-mini在非STEM任務（科學、技術、工程、數學）上的表現超越了o3-mini。憑借出色的計算效率，o4-mini支持比o3更高的使用頻率，使其成為需要推理能力的高頻、高吞吐量場景的理想選擇。

外部專家評估認為，得益于智能水平的提升和網絡信息的引入，這兩款模型在遵循指令和提供更有用、可驗證的回答方面均優于前代模型。與此前的推理模型相比，它們的對話體驗也更加自然，尤其是在引用記憶和過往對話時，能夠提供更個性化、更相關的回答。

持續擴展強化學習能力

在OpenAI o3的開發過程中，OpenAI發現大規模強化學習（RL）呈現出與GPT系列預訓練相同的規律——“計算量越大，性能越強”。

同時，模型在被允許“思考”得越久，表現就越好。

在相同延遲和成本條件下，o3在ChatGPT中的表現優于o1。同時，如果允許模型進行更長時間的思考，它的表現還會進一步提升。

OpenAI通過強化學習訓練這兩款模型如何使用工具，還讓它們學會判斷何時使用工具，從而在開放式任務中表現更出色，尤其是在視覺推理和多步驟工作流程任務中。

首次實現圖像思維鏈整合

在上述示例中，OpenAI首次展示了其模型如何將圖像直接整合進推理思維鏈中。模型不僅能“看到”圖像，更能“用圖像進行思考”。這一突破實現了視覺與文本推理的深度融合，使其在多模態基準測試中達到最先進水平。

用戶可以上傳照片，比如：白板內容、教科書里的圖示，甚至是手繪草圖，模型都能理解它們。即使圖像存在模糊、倒置或低質量的情況，模型仍能準確解析。

結合工具調用能力，模型還能在推理過程中即時操控圖像，比如旋轉、縮放、格式轉換等，讓圖像處理成為其思考的一部分。

這些模型在視覺感知任務中表現出業界領先的準確率，能解決過去難以應對的問題。

自主完成工具調用

OpenAI 的o3和o4-mini模型在ChatGPT中擁有對所有工具的完整訪問權限，開發者還可以通過API中的函數調用功能接入自定義工具。

例如，當用戶提出“與去年相比，加州今年夏天的能源使用情況有何變化？”這個問題時，模型可以執行一連串工具調用：搜索公共能源數據、編寫Python代碼進行預測、生成圖表或圖像，并解釋預測背后的關鍵因素。

通過推理，它可以根據新獲取的信息靈活應變，例如多次搜索不同關鍵詞、分析結果、再嘗試新的搜索策略。

這種靈活、策略性較強的方式，使模型能夠完成那些超出其內部知識、需要實時信息、跨模態推理與綜合輸出的復雜任務。

性價比

OpenAI稱o3和o4-mini在很多情況下，它們都比各自的前代o1與o3-mini更高效，也更節省成本。在AME2025基準測試中，性價比都遠遠超過前代模型。

價格方面，OpenAI o3的輸入為每100萬個tokens收費10美元，緩存輸入為每100萬個tokens收費2.5美元，輸出為每100萬個tokens收費40美元。

OpenAI o4-mini的輸入為每100萬個tokens收費1.1美元，緩存輸入為每100萬個tokens收費0.275美元，輸出為每100萬個tokens收費4.4美元。

安全性

對于o3和o4-mini，OpenAI全面重構了安全訓練數據集，新增了針對生物威脅（生物風險）、惡意軟件生成、越獄提示等領域的拒絕示例，讓兩個模型在其內部安全拒絕基準測試中表現優異，例如在指令層級理解和越獄防護上都展現出強大的防護能力。

除了模型自身的表現外，OpenAI還開發了系統層面的風險緩解機制，用于識別和標記涉及前沿風險領域的危險提示。

例如，該公司訓練了一個基于推理的語言模型監控器，能夠依據人類編寫的可解釋安全規范進行判斷。在生物風險的紅隊測試中，該監控器成功識別并標記了約99%的高風險對話。

OpenAI對這兩個模型進行了迄今為止最嚴格的安全測試，按照最新的《準備度框架》（Preparedness Framework）標準，對其在以下三個能力領域進行了評估：

——生物與化學風險

——網絡安全

——AI 自我改進能力

根據評估結果，o3與o4-mini在上述所有領域均處于“低風險”級別（低于框架中設定的“高”風險閾值）。

全新實驗項目Codex CLI

OpenAI還發布了一個全新的實驗項目：Codex CLI —— 一款輕量級的編程智能體，專為最大化o3和o4-mini等模型的推理能力而設計，并即將支持GPT-4.1等更多API模型。

用戶可以直接從命令行體驗多模態推理，比如向模型傳遞截圖或低保真草圖，結合本地代碼環境，讓模型參與解決實際編程任務。

OpenAI將Codex CLI視為一種最簡約的界面，用于將強大的AI模型與用戶的計算機無縫連接。

OpenAI首席執行官山姆·奧特曼發帖稱：“o3和o4-mini非常擅長編碼，所以我們發布了一個新產品Codex CLI，讓它們更容易使用。這是一個在用戶計算機上運行的編程智能體。它是完全開源的，現在就可以使用；我們希望它能迅速改進。”

同時，OpenAI也啟動了一個總額100萬美元的資助計劃，專門支持使用Codex CLI和OpenAI模型的項目。每個項目將以2.5萬美元等值的API使用額度發放。

如何使用o3與o4-mini

從4月17日開始，ChatGPT Plus、Pro和Team用戶將在模型選擇器中看到o3、o4-mini和o4-mini-high，它們將取代之前的o1、o3-mini和o3-mini-high。ChatGPT Enterprise和Edu用戶將在一周后獲得訪問權限。

免費用戶可以在撰寫查詢前點擊 “Think” 按鈕，嘗試 o4-mini的推理能力。

此外，OpenAI計劃在未來幾周推出支持全部工具功能的OpenAI o3-pro。

與此同時，o3和o4-mini也將通過Chat Completions API和Responses API向開發者開放，部分開發者可能需驗證組織身份。

Responses API提供支持推理摘要、保留函數調用上下文以提升性能的能力，未來還將支持內置工具（如網頁搜索、文件檢索和代碼解釋器）。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

OpenAI沒說的秘密，Meta全揭了？華人一作GPT-4o同款技術，爆打擴散王者

新智元 2025-04-27 18:21:54
0 跟貼 0
AI視覺圖靈時代來了！字節OmniHuman，一張圖配上音頻生成視頻

機器之心Pro 2025-02-05 17:10:00
0 跟貼 0

全球開發者組團訓練，首個異步強化學習32B推理模型震撼來襲！數據已開源

新智元 2025-04-26 13:36:18
0 跟貼 0

OpenAI、谷歌等一線大模型科學家公開課，斯坦福CS 25春季上新！

機器之心Pro 2025-04-27 10:53:39
0 跟貼 0
多模態大語言模型空間智能新探索：單圖或一句話，生成3D建模代碼

機器之心Pro 2025-01-03 15:16:49
1 跟貼 1

GPT-4o偷偷升級，變身聊天鬼才！新版STEM智力飆升，生圖卻慘遭削弱？

新智元 2025-04-27 12:45:45
1 跟貼 1

字節跳動“扣子空間”測評：AI智能體正在抹平專業門檻，做一款游戲僅需3分鐘

鈦媒體APP 2025-04-27 12:17:10
4 跟貼 4
不靠更復雜的策略,僅憑和大模型訓練對齊,零樣本零經驗單LLM調用

機器之心Pro 2024-11-06 16:33:15
7 跟貼 7

納米AI放大招！MCP萬能工具箱，人人都能用上超級智能體

機器之心Pro 2025-04-27 20:02:18
6 跟貼 6
英偉達開源AIMO奧賽冠軍模型，僅用1.4B參數量超越14B DeeSeek-R1

DeepTech深科技 2025-04-27 18:16:50
5 跟貼 5
2個月拿下4大賽道頭部玩家，階躍搶先交出Agent戰場最硬核答卷

智東西 2025-04-27 19:43:36
0 跟貼 0
開源AI革命剛剛開始，如何破解 “開放即脆弱” 悖論？丨ToB產業觀察

鈦媒體APP 2025-04-27 13:31:10
0 跟貼 0
OpenAI放大招：免費開放ChatGPT搜索，無需注冊

每日經濟新聞 2025-02-06 10:49:09
0 跟貼 0
為什么只有AI編程成功落地？

虎嗅APP 2025-01-14 12:02:04
0 跟貼 0
AI作圖，拯救“職場牛馬”

鈦媒體APP 2025-01-17 13:25:28
1 跟貼 1
一行代碼不用寫，AI看論文自己「生」出代碼庫！科研神器再+1

新智元 2025-04-27 14:49:26
0 跟貼 0
AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
強化學習被高估！清華上交：RL不能提升推理能力，新知識得靠蒸餾

新智元 2025-04-26 13:36:22
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
o3/o4-mini實測太炸裂：看照片反推定位

量子位 2025-04-17 22:23:17
0 跟貼 0
姐姐抱著寶寶突然暈倒，最后一刻用手護住了寶寶

銳眼新聞 2025-04-27 11:32:00
1134 跟貼 1134
MCP：大模型時代的真正船票

鈦媒體APP 2025-04-27 18:05:10
2 跟貼 2
男子駕駛仰望U8在河里行駛，女子抱著孩子在后排看風景

眾橫四海 2025-04-27 17:50:11
12095 跟貼 12095
庫里36+7+9勇士擊落火箭2-1 佩頓末節11分申京15+11+4

網易體育 2025-04-27 11:21:02
10425 跟貼 10425
福爾摩斯懸疑推理神作，細致入微推理破奇案!

德芙說電影 2025-04-25 11:59:10
0 跟貼 0
全民雙休要來？網傳五一后逐步落地雙休！看似不經意，實則布大局

火山詩話 2025-04-27 08:31:39
7783 跟貼 7783
加時絕殺！巴薩賽季3殺皇馬，32次問鼎國王杯

我愛英超 2025-04-27 06:58:54
5342 跟貼 5342
核電開閘！國常會核準10臺新機組，拉動超2000億投資，新項目花落誰家？

澎湃新聞 2025-04-27 19:20:31
6759 跟貼 6759
計算機專業：未來就業的黃金賽道

玉辭心 2025-04-27 06:59:54
4 跟貼 4
對話firefly螢火蟲總裁金舸：對標MINI，全球化箭在弦上

e汽車 2025-04-25 19:45:42
20 跟貼 20
多巴胺配色暴擊！科沃斯地寶 mini 顏值天花板實錘

中關村在線 2025-04-24 15:28:41
0 跟貼 0
戈登0.1秒補扣絕殺掘金2-2快船約基奇36+21+8

網易體育 2025-04-27 08:48:19
3894 跟貼 3894
傳xAI計劃融資200億美元估值將超1200億美元

智東西 2025-04-27 18:05:18
1 跟貼 1
畢包女足球員：編程時我開心得像個孩子，未來想去NASA工作

懂球帝 2025-04-27 10:11:32
6 跟貼 6
西安千名學子角逐“數字賽場 ”

環球網資訊 2025-04-27 12:17:08
0 跟貼 0
徒手爬山的危險！女子抓樹枝攀爬時樹枝斷裂，人墜山下畫面流出

爆料視頻 2025-04-27 09:25:13
3241 跟貼 3241
無需訓練加速20倍，清華朱軍組提出圖像翻譯的擴散橋模型推理算法

機器之心Pro 2025-04-27 20:08:49
6 跟貼 6
格力，該換人了

木蹊說 2025-04-27 04:43:23
4398 跟貼 4398
1個表情背后能藏一篇文章，emoji讓推理模型大翻車

量子位 2025-02-23 12:06:20
0 跟貼 0
真正的智能體軟件工程師：OpenAI研發A-SWE能寫代碼、測試質量、修復Bug

量子位 2025-04-14 19:04:43
0 跟貼 0

直面派

講述值得講述的真實故事

143文章數 217關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

游戲

本地

旅游

親子

軍事航空

手機 / 數碼

房產 / 家居

OpenAI發布最強推理模型o3和o4-mini：圖像深度思考首秀，還能自主調用工具

充1秒跑2.5公里，寧德時代比亞迪華為激戰

用馬斯克理念改造生產線 95后女生創業1年銷售額上億

用馬斯克理念改造生產線 95后女生創業1年銷售額上億

我們來自北極圈，我們有全球最恐怖的主場！

華表獎獲獎名單！張譯二影帝惠英紅勇影后

2千億！核電開閘 國常會核準10臺新機組

蔚來李斌的"十年磨一劍" 從看得見 到看不見

態度原創

讓一追二，TES戰勝JDG！網友：TES殺瘋了！

云游湖北 | 漢川文旅新體驗：千年陶藝邂逅湖光

熱聞|清明假期將至，熱門目的地有哪些?

海洋球分類挑戰！

哈馬斯同意釋放所有以方被扣押人員

2千億！核電開閘國常會核準10臺新機組

蔚來李斌的"十年磨一劍" 從看得見到看不見