文 | 蘇揚 金鹿
轉載自 | 騰訊科技(ID:qqtech)
北京時間4月17日凌晨,OpenAI 發布了兩款突破性AI模型——o3和o4-mini,它們能通過圖像進行推理,并可自主調用多種工具,被專家稱為人工智能能力的一次飛躍式提升。
這兩款模型都是OpenAI “o 系列” 推理模型的最新成員,經過訓練后,它們可在響應前進行更長時間的思考。同時,它們也是OpenAI迄今發布的最智能、最強大的模型。
這些推理模型可以自主組合并使用ChatGPT內的所有工具——包括網頁搜索、利用Python分析上傳的文件和數據、對視覺輸入進行深入推理,甚至還能生成圖像。
最重要的是,這些模型不僅能判斷何時使用工具,還能決定如何使用工具,從而以正確的輸出格式,在一分鐘內給出經過深思熟慮的詳細回答,幫助解決更復雜的問題。
這意味著它們能更高效地應對多層次、多步驟的問題,讓ChatGPT具備“自主執行任務”的能力。將頂級推理能力與完整工具訪問權限結合在一起,讓這些新模型在學術評測和實際任務中的表現都有了顯著提升。
Sam Altman在X上引述內測用戶、免疫學專家Derya Unutmaz對o3模型的評價,稱其“近乎天才水準”。
性能提升
OpenAI聲稱, o3是其迄今推出的最強大推理模型,在編程、數學、科學、視覺理解等多個領域均取得了突破性進展。它在多項基準測試中都創下新紀錄,包括Codeforces、SWE-bench和MMMU。
OpenAI新模型o3和o4-mini等在數學競賽、編程、指令遵循和工具調用方面的表現
這款模型非常適合需要多維度分析、答案并不直觀的復雜查詢,在視覺任務(如圖像、圖表和圖形分析)中表現尤為突出。
根據外部專家的評估,在現實世界的高難度任務中,o3的重大錯誤率比OpenAI o1降低了20%,在編程、商業/咨詢和創意構思等領域表現也很出色。早期測試者稱其為具有極高分析能力的“思考伙伴”,尤其擅長在生物學、數學和工程領域提出并評估全新的假設。
與o3相比,OpenAI o4-mini是一款更小巧、但高效能的推理模型,專為快速、成本友好的應用場景而優化。在數學、編程和視覺任務上,它展現出了驚人的性價比。o4-mini是AIME 2024和AIME2025基準測試中表現最好的模型之一。
在專家評估中,o4-mini在非STEM任務(科學、技術、工程、數學)上的表現超越了o3-mini。憑借出色的計算效率,o4-mini支持比o3更高的使用頻率,使其成為需要推理能力的高頻、高吞吐量場景的理想選擇。
外部專家評估認為,得益于智能水平的提升和網絡信息的引入,這兩款模型在遵循指令和提供更有用、可驗證的回答方面均優于前代模型。與此前的推理模型相比,它們的對話體驗也更加自然,尤其是在引用記憶和過往對話時,能夠提供更個性化、更相關的回答。
持續擴展強化學習能力
在OpenAI o3的開發過程中,OpenAI發現大規模強化學習(RL)呈現出與GPT系列預訓練 相同的規律——“計算量越大,性能越強”。
同時,模型在被允許“思考”得越久,表現就越好。
在相同延遲和成本條件下,o3在ChatGPT中的表現優于o1。同時,如果允許模型進行更長時間的思考,它的表現還會進一步提升。
OpenAI通過強化學習訓練這兩款模型如何使用工具,還讓它們學會判斷何時使用工具,從而在開放式任務中表現更出色,尤其是在視覺推理和多步驟工作流程任務中。
首次實現圖像思維鏈整合
在上述示例中,OpenAI首次展示了其模型如何將圖像直接整合進推理思維鏈中。模型不僅能“看到”圖像,更能“用圖像進行思考”。這一突破實現了視覺與文本推理的深度融合,使其在多模態基準測試中達到最先進水平。
用戶可以上傳照片,比如:白板內容、教科書里的圖示,甚至是手繪草圖,模型都能理解它們。即使圖像存在模糊、倒置或低質量的情況,模型仍能準確解析。
結合工具調用能力,模型還能在推理過程中即時操控圖像,比如旋轉、縮放、格式轉換等,讓圖像處理成為其思考的一部分。
這些模型在視覺感知任務中表現出業界領先的準確率,能解決過去難以應對的問題。
自主完成工具調用
OpenAI 的o3和o4-mini模型在ChatGPT中擁有對所有工具的完整訪問權限,開發者還可以通過API中的函數調用功能接入自定義工具。
例如,當用戶提出“與去年相比,加州今年夏天的能源使用情況有何變化?”這個問題時,模型可以執行一連串工具調用:搜索公共能源數據、編寫Python代碼進行預測、生成圖表或圖像,并解釋預測背后的關鍵因素。
通過推理,它可以根據新獲取的信息靈活應變,例如多次搜索不同關鍵詞、分析結果、再嘗試新的搜索策略。
這種靈活、策略性較強的方式,使模型能夠完成那些超出其內部知識、需要實時信息、跨模態推理與綜合輸出的復雜任務。
性價比
OpenAI稱o3和o4-mini在很多情況下,它們都比各自的前代o1與o3-mini更高效,也更節省成本。在AME2025基準測試中,性價比都遠遠超過前代模型。
價格方面,OpenAI o3的輸入為每100萬個tokens收費10美元,緩存輸入為每100萬個tokens收費2.5美元,輸出為每100萬個tokens收費40美元。
OpenAI o4-mini的輸入為每100萬個tokens收費1.1美元,緩存輸入為每100萬個tokens收費0.275美元,輸出為每100萬個tokens收費4.4美元。
安全性
對于o3和o4-mini,OpenAI全面重構了安全訓練數據集,新增了針對生物威脅(生物風險)、惡意軟件生成、越獄提示等領域的拒絕示例,讓兩個模型在其內部安全拒絕基準測試中表現優異,例如在指令層級理解和越獄防護上都展現出強大的防護能力。
除了模型自身的表現外,OpenAI還開發了系統層面的風險緩解機制,用于識別和標記涉及前沿風險領域的危險提示。
例如,該公司訓練了一個基于推理的語言模型監控器,能夠依據人類編寫的可解釋安全規范進行判斷。在生物風險的紅隊測試中,該監控器成功識別并標記了約99%的高風險對話。
OpenAI對這兩個模型進行了迄今為止最嚴格的安全測試,按照最新的 《準備度框架》(Preparedness Framework)標準,對其在以下三個能力領域進行了評估:
——生物與化學風險
——網絡安全
——AI 自我改進能力
根據評估結果,o3與o4-mini在上述所有領域均處于“低風險”級別(低于框架中設定的“高”風險閾值)。
全新實驗項目Codex CLI
OpenAI還發布了一個全新的實驗項目:Codex CLI —— 一款輕量級的編程智能體,專為最大化o3和o4-mini等模型的推理能力而設計,并即將支持GPT-4.1等更多API模型。
用戶可以直接從命令行體驗多模態推理,比如向模型傳遞截圖或低保真草圖,結合本地代碼環境,讓模型參與解決實際編程任務。
OpenAI將Codex CLI視為一種最簡約的界面,用于將強大的AI模型與用戶的計算機無縫連接。
OpenAI首席執行官山姆·奧特曼發帖稱:“o3和o4-mini非常擅長編碼,所以我們發布了一個新產品Codex CLI,讓它們更容易使用。這是一個在用戶計算機上運行的編程智能體。它是完全開源的,現在就可以使用;我們希望它能迅速改進。”
同時,OpenAI也啟動了一個總額100萬美元的資助計劃,專門支持使用Codex CLI和OpenAI模型的項目。每個項目將以2.5萬美元等值的API使用額度發放。
如何使用o3與o4-mini
從4月17日開始,ChatGPT Plus、Pro和Team用戶將在模型選擇器中看到o3、o4-mini和o4-mini-high,它們將取代之前的o1、o3-mini和o3-mini-high。ChatGPT Enterprise和Edu用戶將在一周后獲得訪問權限。
免費用戶可以在撰寫查詢前點擊 “Think” 按鈕,嘗試 o4-mini的推理能力。
此外,OpenAI計劃在未來幾周推出支持全部工具功能的OpenAI o3-pro。
與此同時,o3和o4-mini也將通過Chat Completions API和Responses API向開發者開放,部分開發者可能需驗證組織身份。
Responses API提供支持推理摘要、保留函數調用上下文以提升性能的能力,未來還將支持內置工具(如網頁搜索、文件檢索和代碼解釋器)。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.