(關注公眾號設為標,獲取AI深度洞察)
全文 3,000字 | 閱讀約8分鐘
受 DeepSeek 全球影響力的推動,OpenAI 于美國時間周五正式提前發布了全新模型 o3-mini。這款最初在去年 12 月"12 天"AI 活動中亮相的模型,經過數月準備,現已在 ChatGPT 和 API 中全面部署。OpenAI 全球事務副總裁 Chris LeHane 在美國國家公共電臺(NPR)近期的一次采訪中確認了這個消息。而在此之前,CEO Sam Altman 也曾多次在社交媒體上暗示要優先推出 o3-mini。
作為一款專為科學、數學和編程等技術領域打造的模型,o3-mini 不僅展現出強大的推理能力,還以其快速響應特點而引人注目。與完整版 o3 相比,o3-mini 提供了更經濟、更快速的解決方案,被業內視為高性價比推理技術的重要突破。這次提前發布,也被解讀為 OpenAI 對 DeepSeek 日益增長的市場影響力做出的積極回應。
o3-mini 為不同用戶群體提供的訪問和功能選項:
免費用戶:通過"Reason"按鈕或重新生成響應體驗核心推理功能
Plus 和 Team 用戶:速率限制提升至原先三倍,加快問題解答速度
Pro 用戶:可無限訪問 o3-mini 和更高智力版本 o3-mini-high
搜索功能特點:
實時提供最新答案并附帶網頁鏈接
目前為原型階段,將擴展至更多推理模型
安全性能:
經過全面的安全評估和外部紅隊測試
相比 GPT-4o,在處理復雜安全和"越獄"場景時表現更為穩健

o3體驗鏈接:https://chatgpt.com/?model=o3-mini
OpenAI o3-mini
全新的 o3-mini 模型,這是一款既便宜又高效的人工智能產品,現已在 ChatGPT 和 API 平臺上全面推出。這個模型從 2024 年 12 月發布以來,表現出了很強的運算能力和快速響應速度,打破了小型模型的能力界限,特別是在科學、數學和編程等專業領域表現得非常出色,同時保持了和老款 o1-mini 一樣的低成本和快速響應優勢。
o3-mini 是第一個支持開發者特殊功能的小型智能模型,包括函數調用、結構化輸出和開發者消息等功能,可以直接用于實際工作環境。這個模型支持流式傳輸,開發者可以根據需要在低、中、高三種智能程度之間隨意切換,以達到最好的工作效果。不過要注意的是,o3-mini 不能處理圖像任務,如果需要處理圖像,還是要使用 OpenAI o1。目前,o3-mini 已經在多個 API 接口上線,優先向高級開發者開放使用。
在使用權限方面,ChatGPT Plus、Team 和 Pro 用戶現在就能使用 o3-mini,企業版用戶將在一周內開放使用。o3-mini 將完全替代老款的 o1-mini,提供更快的運行速度和更低的延遲,非常適合編程、專業領域和邏輯分析工作。Plus 和 Team 用戶每天可以使用的次數也從原來的 50 次增加到了 150 次。此外,o3-mini 還加入了搜索功能,可以提供帶網頁鏈接的最新答案,雖然這個功能還在測試中。
免費用戶也可以通過選擇"Reason"按鈕或重新生成回答來體驗 o3-mini,這是 ChatGPT 首次讓免費用戶使用高級智能模型。在功能定位上,OpenAI o1 仍然是處理一般知識問題的主力模型,而 o3-mini 則專門負責需要高精度和快速處理的專業領域。在 ChatGPT 平臺上,o3-mini 使用中等智能程度,以平衡速度和準確性。所有付費用戶還可以選擇更智能的 o3-mini-high 版本,雖然反應較慢,但能提供更深入的分析能力。特別是 Pro 用戶可以無限制地使用 o3-mini 和 o3-mini-high。
為 STEM 推理量身優化
OpenAI 的新模型 o3-mini 繼承并加強了前代產品 o1 在數學、科學和編程等專業領域的優勢。當使用中等智能模式時,o3-mini 在這些領域的表現可以和 o1 相媲美,而且響應速度更快。
專業人士的評測發現,相比老款的 o1-mini,o3-mini 給出的答案更加準確,思路更加清晰,解決問題的能力也更強。比如在測試中,有超過一半的用戶更喜歡 o3-mini 的回答。當處理復雜的實際問題時,o3-mini 的錯誤率也大大降低,比 o1-mini 減少了39%的嚴重錯誤。更令人印象深刻的是,在一些高難度的推理測試和智能測試中,即使只用中等智能模式,o3-mini 也能達到 o1 的水平。
一、數學競賽
數學能力: OpenAI 新模型 o3-mini 的數學能力表現十分優秀。在設置為基礎模式時,它的數學水平和老款 o1-mini 差不多。當設置為普通模式時,它的能力就能達到高級模型 o1 的水平。而當設置為高級模式時,o3-mini 的數學推理能力更是超過了 o1-mini 和 o1 這兩款老模型。為了驗證這個結果的可靠性,研究人員用64道數學題進行了測試,讓不同模型都來解答,最后通過對比它們的答案得出結論。這些測試進一步證實了 o3-mini 確實表現出色,尤其是在高級模式下的數學解題能力特別強。
二、博士難度科學推理測試
博士級科學推理: o3-mini 在處理高難度的科學問題時表現出色。即使在最基礎的設置下,它解決生物、化學和物理等高深問題的能力就已經比老款 o1-mini 要強。當把它調到最高級的設置時,它甚至能和專業的 o1 模型一樣出色地回答這些專業科學問題。
三、高階數學測試
研究級數學推理: 在高難度數學測試中表現優秀。當使用最高級設置時,它的成績超過了之前的老模型。特別是當讓它配合使用 Python 編程來解題時,o3-mini 一次就能正確解出超過三分之一的題目。即使面對最難的那部分題目,它也能解出接近三成,這個成績相當不錯。這說明它不僅會做普通數學題,在研究級別的高深數學問題上也有很強的解答能力。
四、算法競賽編程
算法競賽編程: 在編程比賽中也表現很好。就像玩游戲有段位一樣,在編程比賽中也有分數評級系統(叫做Elo評分)。測試發現,當把 o3-mini 的智能程度逐步調高時,它的比賽成績也會相應提高。在各個難度等級的比賽中,o3-mini 都比老款的 o1-mini 表現得更好。特別是當設置在普通模式時,它就已經能達到高級模型 o1 的水平。這說明 o3-mini 在解決編程競賽題目方面非常有實力。
五、軟件工程測試(SWE-bench Verified)
軟件工程能力: 在軟件開發能力測試中表現出色,是目前所有已發布模型中最強的。具體來說,當使用最高級設置時,在一個叫做 Agentless scaffold 的開源工具幫助下,它能成功完成39%的開發任務。如果使用 OpenAI 自己的工具,成功率還能提高到61%。這些數據來自一個叫做 SWE-bench Verified 的專業測試平臺。如果想了解更多詳細的測試數據,可以查看 o3-mini 的技術說明文檔。這就像是一場編程考試,o3-mini 不僅考得好,而且在所有參加考試的人工智能模型中拿到了最高分,展現出很強的實際編程能力。
六、實時編程評測(LiveBench Coding)
實時編程評測: 在實時編程測試中展現出了驚人的表現。就像跑步比賽一樣,o3-mini 不僅跑得快,而且質量還很好。即使只用普通模式,它的編程能力就已經超過了老款高級版本 o1-high。當把 o3-mini 調到最高級模式時,它的表現更是出色。在測試中的重要評分項目上,都顯示出了很強的實力。這說明無論是編程速度還是代碼質量,o3-mini 都做得非常好。
七、綜合知識能力
綜合知識能力: OpenAI 新模型 o3-mini 在測試一般知識時的表現很出色,各個方面都比老款的 o1-mini 要強。簡單來說,不管是回答什么類型的問題,o3-mini 都比 o1-mini 更厲害。
八、用戶偏好評測
用戶偏好評測: OpenAI 新模型 o3-mini 獲得了很好的評價。專業測試人員發現,特別是在數學、科學和編程等專業領域,o3-mini 給出的答案比老款 o1-mini 更準確、更容易理解,解決問題的能力也更強。具體來說,在對比測試中,超過一半的測試人員(56%)都覺得 o3-mini 的回答更好。更重要的是,當處理復雜的實際問題時,o3-mini 犯大錯的概率比 o1-mini 少了將近四成(39%)。這說明 o3-mini 不僅回答得更好,而且更可靠。
OpenAI 選擇在這個時刻加快發布 o3-mini,展現了其在性能優化方面的顯著突破。測試數據顯示,比起老款 o1-mini,o3-mini 回答問題的速度提升了24%,平均只需要7.7秒就能給出答案,而 o1-mini 則需要10.16秒。這種性能的提升不僅體現在速度上,在專業領域的實際應用中也表現出色。
展望未來,o3-mini 作為一款經濟、高效的專業模型,代表了 OpenAI 在高性價比人工智能領域的重要突破。從最初在"12天"AI 活動中的亮相,到現在的全面部署,OpenAI 一直致力于讓更多人能使用高質量的 AI 服務。從 GPT-4 發布至今,每個計算單位的成本已降低95%,同時保持著領先的智能水平。隨著 Sam Altman 持續推動的發展策略,OpenAI 將繼續在智能、效率和安全性方面引領行業發展。
星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標
參考資料:https://openai.com/index/openai-o3-mini/
來源:官方媒體/網絡新聞
排版:Atlas
編輯:深思
主編: 圖靈
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.