99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

提前上線!OpenAI 發布全新經濟型模型 o3-mini,深度對標 DeepSeek

0
分享至

(關注公眾號設為標,獲取AI深度洞察)

全文 3,000字 | 閱讀約8分鐘



受 DeepSeek 全球影響力的推動,OpenAI 于美國時間周五正式提前發布了全新模型 o3-mini。這款最初在去年 12 月"12 天"AI 活動中亮相的模型,經過數月準備,現已在 ChatGPT 和 API 中全面部署。OpenAI 全球事務副總裁 Chris LeHane 在美國國家公共電臺(NPR)近期的一次采訪中確認了這個消息。而在此之前,CEO Sam Altman 也曾多次在社交媒體上暗示要優先推出 o3-mini。


作為一款專為科學、數學和編程等技術領域打造的模型,o3-mini 不僅展現出強大的推理能力,還以其快速響應特點而引人注目。與完整版 o3 相比,o3-mini 提供了更經濟、更快速的解決方案,被業內視為高性價比推理技術的重要突破。這次提前發布,也被解讀為 OpenAI 對 DeepSeek 日益增長的市場影響力做出的積極回應。

  • o3-mini 為不同用戶群體提供的訪問和功能選項:

    • 免費用戶:通過"Reason"按鈕或重新生成響應體驗核心推理功能

    • Plus 和 Team 用戶:速率限制提升至原先三倍,加快問題解答速度

    • Pro 用戶:可無限訪問 o3-mini 和更高智力版本 o3-mini-high

  • 搜索功能特點:

    • 實時提供最新答案并附帶網頁鏈接

    • 目前為原型階段,將擴展至更多推理模型

  • 安全性能:

    • 經過全面的安全評估和外部紅隊測試

    • 相比 GPT-4o,在處理復雜安全和"越獄"場景時表現更為穩健

o3體驗鏈接:https://chatgpt.com/?model=o3-mini

OpenAI o3-mini

全新的 o3-mini 模型,這是一款既便宜又高效的人工智能產品,現已在 ChatGPT 和 API 平臺上全面推出。這個模型從 2024 年 12 月發布以來,表現出了很強的運算能力和快速響應速度,打破了小型模型的能力界限,特別是在科學、數學和編程等專業領域表現得非常出色,同時保持了和老款 o1-mini 一樣的低成本和快速響應優勢。

o3-mini 是第一個支持開發者特殊功能的小型智能模型,包括函數調用、結構化輸出和開發者消息等功能,可以直接用于實際工作環境。這個模型支持流式傳輸,開發者可以根據需要在低、中、高三種智能程度之間隨意切換,以達到最好的工作效果。不過要注意的是,o3-mini 不能處理圖像任務,如果需要處理圖像,還是要使用 OpenAI o1。目前,o3-mini 已經在多個 API 接口上線,優先向高級開發者開放使用。

在使用權限方面,ChatGPT Plus、Team 和 Pro 用戶現在就能使用 o3-mini,企業版用戶將在一周內開放使用。o3-mini 將完全替代老款的 o1-mini,提供更快的運行速度和更低的延遲,非常適合編程、專業領域和邏輯分析工作。Plus 和 Team 用戶每天可以使用的次數也從原來的 50 次增加到了 150 次。此外,o3-mini 還加入了搜索功能,可以提供帶網頁鏈接的最新答案,雖然這個功能還在測試中。

免費用戶也可以通過選擇"Reason"按鈕或重新生成回答來體驗 o3-mini,這是 ChatGPT 首次讓免費用戶使用高級智能模型。在功能定位上,OpenAI o1 仍然是處理一般知識問題的主力模型,而 o3-mini 則專門負責需要高精度和快速處理的專業領域。在 ChatGPT 平臺上,o3-mini 使用中等智能程度,以平衡速度和準確性。所有付費用戶還可以選擇更智能的 o3-mini-high 版本,雖然反應較慢,但能提供更深入的分析能力。特別是 Pro 用戶可以無限制地使用 o3-mini 和 o3-mini-high。

為 STEM 推理量身優化

OpenAI 的新模型 o3-mini 繼承并加強了前代產品 o1 在數學、科學和編程等專業領域的優勢。當使用中等智能模式時,o3-mini 在這些領域的表現可以和 o1 相媲美,而且響應速度更快。

專業人士的評測發現,相比老款的 o1-mini,o3-mini 給出的答案更加準確,思路更加清晰,解決問題的能力也更強。比如在測試中,有超過一半的用戶更喜歡 o3-mini 的回答。當處理復雜的實際問題時,o3-mini 的錯誤率也大大降低,比 o1-mini 減少了39%的嚴重錯誤。更令人印象深刻的是,在一些高難度的推理測試和智能測試中,即使只用中等智能模式,o3-mini 也能達到 o1 的水平。

一、數學競賽

數學能力: OpenAI 新模型 o3-mini 的數學能力表現十分優秀。在設置為基礎模式時,它的數學水平和老款 o1-mini 差不多。當設置為普通模式時,它的能力就能達到高級模型 o1 的水平。而當設置為高級模式時,o3-mini 的數學推理能力更是超過了 o1-mini 和 o1 這兩款老模型。為了驗證這個結果的可靠性,研究人員用64道數學題進行了測試,讓不同模型都來解答,最后通過對比它們的答案得出結論。這些測試進一步證實了 o3-mini 確實表現出色,尤其是在高級模式下的數學解題能力特別強。

二、博士難度科學推理測試

博士級科學推理: o3-mini 在處理高難度的科學問題時表現出色。即使在最基礎的設置下,它解決生物、化學和物理等高深問題的能力就已經比老款 o1-mini 要強。當把它調到最高級的設置時,它甚至能和專業的 o1 模型一樣出色地回答這些專業科學問題。

三、高階數學測試


研究級數學推理: 在高難度數學測試中表現優秀。當使用最高級設置時,它的成績超過了之前的老模型。特別是當讓它配合使用 Python 編程來解題時,o3-mini 一次就能正確解出超過三分之一的題目。即使面對最難的那部分題目,它也能解出接近三成,這個成績相當不錯。這說明它不僅會做普通數學題,在研究級別的高深數學問題上也有很強的解答能力。

四、算法競賽編程


算法競賽編程: 在編程比賽中也表現很好。就像玩游戲有段位一樣,在編程比賽中也有分數評級系統(叫做Elo評分)。測試發現,當把 o3-mini 的智能程度逐步調高時,它的比賽成績也會相應提高。在各個難度等級的比賽中,o3-mini 都比老款的 o1-mini 表現得更好。特別是當設置在普通模式時,它就已經能達到高級模型 o1 的水平。這說明 o3-mini 在解決編程競賽題目方面非常有實力。

五、軟件工程測試(SWE-bench Verified)


軟件工程能力: 在軟件開發能力測試中表現出色,是目前所有已發布模型中最強的。具體來說,當使用最高級設置時,在一個叫做 Agentless scaffold 的開源工具幫助下,它能成功完成39%的開發任務。如果使用 OpenAI 自己的工具,成功率還能提高到61%。這些數據來自一個叫做 SWE-bench Verified 的專業測試平臺。如果想了解更多詳細的測試數據,可以查看 o3-mini 的技術說明文檔。這就像是一場編程考試,o3-mini 不僅考得好,而且在所有參加考試的人工智能模型中拿到了最高分,展現出很強的實際編程能力。

六、實時編程評測(LiveBench Coding)

實時編程評測: 在實時編程測試中展現出了驚人的表現。就像跑步比賽一樣,o3-mini 不僅跑得快,而且質量還很好。即使只用普通模式,它的編程能力就已經超過了老款高級版本 o1-high。當把 o3-mini 調到最高級模式時,它的表現更是出色。在測試中的重要評分項目上,都顯示出了很強的實力。這說明無論是編程速度還是代碼質量,o3-mini 都做得非常好。

七、綜合知識能力

綜合知識能力: OpenAI 新模型 o3-mini 在測試一般知識時的表現很出色,各個方面都比老款的 o1-mini 要強。簡單來說,不管是回答什么類型的問題,o3-mini 都比 o1-mini 更厲害。

八、用戶偏好評測


用戶偏好評測: OpenAI 新模型 o3-mini 獲得了很好的評價。專業測試人員發現,特別是在數學、科學和編程等專業領域,o3-mini 給出的答案比老款 o1-mini 更準確、更容易理解,解決問題的能力也更強。具體來說,在對比測試中,超過一半的測試人員(56%)都覺得 o3-mini 的回答更好。更重要的是,當處理復雜的實際問題時,o3-mini 犯大錯的概率比 o1-mini 少了將近四成(39%)。這說明 o3-mini 不僅回答得更好,而且更可靠。

OpenAI 選擇在這個時刻加快發布 o3-mini,展現了其在性能優化方面的顯著突破。測試數據顯示,比起老款 o1-mini,o3-mini 回答問題的速度提升了24%,平均只需要7.7秒就能給出答案,而 o1-mini 則需要10.16秒。這種性能的提升不僅體現在速度上,在專業領域的實際應用中也表現出色。

展望未來,o3-mini 作為一款經濟、高效的專業模型,代表了 OpenAI 在高性價比人工智能領域的重要突破。從最初在"12天"AI 活動中的亮相,到現在的全面部署,OpenAI 一直致力于讓更多人能使用高質量的 AI 服務。從 GPT-4 發布至今,每個計算單位的成本已降低95%,同時保持著領先的智能水平。隨著 Sam Altman 持續推動的發展策略,OpenAI 將繼續在智能、效率和安全性方面引領行業發展。


星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標

參考資料:https://openai.com/index/openai-o3-mini/

來源:官方媒體/網絡新聞

排版:Atlas

編輯:深思

主編: 圖靈

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
美媒曝美政府考慮在特朗普生日之際舉行閱兵式,白宮回應

美媒曝美政府考慮在特朗普生日之際舉行閱兵式,白宮回應

環球網資訊
2025-04-08 10:20:15
16歲信息學奧賽選手墜樓去世!父親祭文稱其“如暴君一般”引熱議

16歲信息學奧賽選手墜樓去世!父親祭文稱其“如暴君一般”引熱議

火山詩話
2025-04-08 06:04:42
恭喜!48歲馬布里官宣與中國歌手汪妤凌結婚 自稱中國女婿

恭喜!48歲馬布里官宣與中國歌手汪妤凌結婚 自稱中國女婿

醉臥浮生
2025-04-07 19:48:42
年僅41歲!哈爾濱市司法局局長丁銳突發心梗離世

年僅41歲!哈爾濱市司法局局長丁銳突發心梗離世

孟大夫之家1
2025-04-08 07:39:10
日媒:不論美國給日本加多少關稅,日本人都不會愿意購買美國汽車

日媒:不論美國給日本加多少關稅,日本人都不會愿意購買美國汽車

振華觀史
2025-04-08 09:23:08
一貨車進入甘肅蘭州西沙黃河大橋時撞到限高桿,駕駛員不幸身亡

一貨車進入甘肅蘭州西沙黃河大橋時撞到限高桿,駕駛員不幸身亡

大風新聞
2025-04-08 09:23:03
網友:沒想到!第一個抵制智駕的不是車企和司機,而是高速公路…

網友:沒想到!第一個抵制智駕的不是車企和司機,而是高速公路…

火山詩話
2025-04-08 06:24:46
楊振寧長壽秘訣公開!無關運動飲水,這5大關鍵,顛覆認知

楊振寧長壽秘訣公開!無關運動飲水,這5大關鍵,顛覆認知

森羅萬象視頻
2025-04-07 19:08:38
官方首次披露:周海琦被查,源于一條生活奢靡的問題線索

官方首次披露:周海琦被查,源于一條生活奢靡的問題線索

新京報政事兒
2025-04-08 10:47:21
“推遲90天傳言”的市場影響:美股瞬間暴漲2.5萬億美元,但只持續了七分鐘

“推遲90天傳言”的市場影響:美股瞬間暴漲2.5萬億美元,但只持續了七分鐘

華爾街見聞官方
2025-04-08 06:27:03
1971年,馮白駒上書毛主席要求平反,主席問丁盛:他現在在哪里?

1971年,馮白駒上書毛主席要求平反,主席問丁盛:他現在在哪里?

帝哥說史
2025-04-08 06:30:02
大洗牌開始了

大洗牌開始了

后視鏡里de未來
2025-04-07 11:08:58
王濤:我曾希望梅西道歉!但梅西不會為沒做過的事道歉!

王濤:我曾希望梅西道歉!但梅西不會為沒做過的事道歉!

歷史第一人梅西
2025-04-07 16:40:36
網傳某新能源汽車銷售人員邀約客戶清明節提車!引發客戶雷霆發怒

網傳某新能源汽車銷售人員邀約客戶清明節提車!引發客戶雷霆發怒

火山詩話
2025-04-07 08:40:01
1.5億美元成本,《我的世界》票房大爆,王健林賣掉傳奇后悔了吧

1.5億美元成本,《我的世界》票房大爆,王健林賣掉傳奇后悔了吧

電影票房預告片
2025-04-07 15:28:39
49歲張頌文在廣東,和朋友逛夜市,穿大紅色鞋子,看起來心情大好

49歲張頌文在廣東,和朋友逛夜市,穿大紅色鞋子,看起來心情大好

娛圈小愚
2025-04-08 09:39:22
杜特爾特現逆轉!馬科斯連夜逃亡內幕曝光,國際法庭驚現致命證據

杜特爾特現逆轉!馬科斯連夜逃亡內幕曝光,國際法庭驚現致命證據

愛意隨風起呀
2025-04-08 10:47:18
小米3死事故后續:省公安廳表態,龍門架攝像頭或拍下關鍵細節

小米3死事故后續:省公安廳表態,龍門架攝像頭或拍下關鍵細節

書中自有顏如玉
2025-04-08 05:45:10
主力將大面積輪休!湖人果斷放棄爭奪西部第二,無非這三點原因!

主力將大面積輪休!湖人果斷放棄爭奪西部第二,無非這三點原因!

田先生籃球
2025-04-08 10:13:02
“甲亢哥”長沙直播,誤食路人給的檳榔,在車上捂喉嚨難受大叫!

“甲亢哥”長沙直播,誤食路人給的檳榔,在車上捂喉嚨難受大叫!

小蘿卜絲
2025-04-07 17:31:53
2025-04-08 13:52:49
AI深度研究員 incentive-icons
AI深度研究員
一個專注于人工智能(AI)前沿技術、理論研究和實際應用的自媒體
132文章數 75關注度
往期回顧 全部

科技要聞

iPhone在美會賣2萬元上嗎?在中國會漲價嗎

頭條要聞

牛彈琴:對美關稅反制我們得到最新消息 中方準備6大招

頭條要聞

牛彈琴:對美關稅反制我們得到最新消息 中方準備6大招

體育要聞

極限一穿四,他把韓國主場打到靜音

娛樂要聞

尷尬!甲亢哥想聯動大張偉,卻被迫錄節目

財經要聞

"中國版平準基金"橫空出世 央行表態

汽車要聞

一季度車企銷量:下沉與上行,覺醒與迷惘

態度原創

游戲
親子
本地
時尚
公開課

百分百勝率?爐石驢哥神人卡組6費送走對面,網友:強度確實高!

親子要聞

女子暈倒,1歲多的寶寶竟救了媽媽一命,網友:這是母子連心

本地新聞

我在新昌當女主|大佛寺氛圍感拉滿 古偶頂流機位GET

別再披頭散發了!今春流行“奶奶發飾”,好看巨顯臉小

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 丹东市| 庆元县| 湖北省| 林口县| 青铜峡市| 全州县| 宁河县| 邳州市| 元谋县| 普陀区| 梁河县| 增城市| 包头市| 罗源县| 文昌市| 香格里拉县| 郸城县| 合山市| 锦屏县| 手机| 策勒县| 多伦县| 鲜城| 固镇县| 阳城县| 大新县| 神农架林区| 剑河县| 垫江县| 黄冈市| 镶黄旗| 汶川县| 元江| 宕昌县| 辽阳县| 五原县| 九台市| 甘德县| 阿克苏市| 读书| 石阡县|