99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI發布最強推理模型o3和o4-mini:圖像深度思考首秀,還能自主調用工具

0
分享至

文 | 蘇揚 金鹿

轉載自 | 騰訊科技(ID:qqtech)

北京時間4月17日凌晨,OpenAI 發布了兩款突破性AI模型——o3和o4-mini,它們能通過圖像進行推理,并可自主調用多種工具,被專家稱為人工智能能力的一次飛躍式提升。


這兩款模型都是OpenAI “o 系列” 推理模型的最新成員,經過訓練后,它們可在響應前進行更長時間的思考。同時,它們也是OpenAI迄今發布的最智能、最強大的模型。

這些推理模型可以自主組合并使用ChatGPT內的所有工具——包括網頁搜索、利用Python分析上傳的文件和數據、對視覺輸入進行深入推理,甚至還能生成圖像。

最重要的是,這些模型不僅能判斷何時使用工具,還能決定如何使用工具,從而以正確的輸出格式,在一分鐘內給出經過深思熟慮的詳細回答,幫助解決更復雜的問題。

這意味著它們能更高效地應對多層次、多步驟的問題,讓ChatGPT具備“自主執行任務”的能力。將頂級推理能力與完整工具訪問權限結合在一起,讓這些新模型在學術評測和實際任務中的表現都有了顯著提升。

Sam Altman在X上引述內測用戶、免疫學專家Derya Unutmaz對o3模型的評價,稱其“近乎天才水準”。



性能提升

OpenAI聲稱, o3是其迄今推出的最強大推理模型,在編程、數學、科學、視覺理解等多個領域均取得了突破性進展。它在多項基準測試中都創下新紀錄,包括Codeforces、SWE-bench和MMMU。


OpenAI新模型o3和o4-mini等在數學競賽、編程、指令遵循和工具調用方面的表現

這款模型非常適合需要多維度分析、答案并不直觀的復雜查詢,在視覺任務(如圖像、圖表和圖形分析)中表現尤為突出。

根據外部專家的評估,在現實世界的高難度任務中,o3的重大錯誤率比OpenAI o1降低了20%,在編程、商業/咨詢和創意構思等領域表現也很出色。早期測試者稱其為具有極高分析能力的“思考伙伴”,尤其擅長在生物學、數學和工程領域提出并評估全新的假設。

與o3相比,OpenAI o4-mini是一款更小巧、但高效能的推理模型,專為快速、成本友好的應用場景而優化。在數學、編程和視覺任務上,它展現出了驚人的性價比。o4-mini是AIME 2024和AIME2025基準測試中表現最好的模型之一。

在專家評估中,o4-mini在非STEM任務(科學、技術、工程、數學)上的表現超越了o3-mini。憑借出色的計算效率,o4-mini支持比o3更高的使用頻率,使其成為需要推理能力的高頻、高吞吐量場景的理想選擇。

外部專家評估認為,得益于智能水平的提升和網絡信息的引入,這兩款模型在遵循指令和提供更有用、可驗證的回答方面均優于前代模型。與此前的推理模型相比,它們的對話體驗也更加自然,尤其是在引用記憶和過往對話時,能夠提供更個性化、更相關的回答。

持續擴展強化學習能力

在OpenAI o3的開發過程中,OpenAI發現大規模強化學習(RL)呈現出與GPT系列預訓練 相同的規律——“計算量越大,性能越強”。

同時,模型在被允許“思考”得越久,表現就越好。

在相同延遲和成本條件下,o3在ChatGPT中的表現優于o1。同時,如果允許模型進行更長時間的思考,它的表現還會進一步提升。

OpenAI通過強化學習訓練這兩款模型如何使用工具,還讓它們學會判斷何時使用工具,從而在開放式任務中表現更出色,尤其是在視覺推理和多步驟工作流程任務中。

首次實現圖像思維鏈整合


在上述示例中,OpenAI首次展示了其模型如何將圖像直接整合進推理思維鏈中。模型不僅能“看到”圖像,更能“用圖像進行思考”。這一突破實現了視覺與文本推理的深度融合,使其在多模態基準測試中達到最先進水平。

用戶可以上傳照片,比如:白板內容、教科書里的圖示,甚至是手繪草圖,模型都能理解它們。即使圖像存在模糊、倒置或低質量的情況,模型仍能準確解析。

結合工具調用能力,模型還能在推理過程中即時操控圖像,比如旋轉、縮放、格式轉換等,讓圖像處理成為其思考的一部分。

這些模型在視覺感知任務中表現出業界領先的準確率,能解決過去難以應對的問題。

自主完成工具調用

OpenAI 的o3和o4-mini模型在ChatGPT中擁有對所有工具的完整訪問權限,開發者還可以通過API中的函數調用功能接入自定義工具。

例如,當用戶提出“與去年相比,加州今年夏天的能源使用情況有何變化?”這個問題時,模型可以執行一連串工具調用:搜索公共能源數據、編寫Python代碼進行預測、生成圖表或圖像,并解釋預測背后的關鍵因素。

通過推理,它可以根據新獲取的信息靈活應變,例如多次搜索不同關鍵詞、分析結果、再嘗試新的搜索策略。

這種靈活、策略性較強的方式,使模型能夠完成那些超出其內部知識、需要實時信息、跨模態推理與綜合輸出的復雜任務。

性價比

OpenAI稱o3和o4-mini在很多情況下,它們都比各自的前代o1與o3-mini更高效,也更節省成本。在AME2025基準測試中,性價比都遠遠超過前代模型。


價格方面,OpenAI o3的輸入為每100萬個tokens收費10美元,緩存輸入為每100萬個tokens收費2.5美元,輸出為每100萬個tokens收費40美元。


OpenAI o4-mini的輸入為每100萬個tokens收費1.1美元,緩存輸入為每100萬個tokens收費0.275美元,輸出為每100萬個tokens收費4.4美元。

安全性

對于o3和o4-mini,OpenAI全面重構了安全訓練數據集,新增了針對生物威脅(生物風險)、惡意軟件生成、越獄提示等領域的拒絕示例,讓兩個模型在其內部安全拒絕基準測試中表現優異,例如在指令層級理解和越獄防護上都展現出強大的防護能力。

除了模型自身的表現外,OpenAI還開發了系統層面的風險緩解機制,用于識別和標記涉及前沿風險領域的危險提示。

例如,該公司訓練了一個基于推理的語言模型監控器,能夠依據人類編寫的可解釋安全規范進行判斷。在生物風險的紅隊測試中,該監控器成功識別并標記了約99%的高風險對話。

OpenAI對這兩個模型進行了迄今為止最嚴格的安全測試,按照最新的 《準備度框架》(Preparedness Framework)標準,對其在以下三個能力領域進行了評估:

——生物與化學風險

——網絡安全

——AI 自我改進能力

根據評估結果,o3與o4-mini在上述所有領域均處于“低風險”級別(低于框架中設定的“高”風險閾值)。

全新實驗項目Codex CLI

OpenAI還發布了一個全新的實驗項目:Codex CLI —— 一款輕量級的編程智能體,專為最大化o3和o4-mini等模型的推理能力而設計,并即將支持GPT-4.1等更多API模型。

用戶可以直接從命令行體驗多模態推理,比如向模型傳遞截圖或低保真草圖,結合本地代碼環境,讓模型參與解決實際編程任務。

OpenAI將Codex CLI視為一種最簡約的界面,用于將強大的AI模型與用戶的計算機無縫連接。

OpenAI首席執行官山姆·奧特曼發帖稱:“o3和o4-mini非常擅長編碼,所以我們發布了一個新產品Codex CLI,讓它們更容易使用。這是一個在用戶計算機上運行的編程智能體。它是完全開源的,現在就可以使用;我們希望它能迅速改進。”


同時,OpenAI也啟動了一個總額100萬美元的資助計劃,專門支持使用Codex CLI和OpenAI模型的項目。每個項目將以2.5萬美元等值的API使用額度發放。

如何使用o3與o4-mini

從4月17日開始,ChatGPT Plus、Pro和Team用戶將在模型選擇器中看到o3、o4-mini和o4-mini-high,它們將取代之前的o1、o3-mini和o3-mini-high。ChatGPT Enterprise和Edu用戶將在一周后獲得訪問權限。

免費用戶可以在撰寫查詢前點擊 “Think” 按鈕,嘗試 o4-mini的推理能力。

此外,OpenAI計劃在未來幾周推出支持全部工具功能的OpenAI o3-pro。

與此同時,o3和o4-mini也將通過Chat Completions API和Responses API向開發者開放,部分開發者可能需驗證組織身份。

Responses API提供支持推理摘要、保留函數調用上下文以提升性能的能力,未來還將支持內置工具(如網頁搜索、文件檢索和代碼解釋器)。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
史上首次!美菲艦艇逼近黃巖島,中國擺鐵桶陣,距美艦僅2.2公里

史上首次!美菲艦艇逼近黃巖島,中國擺鐵桶陣,距美艦僅2.2公里

凱撒談兵
2025-04-27 21:55:40
激增1148%!全球市場巨變,我國必須做好準備,美國又該想招了

激增1148%!全球市場巨變,我國必須做好準備,美國又該想招了

新財迷
2025-04-23 09:33:09
不氣盛能叫年輕人嗎?亞馬爾:丟2球也沒關系,皇馬根本就踢不贏我們

不氣盛能叫年輕人嗎?亞馬爾:丟2球也沒關系,皇馬根本就踢不贏我們

雷速體育
2025-04-27 09:38:11
中國女排消息:主攻強于上屆,攻守更加平衡,快速多變成為主旋律

中國女排消息:主攻強于上屆,攻守更加平衡,快速多變成為主旋律

小濤體育
2025-04-27 17:12:20
清朝對中國領土的貢獻不可磨滅!沒有清朝完成一統,后果不堪設想

清朝對中國領土的貢獻不可磨滅!沒有清朝完成一統,后果不堪設想

文史道
2024-11-25 06:45:02
瓜帥:很高興再次進決賽;里科在狹小空間內的移動能力很出色

瓜帥:很高興再次進決賽;里科在狹小空間內的移動能力很出色

懂球帝
2025-04-28 02:03:09
男子和女釣友在河邊鉆帳篷,妻子目睹全部過程,一招令其自食惡果

男子和女釣友在河邊鉆帳篷,妻子目睹全部過程,一招令其自食惡果

吾觀専欗
2025-04-27 17:59:46
王鈺棟談進球后悼念布彭扎:上一場進完球后慶祝了,確實心里過意不去

王鈺棟談進球后悼念布彭扎:上一場進完球后慶祝了,確實心里過意不去

雷速體育
2025-04-27 23:56:07
好消息,湖人隊在第四場比賽前獲得了東契奇的積極消息

好消息,湖人隊在第四場比賽前獲得了東契奇的積極消息

好火子
2025-04-28 01:46:38
回不來了!臺積電張忠謀正式表態,國內院士:放棄一切幻想

回不來了!臺積電張忠謀正式表態,國內院士:放棄一切幻想

Thurman在昆明
2025-04-27 00:49:43
爺爺把5套安置房全給叔叔,父親沒說話,等爺爺70大壽時眾人傻眼

爺爺把5套安置房全給叔叔,父親沒說話,等爺爺70大壽時眾人傻眼

青青會講故事
2025-04-21 14:09:37
李現女朋友直播,稱兩人在一起五六年了,生過孩子,雙方見過家長

李現女朋友直播,稱兩人在一起五六年了,生過孩子,雙方見過家長

明月聊史
2025-04-26 20:34:19
張譯二次獲封華表獎影帝,評比有失公允,王一博輸得太冤枉

張譯二次獲封華表獎影帝,評比有失公允,王一博輸得太冤枉

光影新天地
2025-04-27 18:41:37
如果現在開戰,14億中國人每人捐1000,夠打多久的仗

如果現在開戰,14億中國人每人捐1000,夠打多久的仗

阿燕姐說育兒
2025-04-13 14:51:22
84斤女子吐槽買百件衣服基本穿不上 網友共情:快遞員很熟

84斤女子吐槽買百件衣服基本穿不上 網友共情:快遞員很熟

大象新聞
2025-04-27 13:50:04
巴黎最美書店老板去世,女兒卻在抽屜發現上百封信件:他偷偷愛了你一輩子

巴黎最美書店老板去世,女兒卻在抽屜發現上百封信件:他偷偷愛了你一輩子

英國那些事兒
2025-04-24 23:37:42
糊糊在家支持北京男籃,并點出四功臣,曾凡博優先級又高于周琦!

糊糊在家支持北京男籃,并點出四功臣,曾凡博優先級又高于周琦!

籃球資訊達人
2025-04-28 00:49:42
內臟脂肪最怕這2件事,這5個動作比跑步更管用,讓肚子恢復平坦

內臟脂肪最怕這2件事,這5個動作比跑步更管用,讓肚子恢復平坦

增肌減脂
2025-04-26 18:09:52
2024年葉誠塵被注射死刑,警方恢復大量聊天內容,發現她有一怪癖

2024年葉誠塵被注射死刑,警方恢復大量聊天內容,發現她有一怪癖

小噎論事
2025-04-09 14:51:24
早點來都能爭冠了??羅馬前12輪僅13分,拉涅利接手22輪狂攬47分

早點來都能爭冠了??羅馬前12輪僅13分,拉涅利接手22輪狂攬47分

直播吧
2025-04-27 23:45:11
2025-04-28 04:28:49
直面派 incentive-icons
直面派
講述值得講述的真實故事
143文章數 217關注度
往期回顧 全部

科技要聞

充1秒跑2.5公里,寧德時代比亞迪華為激戰

頭條要聞

用馬斯克理念改造生產線 95后女生創業1年銷售額上億

頭條要聞

用馬斯克理念改造生產線 95后女生創業1年銷售額上億

體育要聞

我們來自北極圈,我們有全球最恐怖的主場!

娛樂要聞

華表獎獲獎名單!張譯二影帝惠英紅勇影后

財經要聞

2千億!核電開閘 國常會核準10臺新機組

汽車要聞

蔚來李斌的"十年磨一劍" 從看得見 到看不見

態度原創

游戲
本地
旅游
親子
軍事航空

讓一追二,TES戰勝JDG!網友:TES殺瘋了!

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

海洋球分類挑戰!

軍事要聞

哈馬斯同意釋放所有以方被扣押人員

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 肃宁县| 清丰县| 海伦市| 乌兰察布市| 星座| 宁城县| 偃师市| 浪卡子县| 津市市| 千阳县| 昌平区| 海盐县| 涟源市| 仁怀市| 府谷县| 乌什县| 锡林郭勒盟| 涡阳县| 临沭县| 宣恩县| 濮阳市| 兴山县| 神农架林区| 荣昌县| 崇左市| 紫金县| 桐柏县| 巩义市| 瑞金市| 新巴尔虎左旗| 新闻| 中卫市| 罗平县| 京山县| 宿迁市| 家居| 陆丰市| 盐城市| 玉屏| 九寨沟县| 桐庐县|