99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

剛剛,OpenAI發布最強推理模型o3!圖像深度思考首秀,開源編程智能體已攬5k+star

0
分享至


內容來自:機器之心

深夜,OpenAI 發布了 o 系列模型的最新成果 o3 和 o4-mini。該系列模型經過訓練,會在響應之前進行更長時間的思考。

OpenAI 表示,這是他們迄今為止發布的最智能模型,也標志著 ChatGPT 能力的巨大飛躍。

這次新發布的推理模型能夠像智能體一樣使用并組合 ChatGPT 中的每一個工具 —— 這包括搜索互聯網、用 Python 分析上傳的文件和其他數據、深入推理視覺輸入,甚至生成圖像。


至關重要的是,這些模型經過訓練,能夠推理何時以及如何使用工具,以在正確輸出格式下產生詳細且深思熟慮的答案,通常在不到一分鐘的時間內解決更復雜的問題。這使得它們能夠更有效地應對多面性問題,邁向一個更具自主性的 ChatGPT,獨立為你執行任務。

OpenAI CEO 山姆?奧特曼表示,o3 和 o4-mini 功能非常強大,尤其擅長多模態理解,并且可以組合使用 ChatGPT 中的所有工具。另外,o4-mini 的價格非常劃算。


從今天開始,ChatGPT Plus、Pro 和 Team 用戶可以在模型選擇器中看到 o3、o4-mini 和 o4-mini-high,取代 o1、o3?mini 和 o3?mini?high。ChatGPT Enterprise 和 Edu 用戶將在一周內獲得訪問權限。


免費用戶可以在提交查詢之前,在編輯器中選擇「Think」來試用 o4-mini。所有計劃的速率限制與之前的模型組保持不變。

此外,OpenAI 預計將在幾周內發布 o3?pro,并提供全面的工具支持。目前,Pro 用戶仍然可以訪問 o1?pro。

開發者現在也可以通過「Chat Completions API」和「Responses API」使用 o3 和 o4-mini(部分開發者需要驗證其組織才能訪問這些模型)。 Responses API 支持推理摘要,能夠在函數調用周圍保留推理 token 以提高性能,并且即將在模型推理中支持內置工具,例如網頁搜索、文件搜索和代碼解釋器。

至于 API 價格,o3 比 o1 全方位(輸入、cached 輸入和輸出)降低,o4-mini 也比 o3-mini 部分降低。


新模型強在哪里?

o3 是 OpenAI 最強大的推理模型,它推動了編程、數學、科學、視覺感知等領域的前沿發展。o3 在 Codeforces、SWE-bench(無需構建自定義模型專用框架)和 MMMU 等基準測試中創下了新的 SOTA(最佳性能)。

o3 非常適合需要多方面分析且答案可能并非顯而易見的復雜查詢,并在分析圖像、圖表和圖形等視覺任務中表現尤為出色。在外部專家的評估中,o3 在困難的現實任務中比 o1 犯的重大錯誤少 20%,尤其是在編程、商業 / 咨詢和創意構思等領域表現出色。

早期測試人員強調了 o3 作為思想伙伴的分析嚴謹性,并強調了其生成和批判性評估新假設的能力,尤其是在生物學、數學和工程學領域。

OpenAI o4-mini 是一款小型模型,專為快速、經濟高效的推理而優化,它以其尺寸和成本實現了卓越的性能,尤其是在數學、編程和視覺任務方面。

o4-mini 是 AIME 2024 和 2025 基準測試中表現最佳的模型。在專家評估中,它在非 STEM 任務以及數據科學等領域的表現也優于其前身 o3-mini。得益于其高效性,o4-mini 支持的使用限制遠高于 o3,使其成為解決需要推理能力的問題的強大高容量、高吞吐量解決方案。

外部專家評估人員認為,得益于智能化的提升和網絡資源的引入,o3 和 o4-mini 都比前代模型展現出了更佳的指令遵循能力,以及更實用、更可驗證的響應。

與 OpenAI 之前的推理模型相比,這兩個模型的體驗也更加自然、更具對話性,尤其是在參考記憶和歷史對話的情況下,響應更加個性化和相關。


多模態基準測試(包括 MMMU 大學水平的視覺問答、MathVista 視覺數學推理和 CharXiv-Reasoning 論文圖表推理):


編程基準測試(包括 SWE-Lancer: IC SWE Diamod Freelancer 編程任務和 SWE-Bench Verified 軟件工程任務):


Aider Polyglot 代碼編輯任務:


指令遵循和智能體工具使用任務(包括 Scale MultiChallenge 多輪指令遵循和 BrowerComp 智能體瀏覽):


Tau-bench 函數調用:


繼續擴展強化學習,模型掌握工具使用

在 OpenAI o3 開發過程中,OpenAI 觀察到大規模強化學習表現出與 GPT 系列預訓練中觀察到的趨勢相同,即「計算量越大,性能越好(more compute = better performance)」。

通過重新追溯這一擴展路徑,這次是在強化學習中 ——OpenAI 在訓練計算和推理時間推理能力方面又向前推進了一個數量級,但仍能清晰地看到性能的提升,這驗證了模型的性能會隨著其被允許思考的時間越長而持續提高。在與 OpenAI o1 相同的延遲和成本下,o3 在 ChatGPT 中的性能更高 ——OpenAI 已經驗證,如果讓模型思考更長時間,其性能還會繼續攀升。

OpenAI 還通過強化學習訓練這兩個模型掌握工具使用的能力 —— 不僅教會它們如何使用工具,更讓它們學會判斷何時該使用工具。這種根據目標結果自主調配工具的能力,使它們在開放式場景中表現尤為出色 —— 特別是在涉及視覺推理和多步驟工作流的任務中。正如早期測試者反饋所示,這種提升既體現在學術基準測試中,也反映在實際任務表現上。

根據圖像進行思考

首次,模型能夠在思維鏈中運用圖像進行思考,而不僅僅是看到圖像。這開啟了一類新的問題解決方式,視覺和文本推理終于結合在一起了。無論是上傳的白板照片、教科書圖表或手繪草圖,即使圖像模糊、反轉或質量低下,模型也能對其進行解讀。

與之前的 OpenAI o1 模型類似,o3 和 o4-mini 經過訓練,可以在回答前進行更長時間的思考,并在回復用戶之前運用較長的內部思維鏈。o3 和 o4-mini 進一步擴展了這一能力,將圖像融入其思維鏈中,通過使用工具轉換用戶上傳的圖像,使其能夠進行裁剪、放大和旋轉等簡單的圖像處理技術。更重要的是,這些功能是原生的,無需依賴單獨的專用模型。

這種方法為測試時間計算擴展提供了一個新的軸,可以無縫融合視覺和文本推理,這反映在它們在多模態基準測試中的最先進的性能上,標志著朝著多模態推理邁出了重要一步。

用戶可以通過拍照提問,無需擔心物體的位置 —— 無論是文字顛倒,還是一張照片中存在多個物理問題。即使物體乍一看并不明顯,視覺推理也能讓模型放大查看,從而更清晰地觀察。

舉例來說:問筆記本上寫了什么,其實這個筆記本上的字體根本看不清,并且字體是顛倒的,這些問題都被 OpenAI o3 在推理過程中一一解決了。



用戶輸入圖片


下面的示例是 OpenAI o3 做題過程,我們能看到其清晰的思維鏈過程。



用戶輸入圖片


走迷宮示例:




中間省略了較長的思維鏈過程

智能體工具使用

o3 和 o4-mini 可以完全訪問 ChatGPT 中的工具,以及通過 API 中的函數調用訪問用戶自己的自定義工具。這些模型經過訓練,能夠推理如何解決問題,選擇何時以及如何使用工具,從而快速(通常在一分鐘內)以正確的輸出格式生成詳細而周到的答案。

例如,用戶可能會問:「加州夏季的能源使用量與去年相比如何?」 該模型可以在網上搜索公共事業數據,編寫 Python 代碼構建預測,生成圖表或圖像,并解釋預測背后的關鍵因素,并將多個工具調用串聯在一起。

推理功能使模型能夠根據遇到的信息做出反應和調整。例如,它們可以借助搜索引擎多次搜索網頁,查看結果,并在需要更多信息時嘗試新的搜索。

這種靈活的策略方法使模型能夠處理需要訪問最新信息的任務,而不僅僅是模型的內置知識、擴展推理、綜合和跨模態輸出生成。

比如在視覺推理任務中,o3 準確地考慮了時間表并輸出了可用的計劃,而 o1 則存在不準確之處,導致某些演出時間出現錯誤。


再比如在科學問答任務中,o3 提供了全面、準確且富有洞察力的分析,分析了最近的電池技術突破如何延長電動汽車續航里程、加快充電速度并推動采用,所有這些都有科學研究和行業數據作為支持。o1 雖然可信且切題,但不夠詳細和具有前瞻性,存在一些小錯誤或過于簡單化。


推進高效(cost-efficient)推理

o3 和 o4-mini 是 OpenAI 迄今為止發布的最智能模型,而且它們通常也比其前輩 o1 和 o3-mini 更高效。

例如,在 2025 年 AIME 數學競賽中,o3 的性價比邊界比 o1 有顯著提升;同樣,o4-mini 的性價比邊界也比 o3-mini 有顯著提升。

更普遍地講,OpenAI 預計,在大多數實際應用中,o3 和 o4-mini 也將分別比 o1 和 o3-mini 更智能、更經濟。



安全

模型能力的每一次提升都意味著安全性的相應提升。對于 o3 和 o4-mini,OpenAI 徹底重建了安全訓練數據,在生物威脅(生物風險)、惡意軟件生成和越獄等領域添加了新的拒絕提示。

這些更新的數據使 o3 和 o4-mini 在 OpenAI 的內部拒絕基準測試(例如指令層次結構、越獄)中取得了優異的表現。

除了模型拒絕方面的出色表現外,OpenAI 還開發了系統級緩解措施,以標記前沿風險領域的危險提示。與之前在圖像生成方面的工作類似,OpenAI 訓練了一個推理 LLM 監控器,它基于人工編寫且可解釋的安全規范。當應用于生物風險時,該監控器成功標記了 OpenAI 人工紅隊演練活動中約 99% 的對話。

OpenAI 還采用迄今為止最嚴格的安全程序對這兩種模型進行了壓力測試。根據 OpenAI 更新的應急準備框架,他們根據該框架涵蓋的三個跟蹤能力領域(生物和化學、網絡安全以及人工智能自我改進)對 o3 和 o4-mini 進行了評估。

根據評估結果,OpenAI 確定 o3 和 o4-mini 在所有三個類別中均低于該框架的「高」閾值。

關于更多 o3 和 o4-mini 的信息,大家可以參考 OpenAI 完整的模型系統卡。


地址:https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf

開源 Codex CLI:終端前沿推理

OpenAI 還分享了一項新實驗:Codex CLI,這是一款可在終端運行的輕量級編程智能體。它可以直接在個人計算機上運行,最大限度地提升 o3 和 o4-mini 等模型的推理能力,并即將支持 GPT-4.1 等更多 API 模型。

用戶可以通過將屏幕截圖或低保真草圖傳遞給模型,并在本地訪問代碼,從而從命令行獲得多模態推理的優勢。OpenAI 將 Codex CLI 視為一個將自身模型連接到用戶及其計算機的極簡界面。Codex CLI 現已完全開源。


開源地址:https://github.com/openai/codex

效果如下:


此外,OpenAI 還將啟動一項 100 萬美元的計劃,以支持使用 Codex CLI 和 OpenAI 模型的項目。OpenAI 將以 API 積分的形式評估和接受每 2.5 萬美元的資助申請。


博客地址:https://openai.com/index/introducing-o3-and-o4-mini/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
網友拼接出武漢猝死男孩的悲苦命運

網友拼接出武漢猝死男孩的悲苦命運

大張的自留地
2025-04-26 08:55:53
睡得少和睡得晚,哪個對身體的傷害大?

睡得少和睡得晚,哪個對身體的傷害大?

21世紀經濟報道
2025-04-13 14:34:38
22點和23點睡覺,差距到底有多大?

22點和23點睡覺,差距到底有多大?

環球網資訊
2025-04-08 21:33:09
海關總署:4月22日起,允許符合相關要求的阿根廷牛黃進口

海關總署:4月22日起,允許符合相關要求的阿根廷牛黃進口

每日經濟新聞
2025-04-26 21:57:06
快訊丨賈躍亭:FF市值達到百億美元基本能還完中國債務

快訊丨賈躍亭:FF市值達到百億美元基本能還完中國債務

每日經濟新聞
2025-04-26 10:01:07
張蘭賬號再次被封,翻看過往視頻,刻意拉箖箖直播,其實也不冤

張蘭賬號再次被封,翻看過往視頻,刻意拉箖箖直播,其實也不冤

阿鳧愛吐槽
2025-04-26 18:31:59
裁判專家:巴爾韋德的手垂向地面,這不是點球

裁判專家:巴爾韋德的手垂向地面,這不是點球

懂球帝
2025-04-27 04:40:10
被罰12分仍贏球!斯佳輝4-2領先,第一階段不敗,肖國棟無緣8強!

被罰12分仍贏球!斯佳輝4-2領先,第一階段不敗,肖國棟無緣8強!

劉姚堯的文字城堡
2025-04-27 05:55:15
鐵路部門回應車窗有貼紙:屬特色車廂,可聯系列車員調整位置

鐵路部門回應車窗有貼紙:屬特色車廂,可聯系列車員調整位置

觀威海
2025-04-26 17:23:06
為什么中國三軍儀仗隊在越南被“驚為天人”?

為什么中國三軍儀仗隊在越南被“驚為天人”?

解筱文
2025-04-27 00:12:08
交社保時發現我名下有家公司,我沒鬧,直接行使了法人的合法權限

交社保時發現我名下有家公司,我沒鬧,直接行使了法人的合法權限

前沿天地
2025-04-26 15:05:45
Pedro Pascal 宣布抵制《哈利波特》所有產品!

Pedro Pascal 宣布抵制《哈利波特》所有產品!

下水道男孩
2025-04-24 22:20:26
巴鐵猛轟印軍!中國造武器成決勝關鍵?三大底牌曝光

巴鐵猛轟印軍!中國造武器成決勝關鍵?三大底牌曝光

Ck的蜜糖
2025-04-26 10:38:23
周瑾自述:婚后不愛下廚,給孩子吃高端外賣,與老公是多元化關系

周瑾自述:婚后不愛下廚,給孩子吃高端外賣,與老公是多元化關系

明月聊史
2025-04-26 17:40:53
波音一周內三架飛機被中國退貨,波音CEO要求中國重新接收訂單

波音一周內三架飛機被中國退貨,波音CEO要求中國重新接收訂單

王曉愛體彩
2025-04-26 09:57:33
王勵勤上任!第一個離隊的教練曝光,王皓馬琳去留懸念揭曉

王勵勤上任!第一個離隊的教練曝光,王皓馬琳去留懸念揭曉

體育就你秀
2025-04-26 09:00:58
熱議外籍裁判執法CBA!媒體人稱贊水平高,專業人士分析吹罰特點

熱議外籍裁判執法CBA!媒體人稱贊水平高,專業人士分析吹罰特點

雷速體育
2025-04-26 22:17:10
暴怒!呂迪格怒噴裁判&想要動手,被紅牌罰下

暴怒!呂迪格怒噴裁判&想要動手,被紅牌罰下

直播吧
2025-04-27 06:48:13
五阿哥變“五姨太”?51歲蘇有朋整容失敗,網友:性別都變了!

五阿哥變“五姨太”?51歲蘇有朋整容失敗,網友:性別都變了!

白面書誏
2025-04-26 18:06:07
女星自曝主持沒穿內褲上陣,透明撐全場:空穴來風

女星自曝主持沒穿內褲上陣,透明撐全場:空穴來風

葫蘆哥愛吐槽
2025-04-24 14:02:57
2025-04-27 07:55:00
學術頭條
學術頭條
致力于學術傳播和科學普及,重點關注人工智能、生命科學等前沿科學進展。
1247文章數 5069關注度
往期回顧 全部

科技要聞

賈躍亭:FF市值到百億美元能基本還完中國債務

頭條要聞

日本執政黨要員接連訪華 學者:對外釋放的信息很特殊

頭條要聞

日本執政黨要員接連訪華 學者:對外釋放的信息很特殊

體育要聞

84分鐘扳平+加時絕殺!巴薩賽季3殺皇馬,32次問鼎國王杯歷史第1

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續航100公里 探訪華為兆瓦超充站

態度原創

家居
時尚
本地
房產
手機

家居要聞

清徐現代 有溫度有態度

她美得好邪乎,讓人又怕又愛

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

房產要聞

教育理念再進階!解碼新世界星輝如何構筑「家校社成長生態圈」!

手機要聞

索尼Xperia 1 VII真機外觀、配置曝光,發布在即

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 仁布县| 启东市| 滕州市| 高雄县| 莱阳市| 监利县| 五家渠市| 三明市| 丹东市| 新巴尔虎右旗| 泾源县| 济宁市| 凤冈县| 高雄县| 大同市| 汤原县| 凌海市| 伊春市| 达州市| 惠来县| 铜山县| 柳江县| 哈巴河县| 张家界市| 通化县| 闵行区| 准格尔旗| 宁津县| 东兰县| 庄河市| 永兴县| 横山县| 昭苏县| 顺义区| 巢湖市| 库尔勒市| 卢氏县| 昌邑市| 美姑县| 遂川县| 犍为县|