OpenAI發(fā)新模型！首次實現(xiàn)“圖像思維”，可利用所有ChatGPT工具

2025-04-17 04:08:39　來源: 華爾街見聞官方

上海舉報

分享至

OpenAI周三發(fā)布新款A(yù)I模型o3和o4-mini，模仿人類的推理過程，解決復(fù)雜編程和視覺任務(wù)的推理。同時，該公司也發(fā)布開源AI agent CodeX CLI，用于幫助用戶執(zhí)行編程任務(wù)，從而改善市場競爭能力。

OpenAI此次推出的主要新型推理模型名為o3，同時還發(fā)布了一款更小型的模型，命名為o4-mini。這一發(fā)布延續(xù)了去年9月OpenAI首個推理模型o1的問世，當(dāng)時o1主要專注于解決復(fù)雜問題，并通過多步驟的方式進(jìn)行思考和作答。

該公司表示，新發(fā)布的o3模型在響應(yīng)用戶提示之前會花費(fèi)更多時間進(jìn)行計算，目標(biāo)是解決與科學(xué)、數(shù)學(xué)和編程相關(guān)的更復(fù)雜的多步驟問題。借助o3，用戶可以上傳白板筆記、草圖和其他圖像內(nèi)容，讓AI進(jìn)行分析與討論。這些模型還能對圖像進(jìn)行旋轉(zhuǎn)、縮放等編輯操作。

跑分進(jìn)步首次實現(xiàn)“圖像思維”

據(jù)最新測試結(jié)果，o3和o4-mini（無工具版本）在AIME 2024數(shù)學(xué)競賽題目中的準(zhǔn)確率分別達(dá)91.6%和93.4%，遠(yuǎn)超前代模型o1的74.3%。在AIME 2025題目中，兩者準(zhǔn)確率分別達(dá)88.9%和92.7%。在Codeforces編程競賽評分中，支持終端工具的o3和o4-mini分別取得了2706和2719的ELO分?jǐn)?shù)，顯著領(lǐng)先于o1的1891和o3-mini的2073，顯示出在復(fù)雜數(shù)學(xué)與代碼任務(wù)中的強(qiáng)大推理與執(zhí)行能力。

同時，o3（無工具）在博士水平科學(xué)問答中的準(zhǔn)確率為83.3%，高于前代模型o1的78.0%，而o4-mini（無工具）也緊隨其后，達(dá)81.4%。在右圖所示的“人類最后的考試”高難度跨學(xué)科題目中，開啟Python與瀏覽工具的o3模型準(zhǔn)確率達(dá)24.9%，顯著優(yōu)于o1-pro的8.12%和o3-mini的13.4%，顯示出多工具組合在處理復(fù)雜問題上的巨大潛力。值得注意的是，Deep Research實驗系統(tǒng)在該測試中表現(xiàn)最佳，準(zhǔn)確率達(dá)26.6%。這進(jìn)一步突顯OpenAI新模型在推理鏈、跨模態(tài)理解和工具協(xié)同方面的持續(xù)進(jìn)步。

在多模態(tài)推理方面，OpenAI新發(fā)布的o3和o4-mini模型在多項視覺推理測試中全面超越前代模型o1。在MMMU大學(xué)級視覺問題解決任務(wù)中，o3的準(zhǔn)確率達(dá)82.9%，領(lǐng)先于o1的77.6%；o4-mini表現(xiàn)相近，為81.6%。在MathVista視覺數(shù)學(xué)推理測試中，o3取得86.8%的成績，遠(yuǎn)高于o1的71.8%；而o4-mini則達(dá)84.3%。在CharXiv科學(xué)圖表推理測試中，o3的準(zhǔn)確率為78.6%，大幅領(lǐng)先o1的55.1%，o4-mini則達(dá)到72%。整體來看，o3在處理圖像與文本結(jié)合任務(wù)中展現(xiàn)出強(qiáng)大能力，o4-mini則在保持高性能的同時提升了響應(yīng)速度與成本效率，展現(xiàn)出OpenAI多模態(tài)模型在復(fù)雜視覺任務(wù)中的顯著進(jìn)展。

與此同時，o4-mini則提供了價格、速度和性能之間的“有競爭力的平衡”，這是開發(fā)者在選擇AI模型為其應(yīng)用提供支持時經(jīng)常考慮的三大因素。兩款模型現(xiàn)已向OpenAI付費(fèi)用戶開放。

OpenAI在公告中寫道，o3和o4-mini是首批能夠“圖像思維”的AI模型：

“這是我們首次推出能夠獨(dú)立使用全部ChatGPT工具的推理模型——包括網(wǎng)頁瀏覽、Python編程、圖像理解和圖像生成能力。這使得它們在解決復(fù)雜的多步驟問題時更加高效，并朝著自主執(zhí)行任務(wù)的方向邁出了真正一步。”

該公司解釋稱，這意味著“它們不僅能看圖，還能將視覺信息直接整合進(jìn)推理鏈條之中”。

OpenAI表示，o3在SWE-bench verified測試中表現(xiàn)達(dá)到了當(dāng)前最先進(jìn)的水平（不使用自定義結(jié)構(gòu)），該測試主要評估編程能力，o3的得分為69.1%。o4-mini的得分也相當(dāng)出色，達(dá)到68.1%。作為對比，OpenAI此前最好的模型o3-mini在該測試中得分為49.3%，而Anthropic的Claude 3.7 Sonnet得分為62.3%。

DeepSeek壓力下 OpenAI也想開源了？

OpenAI在2022年底推出ChatGPT，引發(fā)了生成式人工智能的熱潮。當(dāng)時這款產(chǎn)品搭載的是GPT-3.5模型。此后，該公司陸續(xù)發(fā)布了多個日益復(fù)雜的系統(tǒng)，包括多個推理模型。但OpenAI目前面臨著來自中國新興企業(yè)DeepSeek、Anthropic以及馬斯克旗下xAI等公司的巨大壓力，這些公司不斷推出一系列具備類似前沿能力的AI模型。

分析認(rèn)為，編程已成為生成式AI應(yīng)用中增長最快的領(lǐng)域之一，也是OpenAI的一個關(guān)鍵競爭戰(zhàn)場。Anthropic和谷歌母公司Alphabet都大力宣傳其新一代AI系統(tǒng)的編程能力。其他創(chuàng)業(yè)公司，如Cursor的開發(fā)商Anysphere，也憑借面向程序員的AI工具獲得了廣泛關(guān)注。

為在這個競爭激烈的市場中更具優(yōu)勢，OpenAI周三宣布推出Codex CLI，這是一款旨在與如o3等模型協(xié)同工作的AI代理，可幫助用戶完成編程任務(wù)。該產(chǎn)品是開源的，意味著將免費(fèi)向用戶開放，并可直接在用戶的計算機(jī)終端程序中運(yùn)行。

奧特曼此前曾表示，公司正在開發(fā)一個開源版本的推理模型，計劃在未來幾個月內(nèi)發(fā)布，此舉是為了回應(yīng)DeepSeek旗下開源系統(tǒng)R1走紅后的市場影響。

OpenAI還表示，未來幾周內(nèi)將推出o3-pro，這是o3的一個升級版本，使用更多計算資源生成回答，僅向ChatGPT Pro訂閱用戶開放。而奧特曼此前曾表示，o3和o4-mini可能是OpenAI在GPT-5發(fā)布之前推出的最后一批獨(dú)立推理模型。GPT-5預(yù)計將融合傳統(tǒng)模型（如GPT-4.1）與推理模型，實現(xiàn)統(tǒng)一發(fā)展方向。

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.