GPT-4.1深夜登場，中科大校友領(lǐng)隊！百萬上下文編程驚人，GPT-4.5三個月后淘汰

2025-04-15 18:10:50　來源: 直面派

北京舉報

分享至

轉(zhuǎn)載自 | 新智元（ID: AI_era）

【新智元導(dǎo)讀】OpenAI重磅發(fā)布的GPT-4.1系列模型，帶來了編程、指令跟隨和長上下文處理能力的全面飛躍！由中科大校友Jiahui Yu領(lǐng)銜的團(tuán)隊打造。與此同時，備受爭議的GPT-4.5將在三個月后停用，GPT-4.1 nano則以最小、最快、最便宜的姿態(tài)強(qiáng)勢登場。

就在剛剛，OpenAI專為開發(fā)者重磅推出了三款全新模型：GPT-4.1、GPT-4.1 mini和GPT-4.1 nano！

它們均擁有最高100萬Token的超大上下文窗口，在代碼、指令跟隨等核心能力上全面超越GPT-4o及GPT-4o mini，并且知識截止日期也已更新至2024年6月。

值得注意的是，GPT?4.1系列將僅通過API提供，并已向所有開發(fā)者開放。

GPT-4.1 nano是OpenAI首個nano模型，也是他們目前可用模型中最快、最便宜的一款。

別看它體積不大，性能一點(diǎn)不弱：MMLU得分80.1%，GPQA得分50.3%，Aider多語言編碼基準(zhǔn)9.8%，完勝GPT-4o mini！

GPT-4.1 mini在多項基準(zhǔn)測試超越GPT-4o，速度快一倍的同時成本驟降83%，效率拉滿！

作為其中旗艦?zāi)Ｐ偷?strong>GPT?4.1更是強(qiáng)的可怕：

最強(qiáng)編碼：GPT?4.1在SWE-bench Verified上的得分為54.6%，比GPT?4o提高了21.4%，比GPT?4.5提高了26.6%。
指令跟隨：在Scale的MultiChallenge?上，GPT?4.1的得分為38.3%，比GPT?4o提高了10.5%。
長上下文：在Video-MME上，GPT?4.1取得了新的SOTA——在長視頻、無字幕類別中得分72.0%，比GPT?4o提高了6.7%。

自此，謎語人奧特曼口中的「quasar」也終于得到了確認(rèn)——就是GPT-4.1！

而隨著能力更強(qiáng)、成本延遲更低的GPT-4.1的推出，一直以來都飽受爭議的GPT?4.5 Preview也將在3個月后（7月14日）從API中下架。

對此OpenAI表示，GPT?4.5原本就是作為研究預(yù)覽版推出的，目的是探索和實(shí)驗一個大規(guī)模、計算密集型的LLM。

雖然模型即將停用，但OpenAI會把開發(fā)者喜愛的創(chuàng)造力、寫作質(zhì)量、幽默感等特點(diǎn)，繼續(xù)融入未來的API模型中。

現(xiàn)場Demo實(shí)測

首先，當(dāng)然就是編程能力。

在這個demo中，研究者要求GPT-4.1做一個在線抽認(rèn)卡網(wǎng)頁應(yīng)用，提出了許多相當(dāng)具體的要求。比如點(diǎn)擊抽認(rèn)卡時，要出現(xiàn)3D動畫。

對于這個任務(wù)，GPT-4o完成得是這樣的。

相比之下，GPT-4.1就完成得十分流暢了，無論是在顏色，還是在3D動畫上。

注意，從頭到尾，只需要一個prompt，就能得到一個完整的應(yīng)用程序！

下面是一個OpenAI的Playground，在演示中，研究者要求GPT-4.1生成一個單一的Python文件代碼應(yīng)用，在右側(cè)模擬用戶查詢，這個網(wǎng)站可以接收大型文本文件、回答相關(guān)問題。

可以看到，模型產(chǎn)生了數(shù)百行代碼。研究者將這些代碼實(shí)際運(yùn)行后，發(fā)現(xiàn)效果出人意料的好。

僅僅一個提示，它就創(chuàng)建了這個網(wǎng)站。

接下來，是大海撈針的展示。

研究者上傳了文件——NASA自1995年8月以來的服務(wù)器請求響應(yīng)日志文件，

在這個文件中，左側(cè)是向NASA服務(wù)器發(fā)出請求的客戶端名稱，這是一個包含大量日志行的長文件，左側(cè)大概有450000個token的內(nèi)容。

在OpenAI以前的模型上，是不可能使用這個文件的。

這里，研究者偷偷添加了一行實(shí)際上不是HTTP請求響應(yīng)的內(nèi)容，這支堆棧中的小「針」，很難發(fā)覺。

最終，GPT-4.1成功了！

研究者經(jīng)過確認(rèn)，這一行的確在他們上傳的日志文件中。

OpenAI特意強(qiáng)調(diào)，在實(shí)踐中非常重要的一點(diǎn)，就是API開發(fā)者是如何提示模型的。

在這個任務(wù)中，GPT-4.1的任務(wù)是日志分析員助手。研究者告訴它輸入的數(shù)據(jù)以及用戶的查詢該如何構(gòu)建。

接下來還有一些規(guī)則，比如模型只用回答日志數(shù)據(jù)內(nèi)容相關(guān)的問題，問題應(yīng)該始終在查詢標(biāo)簽內(nèi)格式化，如果其中一項不真實(shí)請回復(fù)錯誤消息等等。

接下來，就是GPT-4.1展示的時候了。

研究者詢問：fnal.gov發(fā)出了多少請求？模型拒絕了，因為它沒有在查詢標(biāo)簽內(nèi)格式化。

而如果在查詢標(biāo)簽內(nèi)發(fā)出同樣的請求，它就可以找到日志文件中的兩個引用了。

這樣，開發(fā)者就可以明確讓模型做到「不做某事」，這是開發(fā)過程中一個極其有意義的關(guān)鍵細(xì)節(jié)——遵循負(fù)面指令。

定價

價格方面，GPT?4.1雖然比GPT?4o便宜了26%，但輸入、輸出依然高達(dá)每百萬token 2美元和8美元。

GPT?4.1 nano是OpenAI迄今為止價格最低、速度最快的模型，輸入、輸出分別為0.1美元和0.4美元。

對于重復(fù)使用相同上下文的查詢，這些新模型的提示詞緩存折扣已從之前的50%提高至75%。

最后，長上下文請求已包含在標(biāo)準(zhǔn)的按Token計費(fèi)內(nèi)，無額外費(fèi)用。

編程：OpenAI最強(qiáng)模型誕生

相對GPT-4o、o1、o3-mini等模型，GPT-4.1在編程上都提升了一大截。

在各種編程任務(wù)上明顯比GPT-4o強(qiáng)得多，比如用智能體解決編程問題、前端開發(fā)、減少不必要的代碼修改、嚴(yán)格跟隨不同的格式、保持工具使用的一致性等等。

在SWE-bench Verified這個反映真實(shí)軟件工程能力的測試中，GPT-4.1完成了54.6%的任務(wù)，而GPT-4o（2024-11-20）只有33.2%。

這說明GPT-4.1在瀏覽代碼庫、完成任務(wù)以及生成既能運(yùn)行又能通過測試的代碼方面有了很大提升。

對于SWE-bench Verified，模型會接收一個代碼倉庫和問題描述，并需要生成一個補(bǔ)丁來解決該問題。其性能高度依賴于所使用的提示詞和工具

對于希望編輯大型文件的API開發(fā)者而言，GPT-4.1在處理各種格式的代碼差異（code diffs）時，可靠性要高得多。

Aider多語言差異基準(zhǔn)測試?，不僅衡量了模型跨多種編程語言的編碼能力，也衡量了其以完整文件格式和不同格式生成代碼變更的能力。

在這里，GPT?4.1的得分是GPT?4o的2倍以上，甚至比GPT?4.5高出8%。

如此一來，開發(fā)者便無需重寫整個文件，而是讓模型輸出變更的行即可，從而大幅節(jié)省成本并降低延遲。

對于傾向于重寫整個文件的開發(fā)者，GPT?4.1的輸出Token上限也提高到了32,768個Token（GPT?4o為16,384個）。其中，可以使用Predicted Outputs功能來降低完整文件重寫的延遲。

在Aider的多語言基準(zhǔn)測試中，模型通過編輯源文件的方式解決來自Exercism?的編碼練習(xí)，并允許一次重試。「whole」格式要求模型重寫整個文件，這可能速度較慢且成本較高。「diff」格式則要求模型編寫一系列搜索/替換塊

此外，GPT?4.1在前端編碼方面相較于GPT?4o也有顯著改進(jìn)，能夠創(chuàng)建出功能更完善、視覺上更美觀的Web應(yīng)用。

在直接對比評估中，人類評委有80%的情況更傾向于選擇GPT?4.1生成的網(wǎng)站，而非GPT?4o。

指令跟隨：現(xiàn)已進(jìn)入第一梯隊

在指令跟隨方面，OpenAI特地開發(fā)了一套內(nèi)部的評估體系，用以追蹤模型在多個維度及以下幾個關(guān)鍵指令跟隨類別上的表現(xiàn)：

格式跟隨（Format following）：按要求的自定義格式（如XML、YAML、Markdown等）生成響應(yīng)。
否定性指令（Negative instructions）：避免執(zhí)行特定行為。（示例：「不要讓用戶聯(lián)系支持人員」）
有序指令（Ordered instructions）：按給定順序執(zhí)行一系列操作。（示例：「先詢問用戶姓名，再詢問其郵箱地址」）
內(nèi)容要求（Content requirements）：確保輸出內(nèi)容包含特定信息。（示例：「撰寫營養(yǎng)計劃時，必須包含蛋白質(zhì)克數(shù)」）
排序（Ranking）：按特定方式排列輸出內(nèi)容。（示例：「按人口數(shù)量對結(jié)果進(jìn)行排序」）
識別知識邊界（Overconfidence）：在無法獲取所請求信息或請求超出指定范疇時，回答「我不知道」或類似表述。（示例：「如果你不知道答案，請?zhí)峁┲С謭F(tuán)隊的聯(lián)系郵箱」）

這些類別是基于開發(fā)者反饋確定的，反映了他們認(rèn)為最為相關(guān)且重要的指令跟隨維度。其中，每個類別都將提示詞按難度分為了簡單、中等和困難三類。

在處理困難提示詞方面，GPT-4o和GPT-4o mini只有不到30%的正確率，而新系列中最小的nano都達(dá)到了32%。

與此同時，GPT-4.1則達(dá)到了49%，幾乎追平了o1和o3-mini，但和GPT-4.5還有一段距離。

內(nèi)部指令跟隨能力評估是基于真實(shí)的開發(fā)者用例和反饋，涵蓋了不同復(fù)雜程度的任務(wù)，并結(jié)合了關(guān)于格式、詳細(xì)程度、長度等方面的指令要求

對許多開發(fā)者而言，多輪指令跟隨至關(guān)重要，這意味著模型需要在對話深入時保持連貫性，并記住用戶先前告知的信息。

而GPT-4.1能夠更好地從對話歷史消息中提取信息，從而實(shí)現(xiàn)更自然的交互。

在Scale AI推出的MultiChallenge基準(zhǔn)測試中，GPT?4.1雖然不及o1和GPT-4.5，但已經(jīng)可以追上o3-mini，并且比GPT?4o提升了10.5%之多。

在MultiChallenge基準(zhǔn)測試中，模型面臨的挑戰(zhàn)是在多輪對話里，能夠正確使用來自先前消息（對話上文）的四種類型的信息

此外，GPT?4.1在IFEval上的得分為87.4%，而GPT?4o為81.0%。IFEval使用包含可驗證指令的提示詞（例如，指定內(nèi)容長度或避免使用特定術(shù)語/格式）。

在IFEval中，模型必須生成符合各種指令的答案

更強(qiáng)的指令跟隨能力不僅能提升現(xiàn)有應(yīng)用的可靠性，也能實(shí)現(xiàn)過去因模型可靠性不足而難以實(shí)現(xiàn)的新應(yīng)用

早期測試人員反饋，GPT?4.1可能更傾向于跟隨字面指令，因此OpenAI建議在設(shè)計提示詞時力求明確和具體。

長上下文：大海撈針直接滿分

長上下文理解能力是法律、編碼、客戶支持及諸多其他領(lǐng)域應(yīng)用的一項關(guān)鍵能力。

GPT?4.1、GPT?4.1 mini和GPT?4.1 nano不僅可處理最多100萬Token的上下文，而且能夠可靠地處理其中的內(nèi)容，并忽略干擾信息。

100萬Token是什么概念？類比來說，其包含的內(nèi)容量可以達(dá)到整個React代碼庫8倍以上！

比起GPT?4o的12.8萬Token，可以說是提升十分巨大了。

下面，演示了GPT?4.1在上下文窗口不同位置檢索隱藏的小段信息（即「針」）的能力。

在長達(dá)100萬 Token的各種上下文長度和所有位置點(diǎn)上，GPT?4.1都能持續(xù)準(zhǔn)確地檢索到「針」。這意味著它能有效提取當(dāng)前任務(wù)所需的相關(guān)細(xì)節(jié)，無論這些細(xì)節(jié)位于輸入的哪個部分。

不過，現(xiàn)實(shí)世界的任務(wù)很少像檢索單個、明顯的「針」那樣簡單直接。

在「大海撈針」（Needle in a Haystack）評估中，GPT?4.1、GPT?4.1 mini和GPT?4.1 nano均能在長達(dá)100萬Token的上下文中的所有位置成功檢索到「針」

OpenAI-MRCR

在實(shí)際應(yīng)用時，用戶通常需要模型能夠檢索并理解多條信息，并且理解這些信息片段之間的相互關(guān)聯(lián)。

為此，OpenAI開源了一項測試模型在長上下文中查找并區(qū)分多個隱藏「針」的新基準(zhǔn)：OpenAI-MRCR（Multi-Round Coreference）。

該評估包含用戶與助手之間的多輪合成對話，在對話中用戶要求模型就某個主題進(jìn)行創(chuàng)作，例如「寫一首關(guān)于貘的詩」或「寫一篇關(guān)于石頭的博客文章」。

接著，在上下文中隨機(jī)插入2個、4個或8個內(nèi)容相似但實(shí)例不同的請求。

模型必須準(zhǔn)確檢索出與用戶指定的某一特定實(shí)例相對應(yīng)的響應(yīng)（例如，「請給我第三首關(guān)于貘的詩」）。

這項任務(wù)的挑戰(zhàn)在于，這些相似請求與上下文的其他部分非常接近——模型很容易被細(xì)微差異誤導(dǎo)，比如將關(guān)于貘的短篇故事誤認(rèn)為詩歌，或?qū)㈥P(guān)于青蛙的詩歌誤認(rèn)為關(guān)于貘的詩歌。

當(dāng)上下文達(dá)到GPT?4o極限的12.8萬Token時，GPT?4.1的表現(xiàn)明顯更優(yōu)；即使上下文長度擴(kuò)展到100萬Token，它依然能保持強(qiáng)勁的性能。

在OpenAI-MRCR中，模型必須回答一個問題，該問題涉及在分散注意力的內(nèi)容中區(qū)分2、4或8個用戶提示

Graphwalks

Graphwalks是一個用于評估多跳長上下文推理的數(shù)據(jù)集。

許多面向開發(fā)者的長上下文用例需要在上下文中進(jìn)行多次邏輯跳躍，例如在編寫代碼時在多個文件之間切換，或在回答復(fù)雜的法律問題時進(jìn)行文檔的交叉引用。

模型（甚至人類）理論上可以通過單次遍歷或通讀上下文來解決OpenAI-MRCR問題，但Graphwalks的設(shè)計旨在要求跨上下文多個位置進(jìn)行推理，并且無法通過順序處理來解決。

Graphwalks用一個由十六進(jìn)制哈希值組成的有向圖填充上下文窗口，然后要求模型從圖中的一個隨機(jī)節(jié)點(diǎn)開始執(zhí)行廣度優(yōu)先搜索（BFS）。接著，要求模型返回特定深度的所有節(jié)點(diǎn)。

GPT?4.1在此基準(zhǔn)測試中達(dá)到了61.7%的準(zhǔn)確率，與o1的性能持平，并輕松擊敗了GPT?4o。

在Graphwalks中，要求模型從一個大型圖中的隨機(jī)節(jié)點(diǎn)進(jìn)行廣度優(yōu)先搜索

視覺：圖像理解超越GPT-4o稱霸

GPT?4.1系列在圖像理解方面能力極強(qiáng)，特別是GPT?4.1 mini實(shí)現(xiàn)了顯著飛躍，在圖像基準(zhǔn)測試中其表現(xiàn)常常優(yōu)于GPT?4o。

在MMMU基準(zhǔn)測試中，模型需回答包含圖表、示意圖、地圖等內(nèi)容的問題

在MathVista?基準(zhǔn)測試中，模型需解決視覺數(shù)學(xué)任務(wù)

在CharXiv-Reasoning基準(zhǔn)測試中，模型需回答關(guān)于科學(xué)論文中圖表的問題

長上下文處理能力對于多模態(tài)用例（例如處理長視頻）也至關(guān)重要。

在Video-MME（長視頻，無字幕）基準(zhǔn)測試中，模型需要根據(jù)時長30-60分鐘且無字幕的視頻來回答多項選擇題。

這里，GPT?4.1再次達(dá)到了SOTA——得分72.0%，高于GPT?4o的65.3%。

在Video-MME中，模型根據(jù)30-60分鐘長且無字幕的視頻回答多項選擇題

完整結(jié)果

下文完整列出了在學(xué)術(shù)、編程、指令跟隨、長上下文、視覺及函數(shù)調(diào)用評估中的結(jié)果。

學(xué)術(shù)知識

編程

指令跟隨

長上下文

視覺

函數(shù)調(diào)用

華人領(lǐng)隊

Jiahui Yu

Jiahui Yu目前負(fù)責(zé)感知（Perception）團(tuán)隊，研究領(lǐng)域是深度學(xué)習(xí)和高性能計算。

此前，他曾在Google DeepMind共同負(fù)責(zé)Gemini多模態(tài)項目。

他在微軟亞研院、曠視科技、Adobe Research、Snap Research、Jump Trading、百度研究院、Nvidia Research和Google Brain都有過實(shí)習(xí)經(jīng)歷。

他在中國科技大學(xué)少年班獲得計算機(jī)學(xué)士學(xué)位。在伊利諾伊大學(xué)香檳分校獲得博士學(xué)位。

參考資料：

https://openai.com/index/gpt-4-1/

https://x.com/OpenAI

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.