網易首頁 > 網易號 > 正文申請入駐

OpenAI推出首個Nano模型：GPT-4.1 ，百萬上下文、代碼能力大幅超越GPT4.5

2025-04-15 03:03:08　來源: AI寒武紀

江蘇舉報

分享至

OpenAI又放了個大招，正式在API中推出了全新的GPT-4.1系列模型！包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano三款新成員

引入首個Nano模型：GPT-4.1 nano是OpenAI迄今最快、最便宜的模型，雖然小，但能力不俗（MMLU 80.1%, GPQA 50.3%），同樣擁有100萬Token上下文，非常適合需要低延遲的場景

目前GPT-4.1系列僅通過API提供

簡單來說，這次更新的核心就是：代碼能力大幅提升、指令遵循重大改進、成本極其便宜！

劃重點

全面超越前輩：官方表示，新模型在各項能力上普遍優于之前的GPT-4o和GPT-4o mini，更重要的是，無論你需要多快的響應速度，這個新系列總能提供一個比以往模型在同等速度下性能更好的選項，全面提升了不同應用場景下的性能標桿，比如，需要極低延遲的，可以用 Nano，它比之前的低延遲模型性能更好；需要中等平衡的，可以用 Mini，它提供了新的更優平衡點；需要最高性能的，可以用 GPT-4.1，它在可接受延遲下性能更強

編程能力大幅躍升：在衡量真實世界軟件工程任務的SWE-bench Verified基準上，GPT-4.1得分54.6%，比GPT-4o絕對提升了21.4%，甚至比GPT-4.5還高了26.6%！妥妥的編碼利器

GPT-4.1 在前端編碼方面也比 GPT-4o 有了顯著提升，能夠創建功能更強大、更美觀的 Web 應用例如，讓4.1制作一個單詞卡web應用

指令遵循更可靠：在評估復雜指令遵循能力的Scale's MultiChallenge基準上，GPT-4.1得分38.3%，比GPT-4o絕對提升10.5%。這意味著它更能理解并執行你的復雜要求，尤其是在多輪對話中，能更好地追蹤上下文信息

IFEval得分也從81.0%提升到87.4%（在 IFEval? 中，模型必須生成符合各種指令的答案）

OpenAI內部開發的評估測試（困難提示遵循）

百萬級Token上下文窗口：全系列（包括mini和nano）都支持高達100萬Token的上下文窗口（之前GPT-4o是12.8萬），處理超長文檔、代碼庫不再是難題。而且，不是簡單加長，長文本理解能力也同步增強，"大海撈針"測試（Needle in a Haystack）在100萬Token范圍內各位置都能精準找回信息

視覺理解新SOTA：GPT-4.1 系列在圖像理解方面非常強大，尤其是 GPT-4.1 mini 代表了重大的飛躍

在 MMMU? 中，模型可以回答包含圖表、示意圖、地圖等復雜圖像問題

在數學視覺任務中也很強大

解決科學論文中的圖表能力表現：

在Video-MME（無字幕長視頻理解）基準上，GPT-4.1取得了72.0%的成績，比GPT-4o提升了6.7%，創下新紀錄

知識更新：知識庫截止日期更新到了2024年6月

使用成本

模型

輸入 (每百萬Token)

緩存輸入 (每百萬Token)

輸出 (每百萬Token)

混合定價* (每百萬Token)

gpt-4.1

$2.00

$0.50

$8.00

$1.84gpt-4.1-mini

$0.40

$0.10

$1.60

$0.42gpt-4.1-nano

$0.10

$0.025

$0.40

$0.12

Nano 已經比deepseek R1的價格還要便宜了

*基于典型輸入/輸出和緩存比例估算

?GPT-4.1比GPT-4o中位數查詢便宜26%
?Nano模型價格極具競爭力
? 重復上下文的提示緩存（Prompt Caching）折扣提高到75%（原為50%）
? 長上下文請求不額外收費
?Batch API調用還有額外**50%**的折扣

一些細節代碼 (Coding):

除了SWE-bench，在Aider的polyglot diff基準上，GPT-4.1分數是GPT-4o的兩倍多，甚至比GPT-4.5高8%，尤其擅長生成可靠的代碼差異（diff format），節省token和延遲

前端代碼生成能力顯著增強，更美觀實用，80%的情況下人類評分員更喜歡GPT-4.1生成的網站。

更少出現無關代碼編輯（內部評估從9%降至2%）

真實案例：Windsurf測試中得分比GPT-4o高60%；Qodo代碼評審測試中55%情況下優于其他模型

指令遵循 (Instruction Following):

在格式遵循（XML, YAML等）、否定指令、順序指令、內容要求、排序、避免過度自信等方面都有改進，尤其擅長處理困難提示

多輪對話能力增強，能更好地利用歷史信息。

注意：模型可能更“字面化”理解指令，建議提示詞寫得更明確、具體

真實案例：Blue J稅務場景準確率提升53%；Hex SQL生成改進近2倍，減少手動調試

長上下文 (Long Context):

100萬Token相當于8倍React完整代碼庫的大小

不僅能“大海撈針”，還能處理更復雜的長文本任務。OpenAI開源了兩個新評測集：OpenAI-MRCR（多輪指代消解，測試在長文本中區分多個相似信息點的能力）

和Graphwalks（多跳推理，模擬代碼庫跳轉或文檔交叉引用）。GPT-4.1在這些任務上表現優異

真實案例：Thomson Reuters在CoCounsel法律助手中，多文檔審閱準確率提升17%；Carlyle在處理復雜金融文檔（PDF, Excel）時，檢索性能提升50%，克服了以往模型的局限。

延遲：GPT-4.1在12.8萬Token輸入時，首個Token響應時間（p95）約15秒，百萬Token時可能達半分鐘；Nano在12.8萬輸入時，通常5秒內返回首個Token

OpenAI把4.1模型比作類星體，不得不說，這炒作能力還是很高的

另外，

ChatGPT中的GPT-4o會逐步融合這些改進，但不是直接升級到GPT-4.1

GPT-4.5 Preview即將下線：由于GPT-4.1在性能、成本、延遲上更有優勢，GPT-4.5 Preview（作為研究預覽版發布）將在2025年7月14日正式關閉，開發者有三個月過渡時間。OpenAI表示會將其優點（創意、寫作質量等）融入未來的API模型

個人感覺4.1這個模型更多的是在工程能力的細節處進行了非常扎實的改進

參考：

https://openai.com/index/gpt-4-1/

?星標AI寒武紀，好內容不錯過?

用你的贊和在看告訴我～

求贊

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.