OpenAI又放了個大招,正式在API中推出了全新的GPT-4.1系列模型!包括GPT-4.1、GPT-4.1 mini和GPT-4.1 nano三款新成員
引入首個Nano模型:GPT-4.1 nano是OpenAI迄今最快、最便宜的模型,雖然小,但能力不俗(MMLU 80.1%, GPQA 50.3%),同樣擁有100萬Token上下文,非常適合需要低延遲的場景
目前GPT-4.1系列僅通過API提供
簡單來說,這次更新的核心就是:代碼能力大幅提升、指令遵循重大改進、成本極其便宜!
劃重點
全面超越前輩:官方表示,新模型在各項能力上普遍優于之前的GPT-4o和GPT-4o mini,更重要的是,無論你需要多快的響應速度,這個新系列總能提供一個比以往模型在同等速度下性能更好的選項,全面提升了不同應用場景下的性能標桿,比如,需要極低延遲的,可以用 Nano,它比之前的低延遲模型性能更好;需要中等平衡的,可以用 Mini,它提供了新的更優平衡點;需要最高性能的,可以用 GPT-4.1,它在可接受延遲下性能更強
編程能力大幅躍升:在衡量真實世界軟件工程任務的SWE-bench Verified
基準上,GPT-4.1得分54.6%,比GPT-4o絕對提升了21.4%,甚至比GPT-4.5還高了26.6%!妥妥的編碼利器
GPT-4.1 在前端編碼方面也比 GPT-4o 有了顯著提升,能夠創建功能更強大、更美觀的 Web 應用例如,讓4.1制作一個單詞卡web應用
指令遵循更可靠:在評估復雜指令遵循能力的Scale's MultiChallenge
基準上,GPT-4.1得分38.3%,比GPT-4o絕對提升10.5%。這意味著它更能理解并執行你的復雜要求,尤其是在多輪對話中,能更好地追蹤上下文信息
IFEval得分也從81.0%提升到87.4%( 在 IFEval? 中 ,模型必須生成符合各種指令的答案 )
OpenAI內部開發的評估測試(困難提示遵循)
百萬級Token上下文窗口:全系列(包括mini和nano)都支持高達100萬Token的上下文窗口(之前GPT-4o是12.8萬),處理超長文檔、代碼庫不再是難題。而且,不是簡單加長,長文本理解能力也同步增強,"大海撈針"測試(Needle in a Haystack)在100萬Token范圍內各位置都能精準找回信息
視覺理解新SOTA:GPT-4.1 系列在圖像理解方面非常強大,尤其是 GPT-4.1 mini 代表了重大的飛躍
在 MMMU? 中 ,模型可以回答包含圖表、示意圖、地圖等復雜圖像問題
在數學視覺任務中也很強大
解決科學論文中的圖表能力表現:
在Video-MME
(無字幕長視頻理解)基準上,GPT-4.1取得了72.0%的成績,比GPT-4o提升了6.7%,創下新紀錄
知識更新:知識庫截止日期更新到了2024年6月
使用成本
模型
輸入 (每百萬Token)
緩存輸入 (每百萬Token)
輸出 (每百萬Token)
混合定價* (每百萬Token)
gpt-4.1
$2.00
$0.50
$8.00
$1.84gpt-4.1-mini
$0.40
$0.10
$1.60
$0.42gpt-4.1-nano
$0.10
$0.025
$0.40
$0.12
Nano 已經比deepseek R1的價格還要便宜了
*基于典型輸入/輸出和緩存比例估算
?GPT-4.1比GPT-4o中位數查詢便宜26%
?Nano模型價格極具競爭力
? 重復上下文的提示緩存(Prompt Caching)折扣提高到75%(原為50%)
? 長上下文請求不額外收費
?Batch API調用還有額外**50%**的折扣
除了SWE-bench,在Aider的polyglot diff
基準上,GPT-4.1分數是GPT-4o的兩倍多,甚至比GPT-4.5高8%,尤其擅長生成可靠的代碼差異(diff format),節省token和延遲
前端代碼生成能力顯著增強,更美觀實用,80%的情況下人類評分員更喜歡GPT-4.1生成的網站。
更少出現無關代碼編輯(內部評估從9%降至2%)
真實案例:Windsurf測試中得分比GPT-4o高60%;Qodo代碼評審測試中55%情況下優于其他模型
指令遵循 (Instruction Following):
在格式遵循(XML, YAML等)、否定指令、順序指令、內容要求、排序、避免過度自信等方面都有改進,尤其擅長處理困難提示
多輪對話能力增強,能更好地利用歷史信息。
注意:模型可能更“字面化”理解指令,建議提示詞寫得更明確、具體
真實案例:Blue J稅務場景準確率提升53%;Hex SQL生成改進近2倍,減少手動調試
長上下文 (Long Context):
100萬Token相當于8倍React完整代碼庫的大小
不僅能“大海撈針”,還能處理更復雜的長文本任務。OpenAI開源了兩個新評測集:OpenAI-MRCR
(多輪指代消解,測試在長文本中區分多個相似信息點的能力)
和Graphwalks
(多跳推理,模擬代碼庫跳轉或文檔交叉引用)。GPT-4.1在這些任務上表現優異
真實案例:Thomson Reuters在CoCounsel法律助手中,多文檔審閱準確率提升17%;Carlyle在處理復雜金融文檔(PDF, Excel)時,檢索性能提升50%,克服了以往模型的局限。
延遲:GPT-4.1在12.8萬Token輸入時,首個Token響應時間(p95)約15秒,百萬Token時可能達半分鐘;Nano在12.8萬輸入時,通常5秒內返回首個Token
OpenAI把4.1模型比作類星體,不得不說,這炒作能力還是很高的
另外,
ChatGPT中的GPT-4o會逐步融合這些改進,但不是直接升級到GPT-4.1
GPT-4.5 Preview即將下線:由于GPT-4.1在性能、成本、延遲上更有優勢,GPT-4.5 Preview(作為研究預覽版發布)將在2025年7月14日正式關閉,開發者有三個月過渡時間。OpenAI表示會將其優點(創意、寫作質量等)融入未來的API模型
個人感覺4.1這個模型更多的是在工程能力的細節處進行了非常扎實的改進
參考:
https://openai.com/index/gpt-4-1/
?星標AI寒武紀,好內容不錯過?
用你的贊和在看告訴我~
求贊
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.