今天凌晨,OpenAI 的新系列模型 GPT-4.1 如約而至。
該系列包含了三個模型,分別是GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,它們僅通過 API 調用,并已向所有開發者開放。
隨著該系列模型在很多關鍵功能上提供了類似或更強的性能,并且成本和延遲更低,因此OpenAI 將開始在 API 中棄用 GPT-4.5 預覽版。棄用時間為三個月后(2025 年 7 月 14 日),從而為開發者提供時間過渡。
OpenAI 表示,這三個模型的性能全面超越了 GPT-4o 和 GPT-4o mini,并在編程和指令遵循方面均有顯著提升。它們還擁有更大的上下文窗口 ——支持高達 100 萬個上下文 token,并且能夠通過改進的長上下文理解更好地利用這些上下文。知識截止日期已更新至 2024 年 6 月。
總的來說,GPT-4.1 在以下行業標準指標上表現出色:
- 編程:GPT-4.1 在 SWE-bench Verified 測試中得分為 54.6%,比 GPT-4o 提升 21.4%,比 GPT-4.5 提升 26.6%,使其成為領先的編程模型。
- 指令遵循:在 Scale 的 MultiChallenge 基準測試(衡量指令遵循能力的指標)中,GPT-4.1 得分為 38.3%,比 GPT-4o 提升了 10.5%。
- 長上下文:在多模態長上下文理解基準測試 Video-MME 中,GPT-4.1 創下了新的最高紀錄 —— 在長篇無字幕測試中得分為 72.0%,比 GPT-4o 提升了 6.7%。
雖然基準測試成績非常不錯,但 OpenAI 在訓練這些模型時重點關注了實際效用。通過與開發者社區的密切合作和伙伴關系,OpenAI 針對開發者應用最相關的任務優化來這些模型。
為此,GPT-4.1 模型系列以更低的成本提供了卓越的性能。這些模型在延遲曲線的每個點上都實現了性能的提升。
GPT-4.1 mini 在小型模型性能上實現了顯著飛躍,甚至在多項基準測試中超越了 GPT-4o。該模型在智能評估方面與 GPT-4o 旗鼓相當甚至超越,同時將延遲降低了近一半,成本降低了 83%。
對于要求低延遲的任務,GPT-4.1 nano 是 OpenAI 目前速度最快、成本最低的模型。該模型擁有 100 萬 token 上下文窗口,在小規模下仍能提供卓越的性能,在 MMLU 測試中得分達 80.1%、在 GPQA 測試中得分達 50.3%、在 Aider 多語言編碼測試中得分達 9.8%,甚至高于 GPT-4o mini。該模型是分類或自動補全等任務的理想選擇。
在指令遵循可靠性和長上下文理解方面的改進,也使 GPT-4.1 模型在驅動智能體(即能夠代表用戶獨立完成任務的系統)方面更加高效。結合 Responses API 等原語,開發者現在可以構建在實際軟件工程中更有用、更可靠的智能體,從大型文檔中提取洞見,以最少的手動操作解決客戶請求,以及執行其他復雜任務。
同時,通過提升推理系統的效率,OpenAI 得以降低 GPT-4.1 系列的價格。GPT-4.1 的中等規模查詢成本比 GPT-4o 低 26%,而 GPT-4.1 nano 是 OpenAI 迄今為止最便宜、速度最快的模型。
對于重復傳遞相同上下文的查詢,OpenAI 將新系列模型的即時緩存折扣從之前的 50% 提升至 75%。此外,除了標準的每 token 成本外,OpenAI 還提供長上下文請求,并且無需額外付費。
OpenAI CEO 山姆?奧特曼表示,GPT-4.1 不僅基準測試成績優異,并且專注真實世界的實用性,應該會令開發者開心的。
看起來,OpenAI 實現了自家模型能力上的「4.10﹥4.5」。
圖源:https://x.com/stevenheidel/status/1911833398588719274
編程
GPT-4.1 在各種編碼任務上都顯著優于 GPT-4o,包括智能體解決編碼任務、前端編程、減少無關編輯、可靠遵循 diff 格式、確保工具使用一致性等任務。
在衡量真實世界軟件工程技能的 SWE-bench Verified 測試中,GPT-4.1 完成了 54.6% 的任務,而 GPT-4o(2024-11-20)完成了 33.2%。這反映了該模型在探索代碼庫、完成任務以及生成可運行和通過測試的代碼方面的能力提升。
對于需要編輯大型文件的 API 開發者來說,GPT-4.1 在處理各種格式的代碼 diff 時更可靠。在 Aider 的多語言差異基準測試中,GPT-4.1 的得分是 GPT-4o 的兩倍多,甚至比 GPT-4.5 高出 8%。這項評估既衡量了跨多種編程語言的編碼能力,也衡量了模型在整體和 diff 格式下生成更改的能力。
OpenAI 專門訓練了 GPT-4.1,使其能夠更可靠地遵循 diff 格式,這使得開發者只需輸出更改的行,而無需重寫整個文件,節省成本和延遲。同時,對于喜歡重寫整個文件的開發者,OpenAI 將 GPT-4.1 的輸出 token 限制增加到 32,768 個 token(高于 GPT-4o 的 16,384 個 token)。OpenAI 還建議使用預測輸出來減少完整文件重寫的延遲。
GPT-4.1 在前端編程方面也較 GPT-4o 有了顯著提升,能夠創建功能更強大、更美觀的 Web 應用。在 head-to-head 對比中,付費人工評分員 80% 的評分結果顯示,GPT-4.1 的網站比 GPT-4o 的網站更受歡迎。
除了上述基準測試之外,GPT-4.1 在遵循格式方面表現更佳,可靠性更高,并且減少了無關編輯的頻率。在 OpenAI 內部評估中,代碼中的無關編輯從 GPT-4o 的 9% 下降到了 GPT-4.1 的 2%。
指令遵循
GPT-4.1 能夠更可靠地遵循指令,并在各種指令遵循評估中實現了顯著的改進。OpenAI 開發了一個內部指令遵循評估系統,用于跟蹤模型在多個維度和幾個關鍵指令執行類別中的表現,包括:
- 格式遵循。提供指令,指定模型響應的自定義格式,例如 XML、YAML、Markdown 等。
- 負面指令。指定模型應避免的行為,例如:「不要要求用戶聯系支持人員」。
- 有序指令。提供一組模型必須按給定順序遵循的指令,例如:「首先詢問用戶的姓名,然后詢問他們的電子郵件地址」。
- 內容要求。輸出包含特定信息的內容,例如:「編寫營養計劃時,務必包含蛋白質含量」。
- 排序。以特定方式對輸出進行排序,例如:「按人口數量對響應進行排序」。
- 過度自信。指示模型在請求的信息不可用或請求不屬于給定類別時回答「我不知道」或類似的內容,例如:「如果您不知道答案,請提供支持聯系電子郵件地址」。
這些類別是根據開發者的反饋得出的,表明了哪些指令遵循對他們來說最相關且最重要。在每個類別中,OpenAI 將其分為簡單、中等和困難提示。GPT-4.1 在困難提示方面的表現尤其優于 GPT-4o。
多輪指令遵循對許多開發者來說至關重要。對于模型來說,在對話中保持連貫性并跟蹤用戶之前輸入的內容至關重要。GPT-4.1 能夠更好地從對話中的過往消息中識別信息,從而實現了更自然的對話。Scale 的 MultiChallenge基準測試是衡量這一能力的有效指標,GPT-4.1 的表現比 GPT-4o 提高了 10.5%。
GPT-4.1 在 IFEval 上也得到了 87.4%,而 GPT-4o 的得分為 81.0%。IFEval 使用帶有可驗證指令的提示,例如指定內容長度或避免使用某些術語或格式。
更佳的指令遵循能力使現有應用程序更加可靠,并支持此前受可靠性低下限制的新應用程序。早期測試人員指出,GPT-4.1 可以更加直觀,因此 OpenAI 建議在提示中更加明確和具體。
長上下文
GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 最多可處理 100 萬個上下文 token,而之前的 GPT-4o 模型最多可處理 12.8 萬個。100 萬個 token 相當于 8 個完整的 React 代碼庫,因此長上下文非常適合處理大型代碼庫或大量長文檔。
GPT-4.1 能夠可靠地處理 100 萬 token 上下文長度的信息,并在注意相關文本和忽略長短上下文干擾項方面比 GPT-4o 更加可靠。長上下文理解是法律、編程、客戶支持以及許多其他領域應用的關鍵能力。
OpenAI 演示了 GPT-4.1 檢索位于上下文窗口內各個點的隱藏小信息(needle)的能力。GPT-4.1 能夠持續準確地檢索所有位置和所有上下文長度的 needle,最大檢索量可達 100 萬個 token。無論這些 token 在輸入中的位置如何,GPT-4.1 都能有效地提取與當前任務相關的細節。
然而,現實世界中很少有任務像檢索一個顯而易見的「needle 」答案那樣簡單。OpenAI 發現用戶經常需要模型檢索和理解多條信息,并理解這些信息之間的相互關聯。為了展示這一能力,OpenAI 開源了一項新的評估:OpenAI-MRCR(多輪共指)。
OpenAI-MRCR 測試模型識別并消除上下文中隱藏的多個「needle 」的能力。評估包括用戶和助手之間的多輪合成對話,用戶要求助手撰寫一篇關于某個主題的文章,例如「寫一首關于貘的詩」或「寫一篇關于巖石的博客文章」,接著會在整個上下文中插入兩個、四個或八個相同的請求,最后模型必須檢索與特定實例對應的響應(例如「給我第三首關于貘的詩」)。
挑戰在于這些請求與上下文其余部分的相似性,模型很容易被細微的差異誤導,例如關于貘的短篇故事而不是詩歌,或者關于青蛙的詩歌而不是貘。OpenAI 發現,GPT-4.1 在上下文長度高達 128K 個 token 時的表現優于 GPT-4o,并且即使長度高達 100 萬個 token 時也能保持強勁的性能。
OpenAI 還發布了Graphwalks?,這是一個用于評估多跳長上下文推理的數據集。許多開發者在長上下文用例中需要在上下文中進行多次邏輯跳躍,例如在編寫代碼時在多個文件之間跳轉,或在回答復雜的法律問題時交叉引用文檔。
理論上,模型(甚至人類)可以通過一遍遍閱讀提示詞來解決 OpenAI-MRCR 問題,但 Graphwalks 的設計要求在上下文中的多個位置進行推理,并且無法按順序求解。
Graphwalks 會用由十六進制哈希值組成的有向圖填充上下文窗口,然后要求模型從圖中的隨機節點開始執行廣度優先搜索 (BFS)。然后要求它返回一定深度的所有節點。結果顯示,GPT-4.1 在此基準測試中達到了 61.7% 的準確率,與 o1 的性能相當,并輕松擊敗了 GPT-4o。
視覺
GPT-4.1 系列模型在圖像理解方面同樣非常強大,尤其是 GPT-4.1 mini 實現了重大的飛躍,在圖像基準測試中經常擊敗 GPT-4o。
以下為 MMMU(回答包含圖表、圖解、地圖等的問題)、MathVista?(解決視覺數學問題)、CharXiv-Reasoning(回答科學論文中關于圖表的問題)等基準上的表現對比。
長上下文性能對于多模態用例(例如處理長視頻)也至關重要。在 Video-MME(長視頻無字幕)中,模型基于 30-60 分鐘長的無字幕視頻回答多項選擇題。GPT-4.1 達到了最佳性能,得分為 72.0%,高于 GPT-4o 的 65.3%。
更多測試指標請參考 OpenAI 原博客。
博客地址:https://openai.com/index/gpt-4-1/
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.