99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

OpenAI發布GPT-4.1!全系支持百萬token上下文,超越4o且價格更低

0
分享至


今天凌晨,OpenAI 的新系列模型 GPT-4.1 如約而至。



該系列包含了三個模型,分別是GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,它們僅通過 API 調用,并已向所有開發者開放。

隨著該系列模型在很多關鍵功能上提供了類似或更強的性能,并且成本和延遲更低,因此OpenAI 將開始在 API 中棄用 GPT-4.5 預覽版。棄用時間為三個月后(2025 年 7 月 14 日),從而為開發者提供時間過渡。

OpenAI 表示,這三個模型的性能全面超越了 GPT-4o 和 GPT-4o mini,并在編程和指令遵循方面均有顯著提升。它們還擁有更大的上下文窗口 ——支持高達 100 萬個上下文 token,并且能夠通過改進的長上下文理解更好地利用這些上下文。知識截止日期已更新至 2024 年 6 月。

總的來說,GPT-4.1 在以下行業標準指標上表現出色:

  • 編程:GPT-4.1 在 SWE-bench Verified 測試中得分為 54.6%,比 GPT-4o 提升 21.4%,比 GPT-4.5 提升 26.6%,使其成為領先的編程模型。
  • 指令遵循:在 Scale 的 MultiChallenge 基準測試(衡量指令遵循能力的指標)中,GPT-4.1 得分為 38.3%,比 GPT-4o 提升了 10.5%。
  • 長上下文:在多模態長上下文理解基準測試 Video-MME 中,GPT-4.1 創下了新的最高紀錄 —— 在長篇無字幕測試中得分為 72.0%,比 GPT-4o 提升了 6.7%。

雖然基準測試成績非常不錯,但 OpenAI 在訓練這些模型時重點關注了實際效用。通過與開發者社區的密切合作和伙伴關系,OpenAI 針對開發者應用最相關的任務優化來這些模型。

為此,GPT-4.1 模型系列以更低的成本提供了卓越的性能。這些模型在延遲曲線的每個點上都實現了性能的提升。



GPT-4.1 mini 在小型模型性能上實現了顯著飛躍,甚至在多項基準測試中超越了 GPT-4o。該模型在智能評估方面與 GPT-4o 旗鼓相當甚至超越,同時將延遲降低了近一半,成本降低了 83%。

對于要求低延遲的任務,GPT-4.1 nano 是 OpenAI 目前速度最快、成本最低的模型。該模型擁有 100 萬 token 上下文窗口,在小規模下仍能提供卓越的性能,在 MMLU 測試中得分達 80.1%、在 GPQA 測試中得分達 50.3%、在 Aider 多語言編碼測試中得分達 9.8%,甚至高于 GPT-4o mini。該模型是分類或自動補全等任務的理想選擇。

在指令遵循可靠性和長上下文理解方面的改進,也使 GPT-4.1 模型在驅動智能體(即能夠代表用戶獨立完成任務的系統)方面更加高效。結合 Responses API 等原語,開發者現在可以構建在實際軟件工程中更有用、更可靠的智能體,從大型文檔中提取洞見,以最少的手動操作解決客戶請求,以及執行其他復雜任務。

同時,通過提升推理系統的效率,OpenAI 得以降低 GPT-4.1 系列的價格。GPT-4.1 的中等規模查詢成本比 GPT-4o 低 26%,而 GPT-4.1 nano 是 OpenAI 迄今為止最便宜、速度最快的模型。

對于重復傳遞相同上下文的查詢,OpenAI 將新系列模型的即時緩存折扣從之前的 50% 提升至 75%。此外,除了標準的每 token 成本外,OpenAI 還提供長上下文請求,并且無需額外付費。



OpenAI CEO 山姆?奧特曼表示,GPT-4.1 不僅基準測試成績優異,并且專注真實世界的實用性,應該會令開發者開心的。



看起來,OpenAI 實現了自家模型能力上的「4.10﹥4.5」。



圖源:https://x.com/stevenheidel/status/1911833398588719274

編程

GPT-4.1 在各種編碼任務上都顯著優于 GPT-4o,包括智能體解決編碼任務、前端編程、減少無關編輯、可靠遵循 diff 格式、確保工具使用一致性等任務。

在衡量真實世界軟件工程技能的 SWE-bench Verified 測試中,GPT-4.1 完成了 54.6% 的任務,而 GPT-4o(2024-11-20)完成了 33.2%。這反映了該模型在探索代碼庫、完成任務以及生成可運行和通過測試的代碼方面的能力提升。



對于需要編輯大型文件的 API 開發者來說,GPT-4.1 在處理各種格式的代碼 diff 時更可靠。在 Aider 的多語言差異基準測試中,GPT-4.1 的得分是 GPT-4o 的兩倍多,甚至比 GPT-4.5 高出 8%。這項評估既衡量了跨多種編程語言的編碼能力,也衡量了模型在整體和 diff 格式下生成更改的能力。

OpenAI 專門訓練了 GPT-4.1,使其能夠更可靠地遵循 diff 格式,這使得開發者只需輸出更改的行,而無需重寫整個文件,節省成本和延遲。同時,對于喜歡重寫整個文件的開發者,OpenAI 將 GPT-4.1 的輸出 token 限制增加到 32,768 個 token(高于 GPT-4o 的 16,384 個 token)。OpenAI 還建議使用預測輸出來減少完整文件重寫的延遲。



GPT-4.1 在前端編程方面也較 GPT-4o 有了顯著提升,能夠創建功能更強大、更美觀的 Web 應用。在 head-to-head 對比中,付費人工評分員 80% 的評分結果顯示,GPT-4.1 的網站比 GPT-4o 的網站更受歡迎。



除了上述基準測試之外,GPT-4.1 在遵循格式方面表現更佳,可靠性更高,并且減少了無關編輯的頻率。在 OpenAI 內部評估中,代碼中的無關編輯從 GPT-4o 的 9% 下降到了 GPT-4.1 的 2%。

指令遵循

GPT-4.1 能夠更可靠地遵循指令,并在各種指令遵循評估中實現了顯著的改進。OpenAI 開發了一個內部指令遵循評估系統,用于跟蹤模型在多個維度和幾個關鍵指令執行類別中的表現,包括:

  • 格式遵循。提供指令,指定模型響應的自定義格式,例如 XML、YAML、Markdown 等。
  • 負面指令。指定模型應避免的行為,例如:「不要要求用戶聯系支持人員」。
  • 有序指令。提供一組模型必須按給定順序遵循的指令,例如:「首先詢問用戶的姓名,然后詢問他們的電子郵件地址」。
  • 內容要求。輸出包含特定信息的內容,例如:「編寫營養計劃時,務必包含蛋白質含量」。
  • 排序。以特定方式對輸出進行排序,例如:「按人口數量對響應進行排序」。
  • 過度自信。指示模型在請求的信息不可用或請求不屬于給定類別時回答「我不知道」或類似的內容,例如:「如果您不知道答案,請提供支持聯系電子郵件地址」。

這些類別是根據開發者的反饋得出的,表明了哪些指令遵循對他們來說最相關且最重要。在每個類別中,OpenAI 將其分為簡單、中等和困難提示。GPT-4.1 在困難提示方面的表現尤其優于 GPT-4o。



多輪指令遵循對許多開發者來說至關重要。對于模型來說,在對話中保持連貫性并跟蹤用戶之前輸入的內容至關重要。GPT-4.1 能夠更好地從對話中的過往消息中識別信息,從而實現了更自然的對話。Scale 的 MultiChallenge基準測試是衡量這一能力的有效指標,GPT-4.1 的表現比 GPT-4o 提高了 10.5%。



GPT-4.1 在 IFEval 上也得到了 87.4%,而 GPT-4o 的得分為 81.0%。IFEval 使用帶有可驗證指令的提示,例如指定內容長度或避免使用某些術語或格式。



更佳的指令遵循能力使現有應用程序更加可靠,并支持此前受可靠性低下限制的新應用程序。早期測試人員指出,GPT-4.1 可以更加直觀,因此 OpenAI 建議在提示中更加明確和具體。

長上下文

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 最多可處理 100 萬個上下文 token,而之前的 GPT-4o 模型最多可處理 12.8 萬個。100 萬個 token 相當于 8 個完整的 React 代碼庫,因此長上下文非常適合處理大型代碼庫或大量長文檔。

GPT-4.1 能夠可靠地處理 100 萬 token 上下文長度的信息,并在注意相關文本和忽略長短上下文干擾項方面比 GPT-4o 更加可靠。長上下文理解是法律、編程、客戶支持以及許多其他領域應用的關鍵能力。



OpenAI 演示了 GPT-4.1 檢索位于上下文窗口內各個點的隱藏小信息(needle)的能力。GPT-4.1 能夠持續準確地檢索所有位置和所有上下文長度的 needle,最大檢索量可達 100 萬個 token。無論這些 token 在輸入中的位置如何,GPT-4.1 都能有效地提取與當前任務相關的細節。

然而,現實世界中很少有任務像檢索一個顯而易見的「needle 」答案那樣簡單。OpenAI 發現用戶經常需要模型檢索和理解多條信息,并理解這些信息之間的相互關聯。為了展示這一能力,OpenAI 開源了一項新的評估:OpenAI-MRCR(多輪共指)。

OpenAI-MRCR 測試模型識別并消除上下文中隱藏的多個「needle 」的能力。評估包括用戶和助手之間的多輪合成對話,用戶要求助手撰寫一篇關于某個主題的文章,例如「寫一首關于貘的詩」或「寫一篇關于巖石的博客文章」,接著會在整個上下文中插入兩個、四個或八個相同的請求,最后模型必須檢索與特定實例對應的響應(例如「給我第三首關于貘的詩」)。

挑戰在于這些請求與上下文其余部分的相似性,模型很容易被細微的差異誤導,例如關于貘的短篇故事而不是詩歌,或者關于青蛙的詩歌而不是貘。OpenAI 發現,GPT-4.1 在上下文長度高達 128K 個 token 時的表現優于 GPT-4o,并且即使長度高達 100 萬個 token 時也能保持強勁的性能。



OpenAI 還發布了Graphwalks?,這是一個用于評估多跳長上下文推理的數據集。許多開發者在長上下文用例中需要在上下文中進行多次邏輯跳躍,例如在編寫代碼時在多個文件之間跳轉,或在回答復雜的法律問題時交叉引用文檔。

理論上,模型(甚至人類)可以通過一遍遍閱讀提示詞來解決 OpenAI-MRCR 問題,但 Graphwalks 的設計要求在上下文中的多個位置進行推理,并且無法按順序求解。

Graphwalks 會用由十六進制哈希值組成的有向圖填充上下文窗口,然后要求模型從圖中的隨機節點開始執行廣度優先搜索 (BFS)。然后要求它返回一定深度的所有節點。結果顯示,GPT-4.1 在此基準測試中達到了 61.7% 的準確率,與 o1 的性能相當,并輕松擊敗了 GPT-4o。



視覺

GPT-4.1 系列模型在圖像理解方面同樣非常強大,尤其是 GPT-4.1 mini 實現了重大的飛躍,在圖像基準測試中經常擊敗 GPT-4o。

以下為 MMMU(回答包含圖表、圖解、地圖等的問題)、MathVista?(解決視覺數學問題)、CharXiv-Reasoning(回答科學論文中關于圖表的問題)等基準上的表現對比。







長上下文性能對于多模態用例(例如處理長視頻)也至關重要。在 Video-MME(長視頻無字幕)中,模型基于 30-60 分鐘長的無字幕視頻回答多項選擇題。GPT-4.1 達到了最佳性能,得分為 72.0%,高于 GPT-4o 的 65.3%。



更多測試指標請參考 OpenAI 原博客。

博客地址:https://openai.com/index/gpt-4-1/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
巴特勒:只要有我在&任何球隊都有機會 有庫里也是這樣的

巴特勒:只要有我在&任何球隊都有機會 有庫里也是這樣的

直播吧
2025-04-16 13:44:08
言短意長|“市委主要負責人”是誰

言短意長|“市委主要負責人”是誰

澎湃新聞
2025-04-15 11:46:27
停止接收波音客機:不只是停單,更是亮劍!

停止接收波音客機:不只是停單,更是亮劍!

林子說事
2025-04-16 10:10:04
連丟3球,2-3被逆轉!歐冠大熱門輸球晉級,提前進4強靜候阿森納

連丟3球,2-3被逆轉!歐冠大熱門輸球晉級,提前進4強靜候阿森納

侃球熊弟
2025-04-16 04:55:48
前力捧小花超高叉透視裝現身董事局典禮,美貌大進化臉部緊到發光

前力捧小花超高叉透視裝現身董事局典禮,美貌大進化臉部緊到發光

粵睇先生
2025-04-15 05:03:06
明晚4月17日油價大跌,今年最大下跌,油價跌回“6元時代”創新低

明晚4月17日油價大跌,今年最大下跌,油價跌回“6元時代”創新低

油價早知道
2025-04-16 09:26:23
大俄又遇難題:想用北方四島換遼寧艦,嚇得日本直哆嗦

大俄又遇難題:想用北方四島換遼寧艦,嚇得日本直哆嗦

奇點使者
2025-03-02 08:40:08
10人排隊9人托,央媒為民除害,怒揭大鍋鹵菜騙局,結局大快人心

10人排隊9人托,央媒為民除害,怒揭大鍋鹵菜騙局,結局大快人心

博學老K雜談
2025-04-11 18:35:03
澳洲36歲年輕爸爸上周自殺!他自殺的原因,很多人正在經歷!

澳洲36歲年輕爸爸上周自殺!他自殺的原因,很多人正在經歷!

澳洲紅領巾
2025-04-15 12:56:38
劉滿倉被逮捕

劉滿倉被逮捕

觀察者網
2025-04-16 10:20:04
哈登談快船單挑高手多:G2G3后戰術不再重要 關鍵就在1V1誰能得分

哈登談快船單挑高手多:G2G3后戰術不再重要 關鍵就在1V1誰能得分

直播吧
2025-04-16 09:38:15
“巴鐵”訪華,胃口越來越大,張口就要中國轉讓五代機部分技術

“巴鐵”訪華,胃口越來越大,張口就要中國轉讓五代機部分技術

忠誠TALK
2025-04-15 17:53:57
舒淇凌晨曬與馮德倫合影,慶祝自己48歲生日,許了三個愿望!

舒淇凌晨曬與馮德倫合影,慶祝自己48歲生日,許了三個愿望!

檸檬有娛樂
2025-04-16 08:55:54
4月第二周新勢力銷量榜:“大降價”的蔚來暴漲,問界大降

4月第二周新勢力銷量榜:“大降價”的蔚來暴漲,問界大降

第一電動網
2025-04-16 10:26:11
新一輪降雨連下3波,階段出現暴雨、強對流,多地升溫超30度再變

新一輪降雨連下3波,階段出現暴雨、強對流,多地升溫超30度再變

環球科學貓
2025-04-16 09:17:31
性感少婦私房照拍攝 攝影師竟抱她入更衣室

性感少婦私房照拍攝 攝影師竟抱她入更衣室

四象八卦
2025-04-16 11:12:57
一天接3大噩耗,特朗普不吭聲,美財長警告中國:這可不是鬧著玩

一天接3大噩耗,特朗普不吭聲,美財長警告中國:這可不是鬧著玩

小鬼頭體育
2025-04-15 20:03:46
總冠軍賠率出爐:雷霆綠軍無懸念 那勇士憑啥進前五 快船又不被待見

總冠軍賠率出爐:雷霆綠軍無懸念 那勇士憑啥進前五 快船又不被待見

小李子體育
2025-04-16 09:34:45
貧窮限制了我的想象!男子花155萬買邁巴赫跑滴滴,能回本嗎?

貧窮限制了我的想象!男子花155萬買邁巴赫跑滴滴,能回本嗎?

二月侃事
2025-04-16 08:53:47
中國打了漂亮一仗!中美斗法關鍵時刻,另一戰線美國慘敗而歸

中國打了漂亮一仗!中美斗法關鍵時刻,另一戰線美國慘敗而歸

華人星光
2025-04-16 12:34:42
2025-04-16 14:11:00
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10363文章數 142295關注度
往期回顧 全部

科技要聞

Model 2被斃內幕:馬斯克嫌無聊 高管勸不住

頭條要聞

媒體:新加坡突然提前大選 存在三大變數

頭條要聞

媒體:新加坡突然提前大選 存在三大變數

體育要聞

諾坎普奇跡的兩位當事人,差點靈魂互換

娛樂要聞

楊冪女兒小糯米長大了,神似媽媽!

財經要聞

一季度GDP同比增長5.4%!

汽車要聞

又帥又快超實用 極氪007GT獵裝車才是完美的車?

態度原創

房產
教育
時尚
數碼
公開課

房產要聞

中海|南海·叁號院,以海岸美學重塑海口灣生活向往

教育要聞

2025屆成都七中三診模擬試卷來了

沒有好腰,就不能穿喇叭褲?

數碼要聞

影馳 RTX 5090 D HOF OC Lab XOC 顯卡外觀公布:雙 12V-2×6

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 错那县| 宁陵县| 湟源县| 米脂县| 海南省| 汽车| 宜春市| 思南县| 江北区| 临夏市| 临猗县| 溧阳市| 汉阴县| 贡嘎县| 晋宁县| 安庆市| 新田县| 巴塘县| 永德县| 翁牛特旗| 喀喇沁旗| 罗源县| 广西| 河间市| 呈贡县| 铜梁县| 北海市| 宁阳县| 奇台县| 固阳县| 安宁市| 龙井市| 成安县| 商南县| 龙游县| 松阳县| 栖霞市| 宁波市| 铜陵市| 明光市| 平遥县|