99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

GPT-4.1深夜登場,中科大校友領隊!百萬上下文編程驚人,GPT-4.5三個月后淘汰

0
分享至


新智元報道

編輯:編輯部 HNZ

【新智元導讀】OpenAI重磅發布的GPT-4.1系列模型,帶來了編程、指令跟隨和長上下文處理能力的全面飛躍!由中科大校友Jiahui Yu領銜的團隊打造。與此同時,備受爭議的GPT-4.5將在三個月后停用,GPT-4.1 nano則以最小、最快、最便宜的姿態強勢登場。

就在剛剛,OpenAI專為開發者重磅推出了三款全新模型:GPT-4.1、GPT-4.1 miniGPT-4.1 nano!

它們均擁有最高100萬Token的超大上下文窗口,在代碼、指令跟隨等核心能力上全面超越GPT-4o及GPT-4o mini,并且知識截止日期也已更新至2024年6月。

值得注意的是,GPT?4.1系列將僅通過API提供,并已向所有開發者開放。


GPT-4.1 nano是OpenAI首個nano模型,也是他們目前可用模型中最快、最便宜的一款。

別看它體積不大,性能一點不弱:MMLU得分80.1%,GPQA得分50.3%,Aider多語言編碼基準9.8%,完勝GPT-4o mini!

GPT-4.1 mini在多項基準測試超越GPT-4o,速度快一倍的同時成本驟降83%,效率拉滿!

作為其中旗艦模型的GPT?4.1更是強的可怕:

  • 最強編碼:GPT?4.1在SWE-bench Verified上的得分為54.6%,比GPT?4o提高了21.4%,比GPT?4.5提高了26.6%。

  • 指令跟隨:在Scale的MultiChallenge?上,GPT?4.1的得分為38.3%,比GPT?4o提高了10.5%。

  • 長上下文:在Video-MME上,GPT?4.1取得了新的SOTA——在長視頻、無字幕類別中得分72.0%,比GPT?4o提高了6.7%。


自此,謎語人奧特曼口中的「quasar」也終于得到了確認——就是GPT-4.1!


而隨著能力更強、成本延遲更低的GPT-4.1的推出,一直以來都飽受爭議的GPT?4.5 Preview也將在3個月后(7月14日)從API中下架。

對此OpenAI表示,GPT?4.5原本就是作為研究預覽版推出的,目的是探索和實驗一個大規模、計算密集型的LLM。

雖然模型即將停用,但OpenAI會把開發者喜愛的創造力、寫作質量、幽默感等特點,繼續融入未來的API模型中。

現場Demo實測

首先,當然就是編程能力。

在這個demo中,研究者要求GPT-4.1做一個在線抽認卡網頁應用,提出了許多相當具體的要求。比如點擊抽認卡時,要出現3D動畫。

對于這個任務,GPT-4o完成得是這樣的。


相比之下,GPT-4.1就完成得十分流暢了,無論是在顏色,還是在3D動畫上。

注意,從頭到尾,只需要一個prompt,就能得到一個完整的應用程序!


下面是一個OpenAI的Playground,在演示中,研究者要求GPT-4.1生成一個單一的Python文件代碼應用,在右側模擬用戶查詢,這個網站可以接收大型文本文件、回答相關問題。


可以看到,模型產生了數百行代碼。研究者將這些代碼實際運行后,發現效果出人意料的好。

僅僅一個提示,它就創建了這個網站。


接下來,是大海撈針的展示。

研究者上傳了文件——NASA自1995年8月以來的服務器請求響應日志文件,

在這個文件中,左側是向NASA服務器發出請求的客戶端名稱,這是一個包含大量日志行的長文件,左側大概有450000個token的內容。


在OpenAI以前的模型上,是不可能使用這個文件的。

這里,研究者偷偷添加了一行實際上不是HTTP請求響應的內容,這支堆棧中的小「針」,很難發覺。

最終,GPT-4.1成功了!


研究者經過確認,這一行的確在他們上傳的日志文件中。


OpenAI特意強調,在實踐中非常重要的一點,就是API開發者是如何提示模型的。

在這個任務中,GPT-4.1的任務是日志分析員助手。研究者告訴它輸入的數據以及用戶的查詢該如何構建。

接下來還有一些規則,比如模型只用回答日志數據內容相關的問題,問題應該始終在查詢標簽內格式化,如果其中一項不真實請回復錯誤消息等等。


接下來,就是GPT-4.1展示的時候了。

研究者詢問:fnal.gov發出了多少請求?模型拒絕了,因為它沒有在查詢標簽內格式化。

而如果在查詢標簽內發出同樣的請求,它就可以找到日志文件中的兩個引用了。


這樣,開發者就可以明確讓模型做到「不做某事」,這是開發過程中一個極其有意義的關鍵細節——遵循負面指令。

定價

價格方面,GPT?4.1雖然比GPT?4o便宜了26%,但輸入、輸出依然高達每百萬token 2美元和8美元。

GPT?4.1 nano是OpenAI迄今為止價格最低、速度最快的模型,輸入、輸出分別為0.1美元和0.4美元。

對于重復使用相同上下文的查詢,這些新模型的提示詞緩存折扣已從之前的50%提高至75%。

最后,長上下文請求已包含在標準的按Token計費內,無額外費用。


編程:OpenAI最強模型誕生

相對GPT-4o、o1、o3-mini等模型,GPT-4.1在編程上都提升了一大截。

在各種編程任務上明顯比GPT-4o強得多,比如用智能體解決編程問題、前端開發、減少不必要的代碼修改、嚴格跟隨不同的格式、保持工具使用的一致性等等。

在SWE-bench Verified這個反映真實軟件工程能力的測試中,GPT-4.1完成了54.6%的任務,而GPT-4o(2024-11-20)只有33.2%。

這說明GPT-4.1在瀏覽代碼庫、完成任務以及生成既能運行又能通過測試的代碼方面有了很大提升。


對于SWE-bench Verified,模型會接收一個代碼倉庫和問題描述,并需要生成一個補丁來解決該問題。其性能高度依賴于所使用的提示詞和工具

對于希望編輯大型文件的API開發者而言,GPT-4.1在處理各種格式的代碼差異(code diffs)時,可靠性要高得多。

Aider多語言差異基準測試?,不僅衡量了模型跨多種編程語言的編碼能力,也衡量了其以完整文件格式和不同格式生成代碼變更的能力。

在這里,GPT?4.1的得分是GPT?4o的2倍以上,甚至比GPT?4.5高出8%。

如此一來,開發者便無需重寫整個文件,而是讓模型輸出變更的行即可,從而大幅節省成本并降低延遲。

對于傾向于重寫整個文件的開發者,GPT?4.1的輸出Token上限也提高到了32,768個Token(GPT?4o為16,384個)。其中,可以使用Predicted Outputs功能來降低完整文件重寫的延遲。


在Aider的多語言基準測試中,模型通過編輯源文件的方式解決來自Exercism?的編碼練習,并允許一次重試?!竪hole」格式要求模型重寫整個文件,這可能速度較慢且成本較高。「diff」格式則要求模型編寫一系列搜索/替換塊

此外,GPT?4.1在前端編碼方面相較于GPT?4o也有顯著改進,能夠創建出功能更完善、視覺上更美觀的Web應用。

在直接對比評估中,人類評委有80%的情況更傾向于選擇GPT?4.1生成的網站,而非GPT?4o。

指令跟隨:現已進入第一梯隊

在指令跟隨方面,OpenAI特地開發了一套內部的評估體系,用以追蹤模型在多個維度及以下幾個關鍵指令跟隨類別上的表現:

  • 格式跟隨(Format following):按要求的自定義格式(如XML、YAML、Markdown等)生成響應。

  • 否定性指令(Negative instructions):避免執行特定行為。(示例:「不要讓用戶聯系支持人員」)

  • 有序指令(Ordered instructions):按給定順序執行一系列操作。(示例:「先詢問用戶姓名,再詢問其郵箱地址」)

  • 內容要求(Content requirements):確保輸出內容包含特定信息。(示例:「撰寫營養計劃時,必須包含蛋白質克數」)

  • 排序(Ranking):按特定方式排列輸出內容。(示例:「按人口數量對結果進行排序」)

  • 識別知識邊界(Overconfidence):在無法獲取所請求信息或請求超出指定范疇時,回答「我不知道」或類似表述。(示例:「如果你不知道答案,請提供支持團隊的聯系郵箱」)

這些類別是基于開發者反饋確定的,反映了他們認為最為相關且重要的指令跟隨維度。其中,每個類別都將提示詞按難度分為了簡單、中等和困難三類。

在處理困難提示詞方面,GPT-4o和GPT-4o mini只有不到30%的正確率,而新系列中最小的nano都達到了32%。

與此同時,GPT-4.1則達到了49%,幾乎追平了o1和o3-mini,但和GPT-4.5還有一段距離。


內部指令跟隨能力評估是基于真實的開發者用例和反饋,涵蓋了不同復雜程度的任務,并結合了關于格式、詳細程度、長度等方面的指令要求

對許多開發者而言,多輪指令跟隨至關重要,這意味著模型需要在對話深入時保持連貫性,并記住用戶先前告知的信息。

而GPT-4.1能夠更好地從對話歷史消息中提取信息,從而實現更自然的交互。

在Scale AI推出的MultiChallenge基準測試中,GPT?4.1雖然不及o1和GPT-4.5,但已經可以追上o3-mini,并且比GPT?4o提升了10.5%之多。


在MultiChallenge基準測試中,模型面臨的挑戰是在多輪對話里,能夠正確使用來自先前消息(對話上文)的四種類型的信息

此外,GPT?4.1在IFEval上的得分為87.4%,而GPT?4o為81.0%。IFEval使用包含可驗證指令的提示詞(例如,指定內容長度或避免使用特定術語/格式)。


在IFEval中,模型必須生成符合各種指令的答案

更強的指令跟隨能力不僅能提升現有應用的可靠性,也能實現過去因模型可靠性不足而難以實現的新應用

早期測試人員反饋,GPT?4.1可能更傾向于跟隨字面指令,因此OpenAI建議在設計提示詞時力求明確和具體。

長上下文:大海撈針直接滿分

長上下文理解能力是法律、編碼、客戶支持及諸多其他領域應用的一項關鍵能力。

GPT?4.1、GPT?4.1 mini和GPT?4.1 nano不僅可處理最多100萬Token的上下文,而且能夠可靠地處理其中的內容,并忽略干擾信息。

100萬Token是什么概念?類比來說,其包含的內容量可以達到整個React代碼庫8倍以上!

比起GPT?4o的12.8萬Token,可以說是提升十分巨大了。

下面,演示了GPT?4.1在上下文窗口不同位置檢索隱藏的小段信息(即「針」)的能力。

在長達100萬 Token的各種上下文長度和所有位置點上,GPT?4.1都能持續準確地檢索到「針」。這意味著它能有效提取當前任務所需的相關細節,無論這些細節位于輸入的哪個部分。

不過,現實世界的任務很少像檢索單個、明顯的「針」那樣簡單直接。


在「大海撈針」(Needle in a Haystack)評估中,GPT?4.1、GPT?4.1 mini和GPT?4.1 nano均能在長達100萬Token的上下文中的所有位置成功檢索到「針」

OpenAI-MRCR

在實際應用時,用戶通常需要模型能夠檢索并理解多條信息,并且理解這些信息片段之間的相互關聯。

為此,OpenAI開源了一項測試模型在長上下文中查找并區分多個隱藏「針」的新基準:OpenAI-MRCR(Multi-Round Coreference)。

該評估包含用戶與助手之間的多輪合成對話,在對話中用戶要求模型就某個主題進行創作,例如「寫一首關于貘的詩」或「寫一篇關于石頭的博客文章」。

接著,在上下文中隨機插入2個、4個或8個內容相似但實例不同的請求。

模型必須準確檢索出與用戶指定的某一特定實例相對應的響應(例如,「請給我第三首關于貘的詩」)。

這項任務的挑戰在于,這些相似請求與上下文的其他部分非常接近——模型很容易被細微差異誤導,比如將關于貘的短篇故事誤認為詩歌,或將關于青蛙的詩歌誤認為關于貘的詩歌。

當上下文達到GPT?4o極限的12.8萬Token時,GPT?4.1的表現明顯更優;即使上下文長度擴展到100萬Token,它依然能保持強勁的性能。




在OpenAI-MRCR中,模型必須回答一個問題,該問題涉及在分散注意力的內容中區分2、4或8個用戶提示

Graphwalks

Graphwalks是一個用于評估多跳長上下文推理的數據集。

許多面向開發者的長上下文用例需要在上下文中進行多次邏輯跳躍,例如在編寫代碼時在多個文件之間切換,或在回答復雜的法律問題時進行文檔的交叉引用。

模型(甚至人類)理論上可以通過單次遍歷或通讀上下文來解決OpenAI-MRCR問題,但Graphwalks的設計旨在要求跨上下文多個位置進行推理,并且無法通過順序處理來解決。

Graphwalks用一個由十六進制哈希值組成的有向圖填充上下文窗口,然后要求模型從圖中的一個隨機節點開始執行廣度優先搜索(BFS)。接著,要求模型返回特定深度的所有節點。

GPT?4.1在此基準測試中達到了61.7%的準確率,與o1的性能持平,并輕松擊敗了GPT?4o。


在Graphwalks中,要求模型從一個大型圖中的隨機節點進行廣度優先搜索

視覺:圖像理解超越GPT-4o稱霸

GPT?4.1系列在圖像理解方面能力極強,特別是GPT?4.1 mini實現了顯著飛躍,在圖像基準測試中其表現常常優于GPT?4o。


在MMMU基準測試中,模型需回答包含圖表、示意圖、地圖等內容的問題


在MathVista?基準測試中,模型需解決視覺數學任務


在CharXiv-Reasoning基準測試中,模型需回答關于科學論文中圖表的問題

長上下文處理能力對于多模態用例(例如處理長視頻)也至關重要。

在Video-MME(長視頻,無字幕)基準測試中,模型需要根據時長30-60分鐘且無字幕的視頻來回答多項選擇題。

這里,GPT?4.1再次達到了SOTA——得分72.0%,高于GPT?4o的65.3%。


在Video-MME中,模型根據30-60分鐘長且無字幕的視頻回答多項選擇題

完整結果

下文完整列出了在學術、編程、指令跟隨、長上下文、視覺及函數調用評估中的結果。


學術知識


編程


指令跟隨


長上下文


視覺


函數調用

華人領隊


Jiahui Yu


Jiahui Yu目前負責感知(Perception)團隊,研究領域是深度學習和高性能計算。

此前,他曾在Google DeepMind共同負責Gemini多模態項目。


他在微軟亞研院、曠視科技、Adobe Research、Snap Research、Jump Trading、百度研究院、Nvidia Research和Google Brain都有過實習經歷。


他在中國科技大學少年班獲得計算機學士學位。在伊利諾伊大學香檳分校獲得博士學位。


參考資料:

https://openai.com/index/gpt-4-1/

https://x.com/OpenAI

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
城中村里的男女關系亂到啥程度?網友:男人的天堂,女人的樂園

城中村里的男女關系亂到啥程度?網友:男人的天堂,女人的樂園

解讀熱點事件
2025-04-10 00:15:04
新修訂消防條例5月施行,人員密集場所須有“雙逃生通道”

新修訂消防條例5月施行,人員密集場所須有“雙逃生通道”

新京報
2025-04-16 17:41:13
在岸人民幣兌美元4月16日16:30收盤報7.3179,較上一交易日下跌33點

在岸人民幣兌美元4月16日16:30收盤報7.3179,較上一交易日下跌33點

每日經濟新聞
2025-04-16 16:39:05
邱黨出局對賽制不滿:小組賽制極不合理,更像是賭運氣而非體育競技

邱黨出局對賽制不滿:小組賽制極不合理,更像是賭運氣而非體育競技

懂球帝
2025-04-16 20:35:13
中國股壇第一人坦言:炒股小資金做大的唯一方式,建議散戶深讀!

中國股壇第一人坦言:炒股小資金做大的唯一方式,建議散戶深讀!

股經縱橫談
2025-04-15 23:48:46
劉鈺可梅開二度,2-0,中國女足U16完勝歐洲勁旅,2連勝領跑

劉鈺可梅開二度,2-0,中國女足U16完勝歐洲勁旅,2連勝領跑

側身凌空斬
2025-04-17 04:07:50
上海申花:陳晉一失誤,特謝拉迷失!斯盧茨基的操作讓人看不懂

上海申花:陳晉一失誤,特謝拉迷失!斯盧茨基的操作讓人看不懂

晚霧空青
2025-04-17 02:42:34
河南一大媽被親生兒子勒死,兒子在法庭上崩潰大哭:她不是人

河南一大媽被親生兒子勒死,兒子在法庭上崩潰大哭:她不是人

清茶淺談
2025-04-16 22:29:29
高層會晤皇馬官網曬照:弗洛倫蒂諾向小克倫克贈送伯納烏模型

高層會晤皇馬官網曬照:弗洛倫蒂諾向小克倫克贈送伯納烏模型

直播吧
2025-04-17 04:39:10
18歲兒子把女朋友帶回家,媽媽有些懵:這是該哭還是該笑?

18歲兒子把女朋友帶回家,媽媽有些懵:這是該哭還是該笑?

唐小糖說情感
2025-04-16 09:02:03
三河市府辦回應“禁用紅藍黑招牌”損失賠償:誰讓改的去問誰

三河市府辦回應“禁用紅藍黑招牌”損失賠償:誰讓改的去問誰

南方都市報
2025-04-15 16:00:04
這一次,為好友捧場的趙露思,染紅發穿紅裙,評論區都在說她整了

這一次,為好友捧場的趙露思,染紅發穿紅裙,評論區都在說她整了

木木夕木可
2025-04-16 15:56:44
中歐372億航空大單落地,美媒:急評!中國為何選擇空客棄波音?

中歐372億航空大單落地,美媒:急評!中國為何選擇空客棄波音?

Hi秒懂科普
2025-04-15 16:09:10
欠債37.3萬億!美財長建議:中美兩國同時讓步,中方要求美先讓步

欠債37.3萬億!美財長建議:中美兩國同時讓步,中方要求美先讓步

阿傖說事
2025-04-16 15:41:06
朱莉婭的科切拉音樂節丑聞服裝引發爭論,因為她炫耀裸露的屁股

朱莉婭的科切拉音樂節丑聞服裝引發爭論,因為她炫耀裸露的屁股

鄉野小珥
2025-04-16 00:59:05
特朗普“錘爆”美芯片股!英偉達、AMD損失慘重,光刻機巨頭已崩!

特朗普“錘爆”美芯片股!英偉達、AMD損失慘重,光刻機巨頭已崩!

格隆匯
2025-04-17 00:47:02
驚爆!中國拒買波音,特朗普深夜“炸毛”,白宮上演迷之喊話

驚爆!中國拒買波音,特朗普深夜“炸毛”,白宮上演迷之喊話

可樂談情感
2025-04-16 23:19:07
警惕“差生報恩論”的危害

警惕“差生報恩論”的危害

中國教育新聞網
2025-04-16 07:12:17
占據先機!歐冠1/4決賽首回合取勝球隊最終皆晉級

占據先機!歐冠1/4決賽首回合取勝球隊最終皆晉級

直播吧
2025-04-17 05:21:08
女人心底的渴望,除了性需求,還有超越物質的情感追求

女人心底的渴望,除了性需求,還有超越物質的情感追求

青蘋果sht
2025-04-13 05:26:24
2025-04-17 05:52:49
新智元 incentive-icons
新智元
AI產業主平臺領航智能+時代
12539文章數 66013關注度
往期回顧 全部

科技要聞

華為問界M8售價公布:36.98萬元起

頭條要聞

鄭永年:特朗普逼中國簽下新版"廣場協議"幾無可能

頭條要聞

鄭永年:特朗普逼中國簽下新版"廣場協議"幾無可能

體育要聞

對著木板踢球的小鎮姑娘 成了皇馬第一人

娛樂要聞

娛樂圈的“現實”在岳云鵬身上應驗了

財經要聞

增長5.4% 一季度GDP增速為何超預期?

汽車要聞

又帥又快超實用 極氪007GT獵裝車才是完美的車?

態度原創

健康
旅游
房產
數碼
藝術

在中國,到底哪些人在吃“偉哥”?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

房產要聞

中海|南?!と栐?,以海岸美學重塑海口灣生活向往

數碼要聞

OPPO移動智能產品首銷創紀錄:近七成手表用戶來自蘋果華為

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 兴仁县| 庆元县| 文登市| 金山区| 嘉祥县| 黑龙江省| 开阳县| 高阳县| 北海市| 凌云县| 通山县| 和硕县| 和林格尔县| 南汇区| 营口市| 宜宾县| 江门市| 闽清县| 卓资县| 富蕴县| 仁化县| 冷水江市| 东平县| 西安市| 蒲江县| 永州市| 汉源县| 景德镇市| 郓城县| 丽水市| 肥乡县| 石屏县| 资溪县| 梅河口市| 万源市| 寻乌县| 石台县| 正蓝旗| 襄城县| 虹口区| 托克逊县|