OpenAI于2025年4月15日通過技術直播發布了GPT-4.1系列模型。這次發布不僅僅是對GPT-4o的簡單升級,而是推出了一套完整的模型系列,包括三個不同規模的版本。
OpenAI首席執行官奧特曼在發布會上表示:"GPT-4.1系列現已在API中可用。"值得注意的是,由于GPT-4.1的發布,OpenAI宣布將會淘汰剛發布不久的GPT-4.5。
GPT-4.1系列的定位非常明確:專注于提升開發者在編碼和指令跟隨任務中的效率。OpenAI的官方博客中提到,GPT-4.1能更可靠地遵循指令,并且"已經在各種指令遵循評估中測量到了顯著的改進"。
這一定位表明,GPT-4.1系列主要通過API提供,面向的是構建智能系統和代理應用的開發者社區,而不是直接面向普通用戶。
核心功能與技術亮點
超長上下文處理能力
GPT-4.1系列最引人注目的特點是其高達百萬token的上下文理解能力。這是OpenAI首次發布支持超長上下文窗口的模型,其上下文窗口大小是GPT-4o的8倍。
在多模態長上下文理解基準測試Video-MME中,GPT-4.1創下了新的最高紀錄,在長篇無字幕測試中得分為72.0%,比GPT-4o提升了6.7%。
強大的編程能力
GPT-4.1在編程能力方面實現了質的飛躍。在衡量真實世界軟件工程技能的SWE-bench Verified基準測試中,GPT-4.1得分為54.6%,相比GPT-4o的分數提高了21.4%,相比GPT-4.5強了26.6%。這一顯著提升使其在代碼生成、代碼優化和版本管理等方面表現得更加出色。
指令遵循能力的提升
GPT-4.1在指令遵循能力方面也有顯著提升。OpenAI開發了一個內部教學跟蹤評估系統,用于跟蹤模型在多個維度和幾個關鍵指令集上的性能。測試結果表明,GPT-4.1在MultiChallenge測試中得分38.3%,在IFEval測試中達到87.4%,均優于前代。
特別是在處理復雜任務時,GPT-4.1表現出更強的指令理解能力。在處理多語言編程任務、代碼優化和版本管理時,GPT-4.1比GPT-4o更高效。這種提升使得GPT-4.1在實際應用中更加可靠,能夠更好地滿足用戶的需求。
模型變體與定價策略
GPT-4.1系列的一個重要特點是提供了不同規模的模型,以滿足不同需求和預算。三個版本的價格各不相同,為開發者提供了靈活的選擇:
GPT-4.1
GPT-4.1是全功能版本,提供了最強大的性能和最全面的功能。它支持100萬token的上下文窗口,輸出能力提升至32768 tokens。在性能方面,GPT-4.1在SWE-bench Verified基準測試中得分為54.6%,比GPT-4o提高了21.4%,比GPT-4.5強了26.6%。
在定價方面,GPT-4.1比GPT-4o中等查詢費用低26%。提示緩存折扣從50%提升至75%,長上下文請求將不再收取額外費用。每百萬輸入token收費2美元,輸出8美元。
GPT-4.1 mini
GPT-4.1 mini是標準版本,性能介于GPT-4.1和GPT-4.1 nano之間。它在多項基準測試中的表現都超越了GPT-4o mini:
MMLU(大規模多任務語言理解)得分80.1%
GPQA(圖形化閱讀理解)得分50.3%
Aider多語言編碼得分9.8%
在定價方面,GPT-4.1 mini的輸入價格為0.40美元/百萬token,輸出價格為1.60美元/百萬token。
GPT-4.1 nano
GPT-4.1 nano是OpenAI推出的首個超小型模型,具備速度最快、成本最低的特點。盡管體積小,但其性能依然出色,基準測試MMLU得分80.1%,GPQA得分為50.3%,Aider多語言編碼得分為9.8%,均高于GPT-4o mini。
在定價方面,GPT-4.1 nano的輸入價格僅為0.10美元/百萬token,輸出價格為0.40美元/百萬token,綜合價格僅為0.12美元/百萬token。這是OpenAI迄今最快、最便宜的模型,特別適合執行如分類和自動補全等低延遲任務。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.