99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

GPT-4.5發布會全程回放:如何在頂級AI模型競爭中脫穎而出?功能與價格深度分析

0
分享至

(關注公眾號設為標,獲取AI深度洞察)

全文 2,000字 | 閱讀約8分鐘



隨著DeepSeek R1、Grok 3和Claude 3.7在短短一兩個月內相繼亮相,OpenAI昨天周四又將GPT-4.5加入這場愈發激烈的大模型競賽。AI發展的速度令人瞠目,模型更新迭代的周期不斷壓縮,工業界和學術界都在感嘆人工智能進化之快。

代號為"Orion"的GPT-4.5作為OpenAI迄今投入最多計算資源和數據的模型,其登場引發了業界對傳統預訓練方法是否已達天花板的深度思考盡管規模龐大,OpenAI在白皮書中指出,它并不認為GPT-4.5是一個前沿模型。

從周四2月27日開始,訂閱OpenAI每月200美元ChatGPT Pro計劃的用戶將能夠在研究預覽階段在ChatGPT中使用GPT-4.5。使用OpenAI API付費套餐的開發者也可以從今天開始使用GPT-4.5。至于其他ChatGPT用戶,OpenAI發言人告訴TechCrunch,注冊了ChatGPT Plus和ChatGPT Team的客戶應該會在下周獲得該模型的使用權。


(與GPT-4o和GPT-4omini相比, GPT-4.5 的API定價太貴了)

業界一直對Orion屏息以待,一些人認為它是傳統AI訓練方法可行性的風向標。GPT-4.5的開發使用了與OpenAI開發GPT-4、GPT-3、GPT-2和GPT-1相同的關鍵技術——在稱為無監督學習的"預訓練"階段大幅增加計算能力和數據量。 在GPT-4.5之前的每一代GPT中,規模擴大都帶來了數學、寫作和編程等領域性能的巨大飛躍。確實,OpenAI表示,GPT-4.5的增大規模賦予了它"更深入的世界知識"和"更高的情商"。然而,有跡象表明,擴大數據和計算能力帶來的收益開始趨于平緩。但是,在一些AI基準測試中,GPT-4.5的表現不如DeepSeek、Anthropic以及OpenAI自身的較新AI"推理"模型。

OpenAI承認,GPT-4.5的運行成本也非常高昂——如此昂貴以至于該公司表示正在評估是否繼續長期在其API中提供GPT-4.5服務。

"我們將GPT-4.5作為研究預覽版分享,以更好地了解其優勢和局限性,"OpenAI在分享的博客文章中表示。"我們仍在探索它的能力,并期待看到人們以我們可能沒有預料到的方式使用它。"

綜合表現

OpenAI強調,GPT-4.5并非旨在完全替代GPT-4o——該公司為大多數API和ChatGPT提供支持的主力模型。雖然GPT-4.5支持文件和圖像上傳以及ChatGPT的畫布工具等功能,但目前缺少一些能力,比如對ChatGPT逼真的雙向語音模式的支持。

從優勢方面看,GPT-4.5的性能比GPT-4o更強——也超過了許多其他模型。 在OpenAI的SimpleQA基準測試中,該測試評估AI模型對直接、事實性問題的處理能力,GPT-4.5在準確性方面優于GPT-4o和OpenAI的推理模型o1和o3-mini。根據OpenAI的說法,GPT-4.5比大多數模型產生幻覺的頻率更低,理論上這意味著它編造內容的可能性應該更小。

OpenAI并未在SimpleQA測試中列出其頂級AI推理模型之一——deep research(深度研究)。值得注意的是,AI創業公司Perplexity的Deep Research模型在其他基準測試中與OpenAI的deep research表現相似,但在這項事實準確性測試中優于GPT-4.5。


在一部分編程問題子集——SWE-Bench Verified基準測試中,GPT-4.5的表現與GPT-4o和o3-mini大致相當,但不如OpenAI的deep research和Anthropic的Claude 3.7 Sonnet模型。在另一個編程測試——OpenAI的SWE-Lancer基準測試中(該測試衡量AI模型開發完整軟件功能的能力),GPT-4.5的表現優于GPT-4o和o3-mini,但仍不如deep research模型。



GPT-4.5雖然在AIME和GPQA等困難學術基準測試中未能達到領先的AI推理模型(如o3-mini、DeepSeek的R1和Claude 3.7 Sonnet(技術上屬于混合模型))的性能水平,但在這些相同測試中,它與或超過了領先的非推理模型,表明該模型在數學和科學相關問題上表現良好。

OpenAI還聲稱,GPT-4.5在基準測試不能很好捕捉的領域,如理解人類意圖的能力方面,在質量上優于其他模型。OpenAI表示,GPT-4.5回應的語氣更溫暖、更自然,在寫作和設計等創造性任務上表現出色。

我們實測效果發現GPT-4.5 不是一個推理模型(Reasoning Model) 它不是為編碼或數學而設計的。它是為了創造力和寫作而設計的。

在一項非正式測試中,OpenAI要求GPT-4.5和另外兩個模型(GPT-4o和o3-mini)使用SVG(一種基于數學公式和代碼顯示圖形的格式)創建獨角獸圖像。結果只有GPT-4.5創建出了類似獨角獸的形象。


在另一項測試中,OpenAI要求GPT-4.5和其他兩個模型回應提示:"我在考試失敗后正經歷一段艱難時期。"GPT-4o和o3-mini提供了有用的信息,但GPT-4.5的回應在社交適當性方面表現最佳。


擴展定律依舊受到挑戰

OpenAI的GPT-4.5處于"無監督學習所能達到的前沿水平"。這可能是事實,但該模型的局限性似乎也證實了專家們的猜測——預訓練的"擴展定律"將不再持續有效。

OpenAI聯合創始人兼前首席科學家Ilya Sutskever在去年12月表示,"我們已經達到了數據峰值",并且"我們所知道的預訓練方式無疑將會終結"。他的評論呼應了AI投資者、創始人和研究人員在去年11月向TechCrunch分享的擔憂。

面對預訓練的障礙,包括OpenAI在內的整個行業已經開始擁抱推理模型,這類模型執行任務的時間比非推理模型更長,但通常更加一致。通過增加AI推理模型用于"思考"問題的時間和計算能力,AI實驗室確信他們可以顯著提高模型的能力。 OpenAI計劃最終將其GPT系列模型與o系列推理模型結合起來,從今年晚些時候推出的GPT-5開始。GPT-4.5據報道訓練成本極高,多次推遲發布,且未能達到內部期望,它可能無法獨自奪取AI基準測試的桂冠。但OpenAI很可能將其視為通往更強大技術的墊腳石。

星標公眾號, 點這里 1. 點擊右上角 2. 點擊"設為星標" ← AI深度研究員 ? ← 設為星標

參考資料:

https://techcrunch.com/2025/02/27/openai-unveils-gpt-4-5-orion-its-largest-ai-model-yet/

https://www.youtube.com/watch?v=cfRYp0nItZ8&t=10s&ab_channel=OpenAI

來源:官方媒體/網絡新聞

排版:Atlas

編輯:深思

主編: 圖靈

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
不出5年,中國貶值最快的不是房子、現金,而是這3樣東西

不出5年,中國貶值最快的不是房子、現金,而是這3樣東西

發姐談房
2025-04-10 16:06:11
一天一變!勇士躺升第六,未來2場全贏將鎖前6,最高能排第4名

一天一變!勇士躺升第六,未來2場全贏將鎖前6,最高能排第4名

球童無忌
2025-04-11 15:18:23
詹姆斯:納什已經退役11年!我感覺我好老!

詹姆斯:納什已經退役11年!我感覺我好老!

歷史第一人梅西
2025-04-11 18:38:07
十字韌帶撕裂兩次的天才,20歲是荷甲最佳球員,28歲被巴薩放逐

十字韌帶撕裂兩次的天才,20歲是荷甲最佳球員,28歲被巴薩放逐

95帕爾馬
2025-04-11 10:25:24
我國定調“奉陪到底”后,美國兩高官不裝了,我國公布黃金儲備

我國定調“奉陪到底”后,美國兩高官不裝了,我國公布黃金儲備

安珈使者啊
2025-04-11 08:35:10
特朗普要求中國一天內答復,中國回答干脆利落

特朗普要求中國一天內答復,中國回答干脆利落

陳意小可愛
2025-04-11 16:56:51
選美國還是選中國?萬萬沒想到,當著中方高層的面,普京直接交底

選美國還是選中國?萬萬沒想到,當著中方高層的面,普京直接交底

藍涇看一看
2025-04-10 09:26:23
布克提出交易申請!太陽隊要求他分手原因曝光

布克提出交易申請!太陽隊要求他分手原因曝光

與點愛星說
2025-04-11 14:13:55
特朗普對華釋放重磅表態:愿中美會晤推動共贏協議

特朗普對華釋放重磅表態:愿中美會晤推動共贏協議

觀星賞月
2025-04-11 00:39:48
五大數據全隊第一!湖人進入東契奇時代,詹皇后退換來沖冠良機

五大數據全隊第一!湖人進入東契奇時代,詹皇后退換來沖冠良機

李喜林籃球絕殺
2025-04-11 16:08:08
上海花8000吃糞后續,菜品一個比一個離譜,員工:老板研究了7年

上海花8000吃糞后續,菜品一個比一個離譜,員工:老板研究了7年

削桐作琴
2025-04-10 15:25:10
民間順口溜,誰想出來的?太有才了

民間順口溜,誰想出來的?太有才了

詩詞世界
2025-04-10 06:03:41
對等關稅正式生效!世界各國開始站隊,“中美陣營”都有哪些國家

對等關稅正式生效!世界各國開始站隊,“中美陣營”都有哪些國家

嘆知
2025-04-07 16:34:37
出動四艘測量船,東風-41南太平洋海上測試,這將意味著什么?

出動四艘測量船,東風-41南太平洋海上測試,這將意味著什么?

Hi秒懂科普
2025-04-11 10:11:04
剛剛!美國,重大發布!降息,突生變數

剛剛!美國,重大發布!降息,突生變數

券商中國
2025-04-10 21:39:14
大風到哪了?石景山最新預報——

大風到哪了?石景山最新預報——

石景山區新媒體
2025-04-11 15:40:28
杜蘭特宣布為太陽打最后一場球!點名加盟2支球隊,絕不加盟快船

杜蘭特宣布為太陽打最后一場球!點名加盟2支球隊,絕不加盟快船

冷桂零落
2025-04-11 09:11:27
天津市委原副秘書長孫建華,被查

天津市委原副秘書長孫建華,被查

新京報政事兒
2025-04-11 15:37:07
婆婆中風臥床3月,公公為泄火半夜鉆兒媳被窩,事后卻笑不出來

婆婆中風臥床3月,公公為泄火半夜鉆兒媳被窩,事后卻笑不出來

罪案洞察者
2025-03-29 15:50:09
俄媒:一旦戰爭爆發中國將被圍攻,對中國而言,最危險的不只戰爭

俄媒:一旦戰爭爆發中國將被圍攻,對中國而言,最危險的不只戰爭

大國紀錄
2025-03-07 11:15:20
2025-04-11 19:00:49
AI深度研究員 incentive-icons
AI深度研究員
一個專注于人工智能(AI)前沿技術、理論研究和實際應用的自媒體
137文章數 76關注度
往期回顧 全部

科技要聞

單臺年入20萬!首批人形機器人致富者來了

頭條要聞

特朗普關稅政策讓美國兩個前財長"破大防":打分不及格

頭條要聞

特朗普關稅政策讓美國兩個前財長"破大防":打分不及格

體育要聞

球迷天天罵,但我們要進歐冠了

娛樂要聞

汪小菲馬筱梅婚禮又有了耐人尋味的新聞

財經要聞

對美關稅提高至125% 美方再加將不予理會

汽車要聞

25款風云A8/T9/T10齊上市 多款車型發布一口價

態度原創

旅游
健康
教育
公開課
軍事航空

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

在中國,到底哪些人在吃“偉哥”?

教育要聞

威海市教育局:構建心理健康教育四個“+”體系 護航學生健康成長

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

蘇丹西部一難民營遭炮擊 至少150人傷亡

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 裕民县| 建平县| 开鲁县| 乌拉特前旗| 抚顺县| 嘉荫县| 赣榆县| 津市市| 安顺市| 台江县| 静宁县| 兴城市| 鄂伦春自治旗| 甘洛县| 加查县| 阜新市| 平南县| 澄江县| 新泰市| 蛟河市| 项城市| 兴海县| 清苑县| 佛坪县| 罗定市| 垦利县| 郧西县| 金湖县| 台安县| 芦溪县| 鄱阳县| 杭锦后旗| 榆中县| 丰城市| 定边县| 临夏市| 宽甸| 万载县| 元氏县| 高安市| 新河县|