網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

全網(wǎng)吐槽，GPT-4.5不如DeepSeek？OpenAI首席研究官正面回應(yīng)兩者差異！（附視頻）

2025-03-01 07:36:00　來(lái)源: AI深度研究員

上海舉報(bào)

分享至

（關(guān)注公眾號(hào)設(shè)為標(biāo)，獲取AI深度洞察）

全文 4,000字 | 閱讀約10分鐘

GPT-4.5 推出一天，便在全球范圍內(nèi)引發(fā)了激烈討論，甚至可以說(shuō)是"群嘲"。不少用戶在體驗(yàn)后紛紛表示，GPT-4.5 并沒(méi)有帶來(lái)預(yù)期的提升，甚至在某些方面不如 DeepSeek，引發(fā)了關(guān)于 OpenAI 技術(shù)路線的廣泛質(zhì)疑。與此同時(shí)，中國(guó)AI新秀DeepSeek憑借出色的效率和推理能力，贏得了全球用戶的贊譽(yù)與關(guān)注。這場(chǎng)"美國(guó)老牌AI巨頭VS中國(guó)后起之秀"的較量，讓OpenAI陷入了前所未有的輿論壓力。

面對(duì)質(zhì)疑聲浪，OpenAI首席研究官M(fèi)ark Chen昨天接受了獨(dú)家專訪，正面回應(yīng)了GPT-4.5與DeepSeek的比較爭(zhēng)議。作為OpenAI迄今為止規(guī)模最大、知識(shí)儲(chǔ)備最豐富的模型，GPT-4.5究竟與DeepSeek有何本質(zhì)區(qū)別？?jī)煞N技術(shù)路線各有何優(yōu)劣？"在無(wú)監(jiān)督學(xué)習(xí)中，你需要更多的計(jì)算、算法效率和數(shù)據(jù)。GPT-4.5證明了我們可以繼續(xù)擴(kuò)展這個(gè)范式。"Chen表示，"而且，這個(gè)范式與推理并不對(duì)立。你需要知識(shí)作為推理的基礎(chǔ)，模型不能盲目地從零開(kāi)始學(xué)習(xí)推理。"

當(dāng)被問(wèn)及DeepSeek通過(guò)專家混合模型提高效率的創(chuàng)新方法時(shí)，Chen坦言："DeepSeek在推理堆棧上做得很好，我們也很重視以低成本服務(wù)用戶。專家混合模型是語(yǔ)言模型的架構(gòu)元素，幾乎所有大型語(yǔ)言模型都在使用它，我們?cè)贕PT-4.5中也探索了這一技術(shù)及其他架構(gòu)改進(jìn)。"

完整文稿

主持人:Mark Chen 謝謝你能來(lái)。我們非常感謝你能在 GPT-4.5 這樣的大新聞發(fā)布時(shí)參與進(jìn)來(lái)。

Mark Chen:是的，GPT-4.5 確實(shí)是我們可預(yù)測(cè)擴(kuò)展范式中的最新里程碑。此前的模型，如 GPT-3、GPT-3.5 和 GPT-4，都符合這一范式，而 GPT-4.5 是最新的成果。它在性能上比之前的模型有了數(shù)量級(jí)的提升，類似于從 GPT-3.5 到 GPT-4 的飛躍。

一、GPT-4.5而非GPT-5？

主持人:我想我們的聽(tīng)眾最想問(wèn)的問(wèn)題，也是我們?cè)谶^(guò)去幾個(gè)月里討論過(guò)的，就是為什么這不是 GPT-5？要達(dá)到 GPT-5 需要什么條件？

Mark Chen:嗯，關(guān)于命名，我們總是試圖與趨勢(shì)保持一致。對(duì)于可預(yù)測(cè)的擴(kuò)展，從 GPT-3 到 GPT-3.5，我們可以預(yù)測(cè)出訓(xùn)練模型所需的計(jì)算量和效率提升能帶來(lái)什么。我們發(fā)現(xiàn)這個(gè)模型符合我們對(duì)“4.5”版本的預(yù)期，所以我們就這樣命名了。

主持人:但外界對(duì) GPT-5 的討論很多。如果我沒(méi)記錯(cuò)，從 GPT-4 到 GPT-4.5 的等待時(shí)間比從 GPT-3.5 到 GPT-4 更長(zhǎng)。這是由于 OpenAI 內(nèi)部在 Twitter 上對(duì)下一個(gè)模型的炒作，還是因?yàn)檫@是世界上最沒(méi)耐心的行業(yè)和用戶群體？對(duì) GPT-5 的期望似乎很高，你認(rèn)為滿足這些期望會(huì)很難嗎？

Mark Chen:我不認(rèn)為會(huì)很難。根本原因是我們現(xiàn)在有兩個(gè)不同的擴(kuò)展軸。一個(gè)是無(wú)監(jiān)督學(xué)習(xí)，GPT-4.5 是這個(gè)軸上的最新實(shí)驗(yàn)；另一個(gè)是推理。從 GPT-4 到 GPT-4.5 的發(fā)布時(shí)間間隔較長(zhǎng)，主要是因?yàn)槲覀兇罅Ｗ⒂陂_(kāi)發(fā)推理范式。我們的研究項(xiàng)目是探索性的，我們?cè)谔剿魉袛U(kuò)展模型的途徑。在過(guò)去的一年半到兩年里，我們通過(guò)推理發(fā)現(xiàn)了一個(gè)非常令人興奮的新范式，并且也在擴(kuò)展它。所以，GPT-5 可能會(huì)是許多成果的集大成。

主持人:你提到推理，我們當(dāng)然看到了 o1 和 DeepSeek 的熱議。現(xiàn)在我們又在討論一個(gè)更傳統(tǒng)的大型語(yǔ)言模型 GPT-4.5。人們關(guān)心的是，當(dāng)你增加更多計(jì)算、數(shù)據(jù)和能量時(shí)，AI 模型還能繼續(xù)擴(kuò)展嗎？你對(duì)擴(kuò)展極限的看法是什么？我們是否已經(jīng)開(kāi)始看到擴(kuò)展的回報(bào)遞減？

Mark Chen:我對(duì)擴(kuò)展有不同的看法。在無(wú)監(jiān)督學(xué)習(xí)中，你需要更多的計(jì)算、算法效率和數(shù)據(jù)。GPT-4.5 證明了我們可以繼續(xù)擴(kuò)展這個(gè)范式。而且，這個(gè)范式與推理并不對(duì)立。你需要知識(shí)作為推理的基礎(chǔ)，模型不能盲目地從零開(kāi)始學(xué)習(xí)推理。所以，這兩個(gè)范式是互補(bǔ)的，它們之間有反饋循環(huán)。GPT-4.5 在知識(shí)方面比推理模型更聰明。在日常使用場(chǎng)景中，與 GPT-4 相比，人們更喜歡 GPT-4.5，在生產(chǎn)力和知識(shí)工作方面的偏好率達(dá)到 60% 到 70%。人們對(duì)這個(gè)模型反應(yīng)很好，我們未來(lái)可以利用這些知識(shí)來(lái)提升推理模型。

二、GPT-4.5的使用場(chǎng)景

主持人:能舉一些例子嗎？在日常知識(shí)工作中，你會(huì)用 GPT-4.5 做什么，而不選擇推理模型？

Mark Chen:GPT-4.5 有不同的特性。作為一個(gè)更大的模型，它需要更多時(shí)間處理查詢，但也能立即給你回應(yīng)。這與 GPT-4 的功能很相似。而像 o1 這樣的推理模型，你給它一個(gè)查詢，它可能會(huì)思考幾分鐘。這是兩種根本不同的權(quán)衡：一個(gè)模型立即回應(yīng)，不做太多思考但給出更好的答案；另一個(gè)模型思考一段時(shí)間再回答。我們發(fā)現(xiàn)，在創(chuàng)意寫(xiě)作等領(lǐng)域，GPT-4.5 比推理模型更出色，我們將在未來(lái)一兩個(gè)月內(nèi)進(jìn)一步測(cè)試。

主持人:還有其他使用場(chǎng)景嗎？

Mark Chen:除了寫(xiě)作，還有編碼和一些特定的科學(xué)領(lǐng)域，GPT-4.5 在展示知識(shí)量方面表現(xiàn)更優(yōu)秀。

主持人:關(guān)于擴(kuò)展，我想問(wèn)，在這個(gè)規(guī)模下，增加相同數(shù)量的計(jì)算和數(shù)據(jù)還能帶來(lái)同樣的回報(bào)嗎？還是回報(bào)已經(jīng)開(kāi)始減少？

Mark Chen:不，我們?nèi)匀豢吹酵瑯拥幕貓?bào)。我想強(qiáng)調(diào)，GPT-4.5 是無(wú)監(jiān)督學(xué)習(xí)范式的下一個(gè)點(diǎn)。我們根據(jù)之前訓(xùn)練的所有模型預(yù)測(cè)性能，在這個(gè)案例中，我們整合了擴(kuò)展機(jī)制，達(dá)到了下一個(gè)數(shù)量級(jí)的點(diǎn)。

主持人:開(kāi)發(fā) GPT-4.5 的過(guò)程是怎樣的？有報(bào)道說(shuō) OpenAI 不得不多次啟動(dòng)和停止才能讓它成功。

Mark Chen:實(shí)際上，開(kāi)發(fā)所有基礎(chǔ)模型都是實(shí)驗(yàn)性的。我們經(jīng)常在某些階段停下來(lái)分析情況，然后重新開(kāi)始。這不是 GPT-4.5 獨(dú)有的，我們對(duì) GPT-4 和 o 系列模型也是這樣做的。這些都是實(shí)驗(yàn)，我們會(huì)在中途診斷，如果需要干預(yù)就進(jìn)行干預(yù)。但我不會(huì)說(shuō)這是 GPT-4.5 特有的做法。

三、與 DeepSeek模型差異

主持人:關(guān)于模型優(yōu)化，DeepSeek 通過(guò)專家混合模型提高了效率。OpenAI 在這方面做了什么？你在 GPT-4.5 中做了類似的優(yōu)化嗎？如何更高效地運(yùn)行這些大模型？

Mark Chen:我認(rèn)為讓模型高效服務(wù)與開(kāi)發(fā)核心能力是相對(duì)獨(dú)立的。我們?cè)谕评矶褩Ｉ献隽撕芏喙ぷ鳎珼eepSeek 在這方面做得很好，我們也很重視以低成本服務(wù)用戶。不管是 GPT-4 還是推理模型，我們一直在施加壓力以更高效地運(yùn)行模型。自從推出 GPT-4 以來(lái)，成本已經(jīng)下降了好幾個(gè)數(shù)量級(jí)。專家混合模型是語(yǔ)言模型的架構(gòu)元素，幾乎所有大型語(yǔ)言模型都在使用它，這種優(yōu)化同樣適用于 GPT-4、GPT-4.5 和推理模型的效率提升。我們?cè)?GPT-4.5 中也探索了專家混合模型以及其他架構(gòu)改進(jìn)。

主持人:在我們的 Discord 群里，最近大家一直在討論小型和細(xì)分模型可能是未來(lái)。有人說(shuō)：“對(duì)我來(lái)說(shuō)，未來(lái)更多是細(xì)分模型融入工作流程，而不是這些通用的‘神模型’。”顯然 OpenAI 有不同的看法。你如何看待大型模型與細(xì)分模型的關(guān)系？它們是對(duì)立的還是互補(bǔ)的？

Mark Chen:我們也提供小型模型，比如 mini 模型，它們成本效益高，能以較低成本提供接近前沿的能力，我們認(rèn)為這是全面產(chǎn)品組合的重要部分。但在 OpenAI，我們的核心業(yè)務(wù)是推動(dòng)智能的前沿，開(kāi)發(fā)我們能做到的最好模型。我們希望盡可能推動(dòng)智能的前沿，總會(huì)有前沿智能的使用場(chǎng)景。比如在數(shù)學(xué)上從 99.9% 到世界最佳，這個(gè)差異對(duì)我們有意義。頂尖科學(xué)家能發(fā)現(xiàn)的東西與我們普通人能發(fā)現(xiàn)的截然不同。所以，我們既推動(dòng)智能前沿，同時(shí)也希望讓這些能力更便宜、更具成本效益服務(wù)于所有人。我們不認(rèn)為細(xì)分模型會(huì)消失，我們希望構(gòu)建基礎(chǔ)模型，并找到如何隨時(shí)間降低成本提供這些能力的方法。

四、通用大模型vs細(xì)分模型

主持人:我們節(jié)目里經(jīng)常爭(zhēng)論什么更重要：產(chǎn)品還是模型。我支持模型，認(rèn)為更好的模型能帶來(lái)更多可能。但有時(shí)候我也不知道從數(shù)學(xué) 99% 到世界最佳能帶來(lái)什么。你認(rèn)為打造世界最佳模型能帶來(lái)什么特別的東西？

Mark Chen:打造最佳模型標(biāo)志著能力的轉(zhuǎn)變。如果只是用現(xiàn)有模型打造最佳產(chǎn)品，那是應(yīng)該一直做的事情。三年前，這表現(xiàn)為 ChatGPT；今天，用最佳模型和能力打造產(chǎn)品更像是智能代理。推理和代理密切相關(guān)，一個(gè)好的代理是你可以放手讓它做事，并相信它會(huì)給出你想要的結(jié)果。推理是驅(qū)動(dòng)它的引擎。如果模型第一次嘗試失敗，它能分析為什么失敗并找到更好的方法。提升模型能帶來(lái)各種形式的代理，比如 Deep Research，它能為你生成關(guān)于任何話題的完整報(bào)告。我用它準(zhǔn)備過(guò)一小時(shí)的演講，它能綜合信息、組織內(nèi)容、得出結(jié)論，讓你深入探索任何感興趣的主題。如果模型更好，產(chǎn)品會(huì)自然變得更好。

主持人:在離開(kāi)前，我們快速聊聊 GPT-4.5 相比 GPT-4 的升級(jí)吧。你能簡(jiǎn)單介紹一下它在基準(zhǔn)測(cè)試上的表現(xiàn)嗎？另外，我讀了你們的博客，感覺(jué)你們?cè)谡f(shuō)傳統(tǒng)基準(zhǔn)很重要，但也要關(guān)注情商（EQ）。為什么這兩者要一起看？

Mark Chen:在傳統(tǒng)指標(biāo)上，如 GP QA 和 MMLU，GPT-4.5 的提升與從 GPT-3.5 到 GPT-4 的跳躍相當(dāng)。此外，我們注意到它在情感智能方面有顯著改進(jìn)。比如，它如何回應(yīng)關(guān)于困難情況的查詢，給出的建議更具情感智能。今天晚些時(shí)候的博客會(huì)有例子。它還能完美生成 ASCII 藝術(shù)，而之前的模型大多做不到。創(chuàng)意寫(xiě)作也展示了這種能力。它不會(huì)為每個(gè)回答寫(xiě)長(zhǎng)篇大論，比如有人說(shuō)“我很難過(guò)”，它會(huì)簡(jiǎn)潔地像人一樣回應(yīng)，而不是給出一堆自我護(hù)理建議。這體現(xiàn)了情感智能。我們認(rèn)為，每次推出新模型都是使用場(chǎng)景的發(fā)現(xiàn)過(guò)程。GPT-4.5 達(dá)到了我們預(yù)期的基準(zhǔn)，但我們也想知道用戶會(huì)發(fā)現(xiàn)什么新價(jià)值。

五、GPT-4.5的情感表達(dá)

主持人:可能會(huì)有人批評(píng)說(shuō)，OpenAI 從關(guān)注傳統(tǒng)基準(zhǔn)轉(zhuǎn)向情感智能，是在轉(zhuǎn)移目標(biāo)。你怎么回應(yīng)？

Mark Chen:我不認(rèn)為這是準(zhǔn)確的描述。GPT-4.5 達(dá)到了我們預(yù)期的基準(zhǔn)。從 GPT-3 到 GPT-4.5 的發(fā)展證明了這一點(diǎn)。關(guān)鍵在于，每次推出新模型，我們都在探索用戶會(huì)喜歡什么。就像推出 GPT-4 時(shí)，它達(dá)到了預(yù)期基準(zhǔn)，但用戶共鳴才是關(guān)鍵問(wèn)題。今天我們也在問(wèn)同樣的問(wèn)題：我們發(fā)現(xiàn)它更具情感智能，更擅長(zhǎng)創(chuàng)意寫(xiě)作，但你們會(huì)發(fā)現(xiàn)什么？

主持人:Mark，我在 OpenAI 的每次發(fā)布視頻里都看到你，很高興能和你現(xiàn)場(chǎng)對(duì)話。過(guò)去一年有報(bào)道說(shuō) OpenAI 人員流失嚴(yán)重，媒體可能夸大了，但我想知道在 OpenAI 工作是什么感覺(jué)？你如何看待公司的人才儲(chǔ)備？你幾個(gè)月前剛成為首席研究官，現(xiàn)在就有了新模型。

Mark Chen:OpenAI 仍然是世界最頂尖的 AI 組織，我們的人才標(biāo)準(zhǔn)與其他公司有明顯差距。AI 領(lǐng)域變化很快，可能比任何領(lǐng)域都快。三個(gè)月前的領(lǐng)域和之前都不一樣。有些人會(huì)有自己的 AI 發(fā)展理論并嘗試新路，這是健康的，也給內(nèi)部人員展示機(jī)會(huì)。我們從不缺愿意站出來(lái)的人，我很喜歡我們的人才儲(chǔ)備。

星標(biāo)公眾號(hào)，點(diǎn)這里 1. 點(diǎn)擊右上角 2. 點(diǎn)擊"設(shè)為星標(biāo)" ← AI深度研究員 ? ← 設(shè)為星標(biāo)

參考資料：https://www.youtube.com/watch?v=pdfI9MuxWq8&t=591s&ab_channel=AlexKantrowitz

來(lái)源：官方媒體/網(wǎng)絡(luò)新聞

排版：Atlas

編輯：深思

主編: 圖靈

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.