(關(guān)注公眾號(hào)設(shè)為標(biāo),獲取AI深度洞察)
全文 4,000字 | 閱讀約10分鐘
GPT-4.5 推出一天,便在全球范圍內(nèi)引發(fā)了激烈討論,甚至可以說(shuō)是"群嘲"。不少用戶在體驗(yàn)后紛紛表示,GPT-4.5 并沒(méi)有帶來(lái)預(yù)期的提升,甚至在某些方面不如 DeepSeek,引發(fā)了關(guān)于 OpenAI 技術(shù)路線的廣泛質(zhì)疑。與此同時(shí),中國(guó)AI新秀DeepSeek憑借出色的效率和推理能力,贏得了全球用戶的贊譽(yù)與關(guān)注。這場(chǎng)"美國(guó)老牌AI巨頭VS中國(guó)后起之秀"的較量,讓OpenAI陷入了前所未有的輿論壓力。
面對(duì)質(zhì)疑聲浪,OpenAI首席研究官M(fèi)ark Chen昨天接受了獨(dú)家專訪,正面回應(yīng)了GPT-4.5與DeepSeek的比較爭(zhēng)議。作為OpenAI迄今為止規(guī)模最大、知識(shí)儲(chǔ)備最豐富的模型,GPT-4.5究竟與DeepSeek有何本質(zhì)區(qū)別??jī)煞N技術(shù)路線各有何優(yōu)劣?"在無(wú)監(jiān)督學(xué)習(xí)中,你需要更多的計(jì)算、算法效率和數(shù)據(jù)。GPT-4.5證明了我們可以繼續(xù)擴(kuò)展這個(gè)范式。"Chen表示,"而且,這個(gè)范式與推理并不對(duì)立。你需要知識(shí)作為推理的基礎(chǔ),模型不能盲目地從零開(kāi)始學(xué)習(xí)推理。"
當(dāng)被問(wèn)及DeepSeek通過(guò)專家混合模型提高效率的創(chuàng)新方法時(shí),Chen坦言:"DeepSeek在推理堆棧上做得很好,我們也很重視以低成本服務(wù)用戶。專家混合模型是語(yǔ)言模型的架構(gòu)元素,幾乎所有大型語(yǔ)言模型都在使用它,我們?cè)贕PT-4.5中也探索了這一技術(shù)及其他架構(gòu)改進(jìn)。"
完整文稿
主持人:Mark Chen 謝謝你能來(lái)。我們非常感謝你能在 GPT-4.5 這樣的大新聞發(fā)布時(shí)參與進(jìn)來(lái)。
Mark Chen:是的,GPT-4.5 確實(shí)是我們可預(yù)測(cè)擴(kuò)展范式中的最新里程碑。此前的模型,如 GPT-3、GPT-3.5 和 GPT-4,都符合這一范式,而 GPT-4.5 是最新的成果。它在性能上比之前的模型有了數(shù)量級(jí)的提升,類似于從 GPT-3.5 到 GPT-4 的飛躍。
一、GPT-4.5而非GPT-5?
主持人:我想我們的聽(tīng)眾最想問(wèn)的問(wèn)題,也是我們?cè)谶^(guò)去幾個(gè)月里討論過(guò)的,就是為什么這不是 GPT-5?要達(dá)到 GPT-5 需要什么條件?
Mark Chen:嗯,關(guān)于命名,我們總是試圖與趨勢(shì)保持一致。對(duì)于可預(yù)測(cè)的擴(kuò)展,從 GPT-3 到 GPT-3.5,我們可以預(yù)測(cè)出訓(xùn)練模型所需的計(jì)算量和效率提升能帶來(lái)什么。我們發(fā)現(xiàn)這個(gè)模型符合我們對(duì)“4.5”版本的預(yù)期,所以我們就這樣命名了。
主持人:但外界對(duì) GPT-5 的討論很多。如果我沒(méi)記錯(cuò),從 GPT-4 到 GPT-4.5 的等待時(shí)間比從 GPT-3.5 到 GPT-4 更長(zhǎng)。這是由于 OpenAI 內(nèi)部在 Twitter 上對(duì)下一個(gè)模型的炒作,還是因?yàn)檫@是世界上最沒(méi)耐心的行業(yè)和用戶群體?對(duì) GPT-5 的期望似乎很高,你認(rèn)為滿足這些期望會(huì)很難嗎?
Mark Chen:我不認(rèn)為會(huì)很難。根本原因是我們現(xiàn)在有兩個(gè)不同的擴(kuò)展軸。一個(gè)是無(wú)監(jiān)督學(xué)習(xí),GPT-4.5 是這個(gè)軸上的最新實(shí)驗(yàn);另一個(gè)是推理。從 GPT-4 到 GPT-4.5 的發(fā)布時(shí)間間隔較長(zhǎng),主要是因?yàn)槲覀兇罅W⒂陂_(kāi)發(fā)推理范式。我們的研究項(xiàng)目是探索性的,我們?cè)谔剿魉袛U(kuò)展模型的途徑。在過(guò)去的一年半到兩年里,我們通過(guò)推理發(fā)現(xiàn)了一個(gè)非常令人興奮的新范式,并且也在擴(kuò)展它。所以,GPT-5 可能會(huì)是許多成果的集大成。
主持人:你提到推理,我們當(dāng)然看到了 o1 和 DeepSeek 的熱議。現(xiàn)在我們又在討論一個(gè)更傳統(tǒng)的大型語(yǔ)言模型 GPT-4.5。人們關(guān)心的是,當(dāng)你增加更多計(jì)算、數(shù)據(jù)和能量時(shí),AI 模型還能繼續(xù)擴(kuò)展嗎?你對(duì)擴(kuò)展極限的看法是什么?我們是否已經(jīng)開(kāi)始看到擴(kuò)展的回報(bào)遞減?
Mark Chen:我對(duì)擴(kuò)展有不同的看法。在無(wú)監(jiān)督學(xué)習(xí)中,你需要更多的計(jì)算、算法效率和數(shù)據(jù)。GPT-4.5 證明了我們可以繼續(xù)擴(kuò)展這個(gè)范式。而且,這個(gè)范式與推理并不對(duì)立。你需要知識(shí)作為推理的基礎(chǔ),模型不能盲目地從零開(kāi)始學(xué)習(xí)推理。所以,這兩個(gè)范式是互補(bǔ)的,它們之間有反饋循環(huán)。GPT-4.5 在知識(shí)方面比推理模型更聰明。在日常使用場(chǎng)景中,與 GPT-4 相比,人們更喜歡 GPT-4.5,在生產(chǎn)力和知識(shí)工作方面的偏好率達(dá)到 60% 到 70%。人們對(duì)這個(gè)模型反應(yīng)很好,我們未來(lái)可以利用這些知識(shí)來(lái)提升推理模型。
二、GPT-4.5的使用場(chǎng)景
主持人:能舉一些例子嗎?在日常知識(shí)工作中,你會(huì)用 GPT-4.5 做什么,而不選擇推理模型?
Mark Chen:GPT-4.5 有不同的特性。作為一個(gè)更大的模型,它需要更多時(shí)間處理查詢,但也能立即給你回應(yīng)。這與 GPT-4 的功能很相似。而像 o1 這樣的推理模型,你給它一個(gè)查詢,它可能會(huì)思考幾分鐘。這是兩種根本不同的權(quán)衡:一個(gè)模型立即回應(yīng),不做太多思考但給出更好的答案;另一個(gè)模型思考一段時(shí)間再回答。我們發(fā)現(xiàn),在創(chuàng)意寫(xiě)作等領(lǐng)域,GPT-4.5 比推理模型更出色,我們將在未來(lái)一兩個(gè)月內(nèi)進(jìn)一步測(cè)試。
主持人:還有其他使用場(chǎng)景嗎?
Mark Chen:除了寫(xiě)作,還有編碼和一些特定的科學(xué)領(lǐng)域,GPT-4.5 在展示知識(shí)量方面表現(xiàn)更優(yōu)秀。
主持人:關(guān)于擴(kuò)展,我想問(wèn),在這個(gè)規(guī)模下,增加相同數(shù)量的計(jì)算和數(shù)據(jù)還能帶來(lái)同樣的回報(bào)嗎?還是回報(bào)已經(jīng)開(kāi)始減少?
Mark Chen:不,我們?nèi)匀豢吹酵瑯拥幕貓?bào)。我想強(qiáng)調(diào),GPT-4.5 是無(wú)監(jiān)督學(xué)習(xí)范式的下一個(gè)點(diǎn)。我們根據(jù)之前訓(xùn)練的所有模型預(yù)測(cè)性能,在這個(gè)案例中,我們整合了擴(kuò)展機(jī)制,達(dá)到了下一個(gè)數(shù)量級(jí)的點(diǎn)。
主持人:開(kāi)發(fā) GPT-4.5 的過(guò)程是怎樣的?有報(bào)道說(shuō) OpenAI 不得不多次啟動(dòng)和停止才能讓它成功。
Mark Chen:實(shí)際上,開(kāi)發(fā)所有基礎(chǔ)模型都是實(shí)驗(yàn)性的。我們經(jīng)常在某些階段停下來(lái)分析情況,然后重新開(kāi)始。這不是 GPT-4.5 獨(dú)有的,我們對(duì) GPT-4 和 o 系列模型也是這樣做的。這些都是實(shí)驗(yàn),我們會(huì)在中途診斷,如果需要干預(yù)就進(jìn)行干預(yù)。但我不會(huì)說(shuō)這是 GPT-4.5 特有的做法。
三、與 DeepSeek模型差異
主持人:關(guān)于模型優(yōu)化,DeepSeek 通過(guò)專家混合模型提高了效率。OpenAI 在這方面做了什么?你在 GPT-4.5 中做了類似的優(yōu)化嗎?如何更高效地運(yùn)行這些大模型?
Mark Chen:我認(rèn)為讓模型高效服務(wù)與開(kāi)發(fā)核心能力是相對(duì)獨(dú)立的。我們?cè)谕评矶褩I献隽撕芏喙ぷ鳎珼eepSeek 在這方面做得很好,我們也很重視以低成本服務(wù)用戶。不管是 GPT-4 還是推理模型,我們一直在施加壓力以更高效地運(yùn)行模型。自從推出 GPT-4 以來(lái),成本已經(jīng)下降了好幾個(gè)數(shù)量級(jí)。專家混合模型是語(yǔ)言模型的架構(gòu)元素,幾乎所有大型語(yǔ)言模型都在使用它,這種優(yōu)化同樣適用于 GPT-4、GPT-4.5 和推理模型的效率提升。我們?cè)?GPT-4.5 中也探索了專家混合模型以及其他架構(gòu)改進(jìn)。
主持人:在我們的 Discord 群里,最近大家一直在討論小型和細(xì)分模型可能是未來(lái)。有人說(shuō):“對(duì)我來(lái)說(shuō),未來(lái)更多是細(xì)分模型融入工作流程,而不是這些通用的‘神模型’。”顯然 OpenAI 有不同的看法。你如何看待大型模型與細(xì)分模型的關(guān)系?它們是對(duì)立的還是互補(bǔ)的?
Mark Chen:我們也提供小型模型,比如 mini 模型,它們成本效益高,能以較低成本提供接近前沿的能力,我們認(rèn)為這是全面產(chǎn)品組合的重要部分。但在 OpenAI,我們的核心業(yè)務(wù)是推動(dòng)智能的前沿,開(kāi)發(fā)我們能做到的最好模型。我們希望盡可能推動(dòng)智能的前沿,總會(huì)有前沿智能的使用場(chǎng)景。比如在數(shù)學(xué)上從 99.9% 到世界最佳,這個(gè)差異對(duì)我們有意義。頂尖科學(xué)家能發(fā)現(xiàn)的東西與我們普通人能發(fā)現(xiàn)的截然不同。所以,我們既推動(dòng)智能前沿,同時(shí)也希望讓這些能力更便宜、更具成本效益服務(wù)于所有人。我們不認(rèn)為細(xì)分模型會(huì)消失,我們希望構(gòu)建基礎(chǔ)模型,并找到如何隨時(shí)間降低成本提供這些能力的方法。
四、通用大模型vs細(xì)分模型
主持人:我們節(jié)目里經(jīng)常爭(zhēng)論什么更重要:產(chǎn)品還是模型。我支持模型,認(rèn)為更好的模型能帶來(lái)更多可能。但有時(shí)候我也不知道從數(shù)學(xué) 99% 到世界最佳能帶來(lái)什么。你認(rèn)為打造世界最佳模型能帶來(lái)什么特別的東西?
Mark Chen:打造最佳模型標(biāo)志著能力的轉(zhuǎn)變。如果只是用現(xiàn)有模型打造最佳產(chǎn)品,那是應(yīng)該一直做的事情。三年前,這表現(xiàn)為 ChatGPT;今天,用最佳模型和能力打造產(chǎn)品更像是智能代理。推理和代理密切相關(guān),一個(gè)好的代理是你可以放手讓它做事,并相信它會(huì)給出你想要的結(jié)果。推理是驅(qū)動(dòng)它的引擎。如果模型第一次嘗試失敗,它能分析為什么失敗并找到更好的方法。提升模型能帶來(lái)各種形式的代理,比如 Deep Research,它能為你生成關(guān)于任何話題的完整報(bào)告。我用它準(zhǔn)備過(guò)一小時(shí)的演講,它能綜合信息、組織內(nèi)容、得出結(jié)論,讓你深入探索任何感興趣的主題。如果模型更好,產(chǎn)品會(huì)自然變得更好。
主持人:在離開(kāi)前,我們快速聊聊 GPT-4.5 相比 GPT-4 的升級(jí)吧。你能簡(jiǎn)單介紹一下它在基準(zhǔn)測(cè)試上的表現(xiàn)嗎?另外,我讀了你們的博客,感覺(jué)你們?cè)谡f(shuō)傳統(tǒng)基準(zhǔn)很重要,但也要關(guān)注情商(EQ)。為什么這兩者要一起看?
Mark Chen:在傳統(tǒng)指標(biāo)上,如 GP QA 和 MMLU,GPT-4.5 的提升與從 GPT-3.5 到 GPT-4 的跳躍相當(dāng)。此外,我們注意到它在情感智能方面有顯著改進(jìn)。比如,它如何回應(yīng)關(guān)于困難情況的查詢,給出的建議更具情感智能。今天晚些時(shí)候的博客會(huì)有例子。它還能完美生成 ASCII 藝術(shù),而之前的模型大多做不到。創(chuàng)意寫(xiě)作也展示了這種能力。它不會(huì)為每個(gè)回答寫(xiě)長(zhǎng)篇大論,比如有人說(shuō)“我很難過(guò)”,它會(huì)簡(jiǎn)潔地像人一樣回應(yīng),而不是給出一堆自我護(hù)理建議。這體現(xiàn)了情感智能。我們認(rèn)為,每次推出新模型都是使用場(chǎng)景的發(fā)現(xiàn)過(guò)程。GPT-4.5 達(dá)到了我們預(yù)期的基準(zhǔn),但我們也想知道用戶會(huì)發(fā)現(xiàn)什么新價(jià)值。
五、GPT-4.5的情感表達(dá)
主持人:可能會(huì)有人批評(píng)說(shuō),OpenAI 從關(guān)注傳統(tǒng)基準(zhǔn)轉(zhuǎn)向情感智能,是在轉(zhuǎn)移目標(biāo)。你怎么回應(yīng)?
Mark Chen:我不認(rèn)為這是準(zhǔn)確的描述。GPT-4.5 達(dá)到了我們預(yù)期的基準(zhǔn)。從 GPT-3 到 GPT-4.5 的發(fā)展證明了這一點(diǎn)。關(guān)鍵在于,每次推出新模型,我們都在探索用戶會(huì)喜歡什么。就像推出 GPT-4 時(shí),它達(dá)到了預(yù)期基準(zhǔn),但用戶共鳴才是關(guān)鍵問(wèn)題。今天我們也在問(wèn)同樣的問(wèn)題:我們發(fā)現(xiàn)它更具情感智能,更擅長(zhǎng)創(chuàng)意寫(xiě)作,但你們會(huì)發(fā)現(xiàn)什么?
主持人:Mark,我在 OpenAI 的每次發(fā)布視頻里都看到你,很高興能和你現(xiàn)場(chǎng)對(duì)話。過(guò)去一年有報(bào)道說(shuō) OpenAI 人員流失嚴(yán)重,媒體可能夸大了,但我想知道在 OpenAI 工作是什么感覺(jué)?你如何看待公司的人才儲(chǔ)備?你幾個(gè)月前剛成為首席研究官,現(xiàn)在就有了新模型。
Mark Chen:OpenAI 仍然是世界最頂尖的 AI 組織,我們的人才標(biāo)準(zhǔn)與其他公司有明顯差距。AI 領(lǐng)域變化很快,可能比任何領(lǐng)域都快。三個(gè)月前的領(lǐng)域和之前都不一樣。有些人會(huì)有自己的 AI 發(fā)展理論并嘗試新路,這是健康的,也給內(nèi)部人員展示機(jī)會(huì)。我們從不缺愿意站出來(lái)的人,我很喜歡我們的人才儲(chǔ)備。
星標(biāo)公眾號(hào), 點(diǎn)這里 1. 點(diǎn)擊右上角 2. 點(diǎn)擊"設(shè)為星標(biāo)" ← AI深度研究員 ? ← 設(shè)為星標(biāo)
參考資料:https://www.youtube.com/watch?v=pdfI9MuxWq8&t=591s&ab_channel=AlexKantrowitz
來(lái)源:官方媒體/網(wǎng)絡(luò)新聞
排版:Atlas
編輯:深思
主編: 圖靈
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.