出品|虎嗅科技組
作者|孫曉晨
編輯|苗正卿
頭圖|視覺(jué)中國(guó)
OpenAI在一周時(shí)間內(nèi)相繼發(fā)布GPT-4.1系列模型(包括GPT-4.1、GPT-4.1 mini以及GPT-4.1 nano)、OpenAI o3和o4-mini,但是新模型似乎并未如預(yù)想般“石破天驚”,反而將OpenAI拖入爭(zhēng)論之中。
實(shí)際上,單獨(dú)觀察此次接連發(fā)布的新模型,其功能依然“能打”。
首先是GPT-4.1系列模型,據(jù)OpenAI介紹,GPT-4.1系列模型相較于GPT-4o升級(jí)明顯,其在編碼、指令遵循和長(zhǎng)文本處理方面實(shí)現(xiàn)了重大改進(jìn),尤其在長(zhǎng)文本處理方面,該系列模型支持高達(dá)一百萬(wàn)Token上下文,且無(wú)額外費(fèi)用。
而OpenAI o3和o4-mini能夠代理地使用并整合ChatGPT內(nèi)的所有工具,包括網(wǎng)絡(luò)搜索、Python、圖像分析、文件解讀和圖像生成。此外,o3和o4-mini還將上傳圖像直接整合到其思維鏈中,不僅僅能“看到”圖像,而且還能“用圖像思考”。在OpenAI的宣傳中,o3和o4-mini甚至被稱為“迄今為止OpenAI最智能、功能最強(qiáng)大的模型”。
新模型的實(shí)際使用體驗(yàn)也不錯(cuò)。國(guó)外博主Clive Chan表示,在自己所有的工作流程(如光標(biāo)操作等)中,4.1基本上已經(jīng)取代了 o3-mini,且表現(xiàn)優(yōu)異。醫(yī)學(xué)博士Dr. Datta也指出,在為醫(yī)院放射科構(gòu)建代理型工作流程過(guò)程中,GPT-4.1 nano在降低成本的同時(shí)實(shí)現(xiàn)了響應(yīng)速度顯著提升。他表示“在放射學(xué)和醫(yī)學(xué)領(lǐng)域,延遲是應(yīng)用的最大障礙。模型生成報(bào)告的時(shí)間不能超過(guò)10秒。通過(guò)GPT-4.1 nano,我們現(xiàn)在甚至能在復(fù)雜的報(bào)告生成和網(wǎng)絡(luò)搜索的結(jié)構(gòu)化提取中實(shí)現(xiàn)低于10秒的響應(yīng)時(shí)間。”
AI&I播客主持人Dan Shipper則通過(guò)具體的使用案例表達(dá)了對(duì)o3模型的贊許,稱其“速度快、主動(dòng)性強(qiáng)、極其聰明”。此外,博主Malte Landwehr表示,o3、o4-mini和o4-mini-high是OpenAI在其專注于德語(yǔ)的LLM基準(zhǔn)測(cè)試中表現(xiàn)最佳的模型。
可見(jiàn),OpenAI的新模型在實(shí)用價(jià)值以及性能上受到了眾多用戶的欣賞。但是,盡管享受著諸多肯定,OpenAI在接連發(fā)布新模型之后,批評(píng)與質(zhì)疑的聲音也更加刺耳。
首先,新模型在實(shí)際表現(xiàn)上依然存在誤差,而且未完全超越競(jìng)品。GPT-4.1系列模型的百萬(wàn)級(jí)Token上下文功能似乎并非完全可靠,當(dāng)輸入接近上限時(shí),模型準(zhǔn)確率會(huì)出現(xiàn)大幅回落。還有博主列舉了一部分基準(zhǔn)測(cè)試數(shù)據(jù),這些數(shù)據(jù)均顯示GPT 4.1并沒(méi)有擊敗Gemini 2.5 pro。
沃頓商學(xué)院教授Ethan Mollick則指出“o3的一個(gè)潛在問(wèn)題是,它認(rèn)為自己使用了工具,即使實(shí)際上并未使用,這導(dǎo)致了一些幻覺(jué),即它假設(shè)推理鏈中暗示的工作實(shí)際上已經(jīng)完成。”他也表示,Gemini 2.5并沒(méi)有出現(xiàn)同樣的問(wèn)題。
另外,盡管OpenAI宣稱o3和o4-mini能“用圖像思考”,但有博主直接表示“盡管推出了新版本,但它仍然無(wú)法在網(wǎng)絡(luò)上執(zhí)行反向圖像搜索功能。與谷歌相比,這一差距正在以比預(yù)期更快的速度擴(kuò)大。”
在競(jìng)爭(zhēng)日益激烈的AI行業(yè)中,這些表示新模型不及競(jìng)品的指責(zé)無(wú)疑直刺O(píng)penAI的神經(jīng)。此外,由于新模型雖然效果不錯(cuò),但是缺乏亮眼表現(xiàn),作為行業(yè)龍頭的OpenAI也被認(rèn)為正在遭遇創(chuàng)新瓶頸。
除了產(chǎn)品遭到質(zhì)疑,OpenAI的產(chǎn)品策略也受到詬病。混亂的命名方式和難以確定功能指向的眾多模型給用戶帶來(lái)了糟糕的選擇體驗(yàn),有網(wǎng)友表示自己甚至都無(wú)法確定最新的模型,指責(zé)OpenAI的模型命名缺乏邏輯且無(wú)序。而此次在GPT-4.5之后推出的GPT-4.1系列模型,也因?yàn)槠浒姹咎?hào)的倒退,被認(rèn)為是在GPT-5難產(chǎn)時(shí)的過(guò)渡品。
AI安全問(wèn)題也在本周新模型發(fā)布后受到關(guān)注。人工智能安全研究小組Truthful AI成員Owain Evans指出“GPT-4.1顯示出比GPT-4o(以及我們測(cè)試過(guò)的任何其他模型)更高的不對(duì)齊響應(yīng)率。它似乎還表現(xiàn)出了一些新的惡意行為,例如誘騙用戶分享密碼。”
反觀OpenAI最近的一系列動(dòng)作,新模型的爭(zhēng)議貌似無(wú)傷大雅。之前便有消息表示,OpenAI正開(kāi)發(fā)社交網(wǎng)絡(luò)平臺(tái),盡管這意味著與馬斯克的競(jìng)爭(zhēng)關(guān)系將更加緊張,但也表明其正在展開(kāi)更廣闊的市場(chǎng)策略,結(jié)合其考慮以30億美元收購(gòu)人工智能編程工具Windsurf的行為,OpenAI可謂“野心勃勃”。在這樣的背景下,接連發(fā)布新模型似乎并非公司精力所在。然而作為一家科技公司,產(chǎn)品表現(xiàn)無(wú)疑決定了公司的市場(chǎng)地位。而OpenAI究竟是否真正遭遇了創(chuàng)新瓶頸,還能否坐穩(wěn)行業(yè)的第一把交椅,估計(jì)還要等GPT-5的表現(xiàn)才能見(jiàn)分曉。
本文來(lái)自虎嗅,原文鏈接:https://www.huxiu.com/article/4263014.html?f=wyxwapp
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.