網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文申請(qǐng)入駐

OpenAI還能扛起人工智能的大旗嗎？

2025-04-21 22:11:10　來(lái)源: 虎嗅APP

北京舉報(bào)

分享至

出品｜虎嗅科技組

作者｜孫曉晨

編輯｜苗正卿

頭圖｜視覺(jué)中國(guó)

OpenAI在一周時(shí)間內(nèi)相繼發(fā)布GPT-4.1系列模型（包括GPT-4.1、GPT-4.1 mini以及GPT-4.1 nano）、OpenAI o3和o4-mini，但是新模型似乎并未如預(yù)想般“石破天驚”，反而將OpenAI拖入爭(zhēng)論之中。

實(shí)際上，單獨(dú)觀察此次接連發(fā)布的新模型，其功能依然“能打”。

首先是GPT-4.1系列模型，據(jù)OpenAI介紹，GPT-4.1系列模型相較于GPT-4o升級(jí)明顯，其在編碼、指令遵循和長(zhǎng)文本處理方面實(shí)現(xiàn)了重大改進(jìn)，尤其在長(zhǎng)文本處理方面，該系列模型支持高達(dá)一百萬(wàn)Token上下文，且無(wú)額外費(fèi)用。

而OpenAI o3和o4-mini能夠代理地使用并整合ChatGPT內(nèi)的所有工具，包括網(wǎng)絡(luò)搜索、Python、圖像分析、文件解讀和圖像生成。此外，o3和o4-mini還將上傳圖像直接整合到其思維鏈中，不僅僅能“看到”圖像，而且還能“用圖像思考”。在OpenAI的宣傳中，o3和o4-mini甚至被稱為“迄今為止OpenAI最智能、功能最強(qiáng)大的模型”。

新模型的實(shí)際使用體驗(yàn)也不錯(cuò)。國(guó)外博主Clive Chan表示，在自己所有的工作流程（如光標(biāo)操作等）中，4.1基本上已經(jīng)取代了 o3-mini，且表現(xiàn)優(yōu)異。醫(yī)學(xué)博士Dr. Datta也指出，在為醫(yī)院放射科構(gòu)建代理型工作流程過(guò)程中，GPT-4.1 nano在降低成本的同時(shí)實(shí)現(xiàn)了響應(yīng)速度顯著提升。他表示“在放射學(xué)和醫(yī)學(xué)領(lǐng)域，延遲是應(yīng)用的最大障礙。模型生成報(bào)告的時(shí)間不能超過(guò)10秒。通過(guò)GPT-4.1 nano，我們現(xiàn)在甚至能在復(fù)雜的報(bào)告生成和網(wǎng)絡(luò)搜索的結(jié)構(gòu)化提取中實(shí)現(xiàn)低于10秒的響應(yīng)時(shí)間。”

AI&I播客主持人Dan Shipper則通過(guò)具體的使用案例表達(dá)了對(duì)o3模型的贊許，稱其“速度快、主動(dòng)性強(qiáng)、極其聰明”。此外，博主Malte Landwehr表示，o3、o4-mini和o4-mini-high是OpenAI在其專注于德語(yǔ)的LLM基準(zhǔn)測(cè)試中表現(xiàn)最佳的模型。

可見(jiàn)，OpenAI的新模型在實(shí)用價(jià)值以及性能上受到了眾多用戶的欣賞。但是，盡管享受著諸多肯定，OpenAI在接連發(fā)布新模型之后，批評(píng)與質(zhì)疑的聲音也更加刺耳。

首先，新模型在實(shí)際表現(xiàn)上依然存在誤差，而且未完全超越競(jìng)品。GPT-4.1系列模型的百萬(wàn)級(jí)Token上下文功能似乎并非完全可靠，當(dāng)輸入接近上限時(shí)，模型準(zhǔn)確率會(huì)出現(xiàn)大幅回落。還有博主列舉了一部分基準(zhǔn)測(cè)試數(shù)據(jù)，這些數(shù)據(jù)均顯示GPT 4.1并沒(méi)有擊敗Gemini 2.5 pro。

沃頓商學(xué)院教授Ethan Mollick則指出“o3的一個(gè)潛在問(wèn)題是，它認(rèn)為自己使用了工具，即使實(shí)際上并未使用，這導(dǎo)致了一些幻覺(jué)，即它假設(shè)推理鏈中暗示的工作實(shí)際上已經(jīng)完成。”他也表示，Gemini 2.5并沒(méi)有出現(xiàn)同樣的問(wèn)題。

另外，盡管OpenAI宣稱o3和o4-mini能“用圖像思考”，但有博主直接表示“盡管推出了新版本，但它仍然無(wú)法在網(wǎng)絡(luò)上執(zhí)行反向圖像搜索功能。與谷歌相比，這一差距正在以比預(yù)期更快的速度擴(kuò)大。”

在競(jìng)爭(zhēng)日益激烈的AI行業(yè)中，這些表示新模型不及競(jìng)品的指責(zé)無(wú)疑直刺O(píng)penAI的神經(jīng)。此外，由于新模型雖然效果不錯(cuò)，但是缺乏亮眼表現(xiàn)，作為行業(yè)龍頭的OpenAI也被認(rèn)為正在遭遇創(chuàng)新瓶頸。

除了產(chǎn)品遭到質(zhì)疑，OpenAI的產(chǎn)品策略也受到詬病。混亂的命名方式和難以確定功能指向的眾多模型給用戶帶來(lái)了糟糕的選擇體驗(yàn)，有網(wǎng)友表示自己甚至都無(wú)法確定最新的模型，指責(zé)OpenAI的模型命名缺乏邏輯且無(wú)序。而此次在GPT-4.5之后推出的GPT-4.1系列模型，也因?yàn)槠浒姹咎?hào)的倒退，被認(rèn)為是在GPT-5難產(chǎn)時(shí)的過(guò)渡品。

AI安全問(wèn)題也在本周新模型發(fā)布后受到關(guān)注。人工智能安全研究小組Truthful AI成員Owain Evans指出“GPT-4.1顯示出比GPT-4o（以及我們測(cè)試過(guò)的任何其他模型）更高的不對(duì)齊響應(yīng)率。它似乎還表現(xiàn)出了一些新的惡意行為，例如誘騙用戶分享密碼。”

反觀OpenAI最近的一系列動(dòng)作，新模型的爭(zhēng)議貌似無(wú)傷大雅。之前便有消息表示，OpenAI正開(kāi)發(fā)社交網(wǎng)絡(luò)平臺(tái)，盡管這意味著與馬斯克的競(jìng)爭(zhēng)關(guān)系將更加緊張，但也表明其正在展開(kāi)更廣闊的市場(chǎng)策略，結(jié)合其考慮以30億美元收購(gòu)人工智能編程工具Windsurf的行為，OpenAI可謂“野心勃勃”。在這樣的背景下，接連發(fā)布新模型似乎并非公司精力所在。然而作為一家科技公司，產(chǎn)品表現(xiàn)無(wú)疑決定了公司的市場(chǎng)地位。而OpenAI究竟是否真正遭遇了創(chuàng)新瓶頸，還能否坐穩(wěn)行業(yè)的第一把交椅，估計(jì)還要等GPT-5的表現(xiàn)才能見(jiàn)分曉。

本文來(lái)自虎嗅，原文鏈接：https://www.huxiu.com/article/4263014.html?f=wyxwapp

特別聲明：以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布，本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.