DeepSeek、Google及OpenAI突發更新
深夜,當人們已經進入夢鄉之時,AI領域的競爭卻絲毫未減。
3月25日晚,DeepSeek突然在Hugging Face平臺發布了新版本DeepSeek-V3-0324模型。
這次更新延續了DeepSeek一貫低調的風格,沒有高調的宣傳,只有模型權重和一個空白的README文件。
而此次更新也一如既往地在AI社區內引發了不小的震動。
圖源:Hugging Face
從技術層面來看,DeepSeek-V3-0324很可能被視為DeepSeek即將推出的推理模型DeepSeek-R2的基礎。
此前,路透社曾透露,DeepSeek正在加快R1模型的后續產品R2的研發和發布進程,原計劃在5月初發布,但公司現在希望能夠盡早推出 。
不過,在隨后不久,DeepSeek官方迅速否認了該傳聞,表示消息不實。
業內人士推測,DeepSeek-R2模型預計將在代碼生成和除英語外的更多語種推理能力方面有不小的提升。
這也是為什么R2在全球都有人期待其快速到來。
而就在DeepSeek深夜更新其v3模型后一天時間內,AI領域的另一巨頭Google也突然在深夜發布了一項重磅更新——正式推出了全新的Gemini 2.5 Pro模型,并聲稱這是迄今為止最智能的AI模型。
Google強調,Gemini 2.5 Pro是一款具備“思考”能力的模型,能夠逐步分析任務,做出更明智的決策,從而在處理復雜提示時能夠給出更準確和更符合上下文的回復。
圖源:X平臺
Google選擇與DeepSeek幾乎在同一天發布其最新、最強大的模型,無疑是對市場競爭格局變化的積極回應。
然而,面對如此激烈的市場競爭,OpenAI并沒有選擇避其鋒芒。
這一次,OpenAI暫時放棄了在基座或推理模型方面的競爭,而是另辟蹊徑,對GPT-4o和Sora進行了重大升級,并推出了全新的文生圖模型。
OpenAI的CEO奧特曼親自站臺,稱這一新模型為“令人難以置信的產品”。
圖源:X平臺
在這場看似突然的三方混戰中,實則每個巨頭都有著自己的戰略重點。
DeepSeek此次更新專注于基座模型的優化。
眾所周知,目前主流的大模型一般分為兩種,一種是“基座模型”,字面意思就像是各種大模型的“地基”;
而另一種是“推理模型”,DeepSeek-R1就是其中之一。
此次更新的Gemini 2.5 Pro則也是推理模型中的一種。
谷歌這一次的發力,不僅打破了多項跑分記錄,該模型的實際體驗也十分出色,這點我們后續再說。
OpenAI的文生圖模型則類似處于另一維度,雖然都幾乎同步更新,也都給行業帶來了震撼,但OpenAI此次更新的時間實在是意味深長。
實測對比,誰更勝一籌?
盡管DeepSeek-V3-0324的發布方式非常低調,但其在技術上的進步卻不容忽視。
根據Artificial Analysis Intelligence Index的評估,DeepSeek-V3-0324已經成為得分最高的非推理模型。
在基準測試中超越了包括Google的Gemini 2.0 Pro、Anthropic的Claude 3.7 Sonnet以及Meta的Llama 3.3 70B等一眾明星模型 。
圖源:Artificial Analysis Intelligence Index
此外,在面對復雜問題時,DeepSeek-V3-0324的表現也可圈可點,特別是編程能力大幅提升。
根據Aider LLM的多語言基準測試,V3-0324的得分從之前的不到50%一舉提升到了55%。
尤其是在代碼生成方面,V3-0324已經能夠與Claude 3.7 Sonnet一決高下,甚至在某些任務上超越了DeepSeek自家的R1模型。
并且,作為咱中國自己的AI模型,這次更新后其中文寫作能力也得到了提升,風格和內容質量更加接近R1的標準,在中長篇文章的寫作方面也有所進步。
為什么這一點要單拎出來說?
因為大家都知道,DeepSeek的R1深度思考模型時常會出現服務器繁忙的現象,極度影響使用體驗。
而當我們把“深度思考(R1)”關閉后,使用的則是DeepSeek-V3。
因此在這一次更新過后,對于那些需要用DeepSeek寫文案的中國用戶來說,關閉R1使用V3或許是個不錯的選擇。
圖源:新華社
Google發布的Gemini 2.5 Pro同樣不容小覷。
根據公開測試結果,Gemini 2.5 Pro在多項測試中超越了現有主流模型。
它不僅在數學、科學和編碼基準測試中擊敗了DeepSeek-R1、Grok 3和Claude 3.7,還幾乎全面優于OpenAI家的兩款模型——o3-mini和GPT4.5。
Gemini 2.5 Pro現在在競技排行榜上位居第一,這是有史以來最大的分數跳躍,比Grok-3/GPT-4.5高出40分。
圖源:鯨AI
在模型正式上線后,許多外網網友實際體驗后表示,Gemini 2.5 Pro在處理復雜的編程任務時展現了過硬的實力,不僅速度很快,生成的結果質量也非常高。
為了更直觀地感受該模型的性能,這里編輯進行了一項對比測驗。
實測中,編輯使用同一提示詞:
隨后分別讓Gemini 2.5 Pro、DeepSeek-R1及更新后的DeepSeek-V3來完成這次任務。
實驗結果顯示,Gemini 2.5 Pro在輸出質量上表現最為出色。
它生成的游戲不僅具備完整的功能按鈕,實際操作體驗也非常良好。
圖源:Gemini
相比之下,DeepSeek-R1在輸出質量上稍遜一籌,生成的游戲雖然能夠運行,但在體驗卻有所欠缺。
生成的貪吃蛇游戲會經常直接判罰,且無重新開始的按鈕,只能自行創新網頁。
圖源:DeepSeek
反觀DeepSeek-V3給出的游戲則更加亮眼,同樣具備了功能性按鈕及正常的游戲操作體驗,用來空閑打發時間或者摸魚都是一把好手。
圖源:DeepSeek
在響應時間上,Gemini 2.5 Pro也最為出色。
多次實驗后發現,谷歌Gemini 2.5 Pro的響應時間幾乎都在1分鐘以內,推理及生成的速度都極快,當然這也與這次的任務比較簡單有關聯。
但DeepSeek方面,R1模型的響應速度平均在1-3分鐘之間,V3模型的響應速度則不太穩定,平均在2分鐘開外。
不過,DeepSeek也有自己的優點,用DeepSeek生成的網頁游戲可以一鍵加載,哪怕是部署到本地步驟也十分簡單。
圖源:DeepSeek
相比之下,Gemini 2.5 Pro生成的游戲部署則較為復雜。
但對于那些只需要代碼生成的用戶來說,這根本不算什么缺點。
圖源:Gemini
通過上述對比實驗,我們可以看到,雖然DeepSeek的更新有著顯著進步,但在性能及體驗上,Gemini 2.5 Pro帶來的震撼更勝一籌。
當然,DeepSeek-R2尚未到來,用早已更新的R1和V3來與谷歌的推理模型相比顯然不占優勢。
未來R2與Gemini 2.5 Pro的交鋒才是亮點。
OpenAI的文生圖模型,顛覆想象還是營銷噱頭?
另一方面,OpenAI此次發布的GPT-4o文生圖模型,單從官方演示的效果來看或許也是一款爆炸性顛覆的產品。
官方演示中,給出的提示詞是:
“這是用手機拍攝的玻璃白板的廣角圖像,拍攝地點是一間俯瞰海灣大橋的房間。視野中可以看到一位女士正在寫字,她身穿一件印有大型OpenAI標志的T恤。筆跡看起來很自然,但有點凌亂,我們可以看到攝影師的倒影。”
這樣的描述聽起來十分復雜,而最后生成的圖像質量之高卻令人難以置信。
從反射的畫面到密密麻麻的文字,每一個細節都處理得恰到好處,幾乎無法讓人相信這是AI生成的圖像。
圖源:OpenAI
第二步演示則更加驚艷,一句簡單的“攝影師的自拍照,她轉身與他擊掌”,最后得到的圖片不僅保留了原來的背景,圖片中的人物形象也十分貼合。
可以說,該模型完全理解了官方給出的提示詞,極大降低了普通用戶的使用門檻。
圖源:OpenAI
不過,這里也要暫時潑大家一盆冷水,正如一些從業者質疑的那樣,這段演示是否由官方特調還有待考量。
只有在更多用戶實際體驗的檢測下,才能判斷這款模型是否真的做到了“一句話完美P圖”。
但有一點不得不說,在DeepSeek和Google依然聚焦于基座模型和推理能力的傳統競爭時,OpenAI的文生圖模型則徹底跳出了這個框架。
通過視覺內容生成,OpenAI開辟了全新的應用場景,為行業帶來了更大的想象空間。
這種差異化競爭的策略不僅避免了與對手的正面沖突,還為OpenAI又一次開辟了新的市場空間。
隨著技術的不斷迭代,未來還將有怎樣的驚喜?讓我們拭目以待。
作者 | 劉峰
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.