網易首頁 > 網易號 > 正文申請入駐

DeepSeek V3來了老外評測結果：很不錯

2025-03-28 15:23:21　來源: 極客網

上海舉報

分享至

近期，DeepSeek-V3-0324正式發布，迅速在全球AI領域引發熱議。相較于前作，V3版本雖未實現顛覆性創新，卻在推理和編程兩大關鍵領域取得進步，為用戶帶來新的驚喜。

DeepSeek向來秉持低調策略，在推出新版本時，既不發布白皮書進行詳細闡述，也沒有召開盛大發布會，僅將模型上傳至Hugging Face平臺。盡管如此，憑借卓越的性能，DeepSeek的每一次更新，都能成功吸引AI社區的高度關注。

這一次，V3-0324展現出更強大的復雜任務處理能力，在面對復雜問題時，能對任務有更深入理解，并提供更有效的解決方案。對于Web設計師而言，V3能夠生成更為簡潔高效的代碼，顯著提升Web頁面和游戲界面的質量，極大提高工作效率。

和R1版本一樣，效率依舊是V3-0324的一大突出優勢。當前，許多AI模型的運行和訓練依賴超級計算機，這類設備雖然擁有強大的運算能力，能夠處理海量數據，但使用成本極高。與之相比，V3-0324在維持高性能的同時，有效控制了成本，這使得更多開發者和企業能夠輕松使用該模型，進一步推動AI技術的普及與應用。

專家：開源模型最終會成為贏家

有趣的是，該版本在多個關鍵領域的進步，與谷歌Gemini 2.5 Pro極為相似，不僅在編程能力上大幅提升，推理水平更加出色，在token的使用效率上同樣有了進步。

從參數規模來看，DeepSeek之前推出的R1擁有6710億參數，而V3則達到6850億，參數數量略高于前代。這一變化讓業界普遍認為，V3將成為R2版本的重要基礎。AIcpb.com創始人Li Bang zhu指出，V3在編程方面顯著提升，為R2奠定了良好基礎。R2原計劃于5月初推出，一些專家認為，R2可能會提前和大家見面。

在推理能力上，DeepSeek-V3-0324展現出卓越的實力。在MMLU-Pro基準測試中，其準確率從75.9%提升至81.2%；在GPQA測試中，準確率從59.1%提升至68.4%；在AIME測試中，準確率從39.6%大幅躍升至59.4%；在LiveCodeBench測試中也從39.2%提升至49.2%。

加州大學博士、奧林匹克數學金牌得主Jasper Zhang用AIME 2025難題對DeepSeek-V3-0324進行嚴格測試，結果顯示，V3各項表現出色。基于此，Jasper Zhang對開源模型充滿信心，堅信其在未來的AI競賽中能夠獲勝。目前，他創建的Hyperbolic公司已全面支持V3模型。

眾多外媒在性能測試后普遍得出結論：V3-0324相較R1版本，性能有了飛躍。蘋果設備研究人員Awni Hannun確認，在搭載M3 Ultra芯片的Mac設備上，V3的運行效率可達每秒20 tokens，他認為，以前人們都認為AI模型需要企業級基礎設施，現在證明并非如此。這一數據不僅彰顯了V3-0324的高效，更表明DeepSeek在面對OpenAI等行業巨頭時沒有落后，還證明了AI模型運行對企業級基礎設施的依賴并非不可撼動。

一直以來，AI模型的運行高度依賴英偉達GPU，高昂的價格讓許多開發者望而卻步。與之形成鮮明對比的是，Mac Studio在進行推理時功耗不到200瓦，極大降低了使用成本。

開發者兼AI專家Simon Willison敏銳地指出，V3-0324支持本地部署，這一特性或將推動AI產業發生深刻變革。以往，AI模型多部署于中心化數據中心，而未來，部署方式將朝著去中心化、高效化方向發展，消費級設備在AI應用中將發揮更大作用。

普通開發者：很強，但編程還要優化

一位名叫Hamed的國外開發者發表評論稱，讓Gemini 2.5 pro和DeepSeek-V3-0324編寫代碼，制作國際象棋小程序，前者生成570行代碼，后者生成2372行。

開發者vewin說：“V3-0324相當強大，它用R1約十分之一的token成本獲得了相似的性能。”

Julian Goldie SEO則表示，在內容生成方面，V3-0324超越了谷歌Gemini 2.5。評測之后他得出幾個結論：DeepSeek撰寫的內容更有說服力，Gemini的推理能力十分出色，二者都能免費使用，但它們的API功能都有一些Bug。

開發者Hassan認為：“根據我的測試，V3更聰明了，這種聰明是全方位的，編程相當優秀，執行前端任務更是如此。”

開發者bilLkarkariy要求V3-0324和Gemini Pro 2.5為應用程序設計一個登錄頁面，對比之后他感到震驚，DeepSeek給出了完整、立刻就能用的解決方案。

當然，有人肯定也有人否定。

一位名叫Bindu Reddy的女性開發者提出反對意見，她認為：“V3非常快，是一個巨大的進步，但在真實編程中，V3仍然離Sonnet3.7有不小差距。”專門評測大模型的Markus Zimmermann認為：“用DevQualityEval 1.0測試，發現V3-0324的表現不如之前的DeepSeek V3。”

總體而言，開發者對V3-0324相當肯定，負面聲音比較小。

開發者Petri Kuittinen讓V3給AI企業制作漂亮的響應式前端網頁，只需要一條提示語，就能將各種元素融合進去。他認為，DeepSeek V3-0324是DeepSeek最好的非推理模型，通常更適合創意性寫作任務，比R1更適合制作HTML5+CSS+前端。在上面的任務中，它生成958行代碼，里面包括圖片、交互式網站。

Petri Kuittinen認為：“Anthropic和OpenAI已經陷入麻煩。V3-0324真的可以編程，可以制作漂亮的HTML5、CSS，前端部署相當容易，而且免費使用。”（小刀）

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.