網易首頁 > 網易號 > 正文申請入駐

DeepSeek低調宣稱小更新，結果用2折價格達到R1水平

2025-03-25 15:25:12　來源: 知危

浙江舉報

分享至

昨晚，DeepSeek 無預警發布 DeepSeek-V3-0324 模型，此次更新雖被官方低調地稱為 “ 小版本迭代 ”，但實測表現遠超預期。

該模型尤其在代碼生成、前端開發等方面顯著提升，甚至部分能力比肩 Claude 3.7 Sonnet，引發全球 AI 社區熱議。

在大模型競技場測試 KCORES 中，DeepSeek-V3-0324 代碼能力得分 328.3 分，超越普通版 Claude 3.7 Sonnet（ 322.3 分），接近 Claude 3.7 Sonnet 的思維鏈版本（ 334.8分）。

在 Aider LLM Leaderboard 排行榜中，DeepSeek-V3-0324 在多語言基準測試中得分為 55%，比 V3 有顯著提升，比 R1 略低一些。在非思考/推理模型中，它排名第二，僅次于 Claude Sonnet 3.7 。

測試數據還表明，在表現良好的模型中，DeepSeek-V3-0324 花費是最低的，比 R1 還低很多，只需大約 1/5，擁有高到令人發指的性價比。

另外，Claude Sonnet 3.7 Thinking 的花費是 DeepSeek-V3-0324 的33 倍， o1 是 DeepSeek-V3-0324 的167 倍。

目前在 DeepSeek 官網，只需要關閉 “ 深度思考 ” 選項即可使用新模型。

Hugging Face 上也提供了開源下載，下載地址：
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main

DeepSeek-V3-0324 包含 685B 參數，較前代 V3 小幅增加，采用 MoE（專家混合）架構，激活參數 370 億。網友實測 DeepSeek-V3-0324 支持 4-bit 量化，可在 512GB M3 Ultra Mac上以 20+ token/s 速度運行，磁盤占用僅352GB。新模型采用與 DeepSeek-R1 相同的MIT許可，允許自由修改、商用及模型蒸餾，比上一版 V3 更開放。

從測評結果來看，DeepSeek-V3-0324 前端開發表現突出，媲美頂級商業模型。

X 博主 Deepanshu Sharma 僅用簡單提示詞（ “ 用 HTML/CSS/JS 制作現代化登錄頁面 ” ），就能讓新版 V3 一鍵生成 800+ 行代碼，且無錯誤運行，效果媲美 Claude 3.7 Sonnet 。

在經典彈跳小球測試中，DeepSeek V3-0324 不僅比 R1 表現更好，博主 Deepanshu Sharma 還認為它生成了最流暢的動作。

在測試中 o3-mini 最初表現看起來不錯，但并沒有正確遵循物理原理，尤其是在視頻中間，球對重力沒有做出正確的反應。

Deepanshu Sharma 評價 DeepSeek V3-0324“ 表現得像唯一排名第一的非推理模型 ”。

據 X 網友 karminski-牙醫介紹，在升級版的 20 小球物理模擬測試中，DeepSeek V3-0324 相比 V3 也表現更優。

而新版 V3 與頭部推理模型的比較情況如下：

在火星任務測試中，DeepSeek-V3-0324 提升巨大，星球、圖例渲染正確，發射和返回的窗口計算也有很大進步。

結合 UI 設計和物理模擬，X 網友 Parul Pandey 還用 DeepSeek-V3-0324 生成了一個可交互物理模擬界面，通過 AnyChat 使用 DeepSeek-V3-0324 模擬水分子。

實際運行中，可以通過溫度滑塊提升溫度，讓分子呈現越來越快的前進和碰撞反彈運動。

提示詞：創建一個交互式模擬，顯示水分子形成和斷裂氫鍵的過程，同時顯示溫度滑塊。

對于本次升級的技術難度，有 Reddit 網友 pigeon57434 給出了比較中立的解讀：不用太驚嘆本次 V3 升級的幅度，因為 RL（強化學習，Reinforcement Learning ）潛力極大。以 QwQ-32B 為例，盡管它實際上小了 20 倍，但它在某些方面的表現幾乎與 R1 一樣好，甚至比 R1 更好。它能那么強，只是因為擴展推理模型還有很大空間，甚至不需要新的基礎模型。我敢打賭，使用更復雜的技術，可以輕松獲得基于 DeepSeek-V2.5 的推理模型來擊敗 R1，更不用說這個新版本的 V3 了。

總的來說，這樣的免費+高性能的組合將對 OpenAI、Anthropic 等閉源商業模型形成越來越大的壓力。

DeepSeek 此次更新再次證明開源模型的爆發力，不僅技術指標逼近頂級商業AI，更以低成本、高自由度推動行業變革。

可以合理推測，此次更新有可能是R2的前置版本，類似去年 V3 ( 24.12.16 )→R1 ( 25.01.20 ) 的發布節奏，或許幾周內我們可能迎來更強的推理模型 R2。

隨著 R2 的臨近，全球 AI 競爭格局或將迎來新一輪洗牌。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.