昨晚,DeepSeek 無預警發布 DeepSeek-V3-0324 模型,此次更新雖被官方低調地稱為 “ 小版本迭代 ”,但實測表現遠超預期。
該模型尤其在代碼生成、前端開發等方面顯著提升,甚至部分能力比肩 Claude 3.7 Sonnet,引發全球 AI 社區熱議。
在大模型競技場測試 KCORES 中,DeepSeek-V3-0324 代碼能力得分 328.3 分,超越普通版 Claude 3.7 Sonnet( 322.3 分 ),接近 Claude 3.7 Sonnet 的思維鏈版本( 334.8分 )。
在 Aider LLM Leaderboard 排行榜中,DeepSeek-V3-0324 在多語言基準測試中得分為 55%,比 V3 有顯著提升,比 R1 略低一些。在非思考/推理模型中,它排名第二,僅次于 Claude Sonnet 3.7 。
測試數據還表明,在表現良好的模型中,DeepSeek-V3-0324 花費是最低的,比 R1 還低很多,只需大約 1/5,擁有高到令人發指的性價比。
另外,Claude Sonnet 3.7 Thinking 的花費是 DeepSeek-V3-0324 的33 倍, o1 是 DeepSeek-V3-0324 的167 倍。
目前在 DeepSeek 官網,只需要關閉 “ 深度思考 ” 選項即可使用新模型。
Hugging Face 上也提供了開源下載,下載地址:
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main
DeepSeek-V3-0324 包含 685B 參數,較前代 V3 小幅增加,采用 MoE( 專家混合 )架構,激活參數 370 億。網友實測 DeepSeek-V3-0324 支持 4-bit 量化,可在 512GB M3 Ultra Mac上以 20+ token/s 速度運行,磁盤占用僅352GB。新模型采用與 DeepSeek-R1 相同的MIT許可,允許自由修改、商用及模型蒸餾,比上一版 V3 更開放。
從測評結果來看,DeepSeek-V3-0324 前端開發表現突出,媲美頂級商業模型。
X 博主 Deepanshu Sharma 僅用簡單提示詞( “ 用 HTML/CSS/JS 制作現代化登錄頁面 ” ),就能讓新版 V3 一鍵生成 800+ 行代碼,且無錯誤運行,效果媲美 Claude 3.7 Sonnet 。
在經典彈跳小球測試中,DeepSeek V3-0324 不僅比 R1 表現更好,博主 Deepanshu Sharma 還認為它生成了最流暢的動作。
在測試中 o3-mini 最初表現看起來不錯,但并沒有正確遵循物理原理,尤其是在視頻中間,球對重力沒有做出正確的反應。
Deepanshu Sharma 評價 DeepSeek V3-0324“ 表現得像唯一排名第一的非推理模型 ”。
據 X 網友 karminski-牙醫介紹,在升級版的 20 小球物理模擬測試中,DeepSeek V3-0324 相比 V3 也表現更優。
而新版 V3 與頭部推理模型的比較情況如下:
在火星任務測試中,DeepSeek-V3-0324 提升巨大,星球、圖例渲染正確,發射和返回的窗口計算也有很大進步。
結合 UI 設計和物理模擬,X 網友 Parul Pandey 還用 DeepSeek-V3-0324 生成了一個可交互物理模擬界面,通過 AnyChat 使用 DeepSeek-V3-0324 模擬水分子。
實際運行中,可以通過溫度滑塊提升溫度,讓分子呈現越來越快的前進和碰撞反彈運動。
提示詞:創建一個交互式模擬,顯示水分子形成和斷裂氫鍵的過程,同時顯示溫度滑塊。
對于本次升級的技術難度,有 Reddit 網友 pigeon57434 給出了比較中立的解讀:不用太驚嘆本次 V3 升級的幅度,因為 RL( 強化學習,Reinforcement Learning )潛力極大。以 QwQ-32B 為例,盡管它實際上小了 20 倍,但它在某些方面的表現幾乎與 R1 一樣好,甚至比 R1 更好。它能那么強,只是因為擴展推理模型還有很大空間,甚至不需要新的基礎模型。我敢打賭,使用更復雜的技術,可以輕松獲得基于 DeepSeek-V2.5 的推理模型來擊敗 R1,更不用說這個新版本的 V3 了。
總的來說,這樣的免費+高性能的組合將對 OpenAI、Anthropic 等閉源商業模型形成越來越大的壓力。
DeepSeek 此次更新再次證明開源模型的爆發力,不僅技術指標逼近頂級商業AI,更以低成本、高自由度推動行業變革。
可以合理推測,此次更新有可能是R2的前置版本,類似去年 V3 ( 24.12.16 )→R1 ( 25.01.20 ) 的發布節奏,或許幾周內我們可能迎來更強的推理模型 R2。
隨著 R2 的臨近,全球 AI 競爭格局或將迎來新一輪洗牌。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.