3 月 24 日晚間,DeepSeek 悄然發布一款新的大語言模型——DeepSeek-V3-0324。
這款 641GB 大小的模型在 Hugging Face 上亮相,只有一個空的 README 文件和模型權重,依舊是幾乎未作任何宣傳。DeepSeek-V3-0324 基于 4 位模式,在配備 mlx-lm 的 512GB M3 Ultra 上運行速度超過每秒 20 個 tokens。
DeepSeek-V3-0324 采用混合專家(MoE,mixture-of-experts)架構。傳統模型在執行每項任務時都會激活全部參數,但 DeepSeek 的方法在特定任務中僅激活其 6850 億個參數中的大約 370 億個參數。
這種選擇性激活代表了模型效率的范式轉變,通過僅僅激活每個特定任務最相關的“專家”參數,DeepSeek 實現了與規模大得多的全激活模型相當的性能,同時大幅降低了計算需求。
DeepSeek-V3-0324 還融合了兩項額外的突破性技術:多頭潛在注意力(MLA,Multi-Head Latent Attention)和多標記預測(MTP,Multi-Token Prediction)。多頭潛在注意力增強了模型在長篇文本中保持上下文的能力,而多標記預測則改變了通常一次只能生成一個 token 的方法,改為每步生成多個 tokens。這些創新共同將輸出速度提高了近 80%。此次發布的新模型使用了 MIT 開源許可,這允許其免費用于商業用途。
早期測試者公開表示,新版本相較于舊版本有了顯著提升。一名昵稱為 Xeophon 的 AI 研究員在 X 上發帖稱:“我在自己的基準上測試了新的 DeepSeek V3,它在所有測試中的所有指標上都有巨大提升。它現已超越(Claude)Sonnet 3.5,是一個最佳的非推理模型。”
(來源:https://x.com/TheXeophon/status/)
如果這一說法能夠通過更廣泛的測試得到驗證,那么 DeepSeek 的新模型將超越 Anthropic 的 Claude Sonnet 3.5。但是,與需要訂閱的 Claude Sonnet 3.5 不同的是,DeepSeek-V3-0324 的權重免費供任何人下載和使用。
開發者工具創建者西蒙·威利森(Simon Willison)在一篇博客中指出,4 位量化版本可將存儲空間占用降至 352GB,從而使其能夠在配備 M3 Ultra 芯片的 Mac Studio 等高端消費級硬件上運行。雖然價值 9499 美元的 Mac Studio 可能超出了“消費級硬件”的定義,但能在本地運行如此龐大的模型,已經比較難得。
這代表著 AI 部署領域可能發生的重大轉變。傳統 AI 基礎設施通常依賴于多個英偉達 GPU,這些處理器會消耗數千瓦的功率,而 Mac Studio 在推理過程中的功耗卻不到 200 瓦。這一效率差距表明,AI 行業可能需要重新考慮對于頂級模型性能所需基礎設施的假設。
目前,DeepSeek-V3-0324 完整的模型權重可以從 Hugging Face 獲取,但 641GB 的大小使得直接下載僅適用于擁有大量存儲和計算資源的人。對于大多數用戶來說,基于云的選擇提供了最容易訪問的入口點。OpenRouter 提供對模型的免費 API 訪問,并配有用戶友好的聊天界面,只需選擇 DeepSeek-V3-0324 作為模型即可開始實驗。想要將該模型集成到應用程序中的開發者可以通過各種推理服務提供商來訪問它。Hyperbolic Labs 宣布自己已經成為“Hugging Face 上首個為該模型提供服務的推理服務提供商”,而 OpenRouter 則能提供 API 訪問。
DeepSeek 在 chat.deepseek.com 上的自有聊天界面可能也已更新至新版本,盡管該公司尚未明確確認此事。因此有早期用戶報告稱,通過該平臺可以訪問該模型,且其性能優于之前的版本。
早期用戶公開表示,該模型的溝通風格發生了明顯變化。雖然之前的 DeepSeek 模型因其對話式、類似人類的語氣而受到稱贊,但“V3-0324”展現出了更為正式、技術導向的形象。
這種個性轉變很可能反映了 DeepSeek 工程師們深思熟慮的設計選擇。向更精確、更具分析性的溝通風格的轉變,表明該模型正進行戰略性重新定位,以便適應專業應用和技術應用。
對于構建專門應用程序的開發人員而言,這種更為精確的溝通方式實際上可能是一種優勢,因為它能為集成到專業工作流程中提供更清晰、更一致的輸出。
(來源:資料圖)
有分析指出,DeepSeek-V3-0324 的發布時機和特性強烈表明,它將成為 DeepSeek-R2 的基礎模型,后者是一款預計將在未來兩個月內推出的、以推理能力為重點的改進型模型。這遵循了 DeepSeek 的既定模式,即基礎模型比專業推理模型早推出幾周。
昵稱為 mxforest 的 Reddit 用戶指出:“這與他們在(2024 年)圣誕節前后發布 V3,幾周后發布 R1 的情況相符。R2 傳聞將于(2025 年)四月發布,所以可能就是這個時候了。”
如果 DeepSeek-R2 遵循 R1 設定的軌跡,它可能會對 OpenAI 的下一個旗艦模型 GPT-5 構成直接挑戰,據傳 GPT-5 將在未來幾個月內發布。
外媒認為:“DeepSeek 的發布策略體現了中國公司和西方公司在 AI 商業理念上的根本分歧。盡管 OpenAI 和 Anthropic 等美國領軍企業將模型置于付費門檻之后,但中國的 AI 公司卻日益傾向于采用寬松的開源許可。”
開源方法還解決了中國 AI 公司面臨的獨特挑戰。由于在獲取尖端英偉達芯片方面受到限制,中國公司強調效率和優化,以在更有限的計算資源下實現具有競爭力的性能,這種由需求驅動的創新現已成為潛在的競爭優勢。
參考資料:
https://siliconangle.com/2025/03/24/deepseek-releases-improved-deepseek-v3-model-mit-license/
https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
https://x.com/TheXeophon/status/1904225899957936314/photo/1
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.