99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

DeepSeek悄然上線新版V3模型,R2模型或不遠矣?

0
分享至

3 月 24 日晚間,DeepSeek 悄然發布一款新的大語言模型——DeepSeek-V3-0324。

這款 641GB 大小的模型在 Hugging Face 上亮相,只有一個空的 README 文件和模型權重,依舊是幾乎未作任何宣傳。DeepSeek-V3-0324 基于 4 位模式,在配備 mlx-lm 的 512GB M3 Ultra 上運行速度超過每秒 20 個 tokens。

DeepSeek-V3-0324 采用混合專家(MoE,mixture-of-experts)架構。傳統模型在執行每項任務時都會激活全部參數,但 DeepSeek 的方法在特定任務中僅激活其 6850 億個參數中的大約 370 億個參數。

這種選擇性激活代表了模型效率的范式轉變,通過僅僅激活每個特定任務最相關的“專家”參數,DeepSeek 實現了與規模大得多的全激活模型相當的性能,同時大幅降低了計算需求。

DeepSeek-V3-0324 還融合了兩項額外的突破性技術:多頭潛在注意力(MLA,Multi-Head Latent Attention)和多標記預測(MTP,Multi-Token Prediction)。多頭潛在注意力增強了模型在長篇文本中保持上下文的能力,而多標記預測則改變了通常一次只能生成一個 token 的方法,改為每步生成多個 tokens。這些創新共同將輸出速度提高了近 80%。此次發布的新模型使用了 MIT 開源許可,這允許其免費用于商業用途。

早期測試者公開表示,新版本相較于舊版本有了顯著提升。一名昵稱為 Xeophon 的 AI 研究員在 X 上發帖稱:“我在自己的基準上測試了新的 DeepSeek V3,它在所有測試中的所有指標上都有巨大提升。它現已超越(Claude)Sonnet 3.5,是一個最佳的非推理模型。”


(來源:https://x.com/TheXeophon/status/)

如果這一說法能夠通過更廣泛的測試得到驗證,那么 DeepSeek 的新模型將超越 Anthropic 的 Claude Sonnet 3.5。但是,與需要訂閱的 Claude Sonnet 3.5 不同的是,DeepSeek-V3-0324 的權重免費供任何人下載和使用。

開發者工具創建者西蒙·威利森(Simon Willison)在一篇博客中指出,4 位量化版本可將存儲空間占用降至 352GB,從而使其能夠在配備 M3 Ultra 芯片的 Mac Studio 等高端消費級硬件上運行。雖然價值 9499 美元的 Mac Studio 可能超出了“消費級硬件”的定義,但能在本地運行如此龐大的模型,已經比較難得。

這代表著 AI 部署領域可能發生的重大轉變。傳統 AI 基礎設施通常依賴于多個英偉達 GPU,這些處理器會消耗數千瓦的功率,而 Mac Studio 在推理過程中的功耗卻不到 200 瓦。這一效率差距表明,AI 行業可能需要重新考慮對于頂級模型性能所需基礎設施的假設。

目前,DeepSeek-V3-0324 完整的模型權重可以從 Hugging Face 獲取,但 641GB 的大小使得直接下載僅適用于擁有大量存儲和計算資源的人。對于大多數用戶來說,基于云的選擇提供了最容易訪問的入口點。OpenRouter 提供對模型的免費 API 訪問,并配有用戶友好的聊天界面,只需選擇 DeepSeek-V3-0324 作為模型即可開始實驗。想要將該模型集成到應用程序中的開發者可以通過各種推理服務提供商來訪問它。Hyperbolic Labs 宣布自己已經成為“Hugging Face 上首個為該模型提供服務的推理服務提供商”,而 OpenRouter 則能提供 API 訪問。

DeepSeek 在 chat.deepseek.com 上的自有聊天界面可能也已更新至新版本,盡管該公司尚未明確確認此事。因此有早期用戶報告稱,通過該平臺可以訪問該模型,且其性能優于之前的版本。

早期用戶公開表示,該模型的溝通風格發生了明顯變化。雖然之前的 DeepSeek 模型因其對話式、類似人類的語氣而受到稱贊,但“V3-0324”展現出了更為正式、技術導向的形象。

這種個性轉變很可能反映了 DeepSeek 工程師們深思熟慮的設計選擇。向更精確、更具分析性的溝通風格的轉變,表明該模型正進行戰略性重新定位,以便適應專業應用和技術應用。

對于構建專門應用程序的開發人員而言,這種更為精確的溝通方式實際上可能是一種優勢,因為它能為集成到專業工作流程中提供更清晰、更一致的輸出。


(來源:資料圖)

有分析指出,DeepSeek-V3-0324 的發布時機和特性強烈表明,它將成為 DeepSeek-R2 的基礎模型,后者是一款預計將在未來兩個月內推出的、以推理能力為重點的改進型模型。這遵循了 DeepSeek 的既定模式,即基礎模型比專業推理模型早推出幾周。

昵稱為 mxforest 的 Reddit 用戶指出:“這與他們在(2024 年)圣誕節前后發布 V3,幾周后發布 R1 的情況相符。R2 傳聞將于(2025 年)四月發布,所以可能就是這個時候了。”

如果 DeepSeek-R2 遵循 R1 設定的軌跡,它可能會對 OpenAI 的下一個旗艦模型 GPT-5 構成直接挑戰,據傳 GPT-5 將在未來幾個月內發布。

外媒認為:“DeepSeek 的發布策略體現了中國公司和西方公司在 AI 商業理念上的根本分歧。盡管 OpenAI 和 Anthropic 等美國領軍企業將模型置于付費門檻之后,但中國的 AI 公司卻日益傾向于采用寬松的開源許可。”

開源方法還解決了中國 AI 公司面臨的獨特挑戰。由于在獲取尖端英偉達芯片方面受到限制,中國公司強調效率和優化,以在更有限的計算資源下實現具有競爭力的性能,這種由需求驅動的創新現已成為潛在的競爭優勢。

參考資料:

https://siliconangle.com/2025/03/24/deepseek-releases-improved-deepseek-v3-model-mit-license/

https://huggingface.co/deepseek-ai/DeepSeek-V3-0324

https://x.com/TheXeophon/status/1904225899957936314/photo/1

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普終于惹上硬茬了!澳大利亞ABC感慨:他除了退縮別無選擇

特朗普終于惹上硬茬了!澳大利亞ABC感慨:他除了退縮別無選擇

風華講史
2025-04-15 17:26:57
澤連斯基的無奈

澤連斯基的無奈

求實處
2025-04-15 21:02:11
英偉達:世界性能最強AI芯片將首次在美國制造,未來4年美國生產超3.6萬億AI算力|鈦媒體AGI

英偉達:世界性能最強AI芯片將首次在美國制造,未來4年美國生產超3.6萬億AI算力|鈦媒體AGI

鈦媒體APP
2025-04-14 22:59:19
孟小冬晚年:我的兩任丈夫,梅蘭芳是偽君子,杜月笙是真“流氓”

孟小冬晚年:我的兩任丈夫,梅蘭芳是偽君子,杜月笙是真“流氓”

逍遙史記
2025-04-15 14:42:40
貝林厄姆:知道賴斯的定位球很出色,但從未見過他這樣踢任意球

貝林厄姆:知道賴斯的定位球很出色,但從未見過他這樣踢任意球

直播吧
2025-04-16 06:53:03
無償為鄰居兒子補課,她竟反手舉報,高考結束后她崩潰大哭!

無償為鄰居兒子補課,她竟反手舉報,高考結束后她崩潰大哭!

黃家湖的憂傷
2025-03-12 17:19:44
小米這個只賣211元的1T新品,把全網友都看傻了

小米這個只賣211元的1T新品,把全網友都看傻了

鋒潮評測
2025-04-15 18:43:54
10年后最可能貶成"白菜價"的8大資產:現在當寶的以后可能喂豬

10年后最可能貶成"白菜價"的8大資產:現在當寶的以后可能喂豬

阿器談史
2025-04-12 09:11:38
馬斯克的私人飛機豪華內景曝光,億萬富翁的飛行喜好也被泄露

馬斯克的私人飛機豪華內景曝光,億萬富翁的飛行喜好也被泄露

譯言
2025-04-15 22:22:02
交易繼續,巴拿馬港口仍交貝萊德?港澳辦主任:背叛國家沒好下場

交易繼續,巴拿馬港口仍交貝萊德?港澳辦主任:背叛國家沒好下場

叮當當科技
2025-04-15 19:48:40
相聲演員笑林:不抽煙、不喝酒,一天100個俯臥撐,59歲驟然離世

相聲演員笑林:不抽煙、不喝酒,一天100個俯臥撐,59歲驟然離世

趣談人物紀
2025-04-14 20:15:03
福建美女“覃姐姐”去世,年僅26歲,司機開小米su7超速將其撞飛

福建美女“覃姐姐”去世,年僅26歲,司機開小米su7超速將其撞飛

180°視角
2025-04-15 12:33:40
前夫怒斥 Selina 毀容腿像蜂窩:三姐妹20年不撕 x 真相太殘酷

前夫怒斥 Selina 毀容腿像蜂窩:三姐妹20年不撕 x 真相太殘酷

TVB的四小花
2025-04-14 10:35:17
和熟悉的人結婚是種什么感覺?網友:新婚夜為愛鼓掌居然笑場三次

和熟悉的人結婚是種什么感覺?網友:新婚夜為愛鼓掌居然笑場三次

特約前排觀眾
2025-04-12 00:20:05
丈夫偶然拍下妻子慵懶的神態,結果成了公認的美女

丈夫偶然拍下妻子慵懶的神態,結果成了公認的美女

深度報
2025-04-09 23:23:25
“新型啃老”正在全國蔓延:孩子不上班也不伸手要錢,3000塊能活

“新型啃老”正在全國蔓延:孩子不上班也不伸手要錢,3000塊能活

巢客HOME
2025-04-05 23:19:55
與大巴車迎面相撞車主連擦傷都沒有,當場又訂一臺Model Y

與大巴車迎面相撞車主連擦傷都沒有,當場又訂一臺Model Y

特空間
2025-04-14 13:41:23
上班前后判若兩人?人一旦染上班味兒,班味要溢出屏幕了!

上班前后判若兩人?人一旦染上班味兒,班味要溢出屏幕了!

滑稽斑馬呀
2025-04-15 16:20:23
受賄2.07億余元,江西省人大常委會原副主任殷美根一審被判死緩

受賄2.07億余元,江西省人大常委會原副主任殷美根一審被判死緩

界面新聞
2025-04-15 17:01:52
美智庫:如果中國不再向美國出售任何東西,中國還能繼續繁榮嗎?

美智庫:如果中國不再向美國出售任何東西,中國還能繼續繁榮嗎?

小鬼頭體育
2025-04-12 01:19:14
2025-04-16 09:04:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15065文章數 513545關注度
往期回顧 全部

科技要聞

英偉達盤后一度跌超6%,發生了什么?

頭條要聞

老人7年打賞女主播10萬 被趕出家門后撿廢品繼續打賞

頭條要聞

老人7年打賞女主播10萬 被趕出家門后撿廢品繼續打賞

體育要聞

惡性循環!錫伯杜的壓榨哲學是對是錯?

娛樂要聞

娛樂圈模范夫妻塌房?私生活曝光!

財經要聞

踩準大新聞步點 特朗普死黨炒股大賺

汽車要聞

19.99萬起 廣汽本田P7能在新能源分一杯羹?

態度原創

本地
房產
教育
手機
公開課

本地新聞

云游湖北|相約安陸,解鎖限定版粉色春天

房產要聞

牛!引入廣州中學九年一貫制學校,不愧天河全優生

教育要聞

農村戶口是個寶,高考想減分錄取離不了,這幾項優惠政策要看好

手機要聞

同檔唯一2K直屏Ultra!OPPO Find X8 Ultra首銷:6499元起

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 吴桥县| 东山县| 绥江县| 保定市| 武功县| 和林格尔县| 五寨县| 阳城县| 象州县| 湄潭县| 大港区| 景宁| 体育| 岳普湖县| 博爱县| 中山市| 治县。| 永修县| 友谊县| 准格尔旗| 黄平县| 平南县| 余庆县| 中牟县| 辽阳市| 棋牌| 巴青县| 武胜县| 濮阳市| 新民市| 浦北县| 乾安县| 莫力| 田阳县| 乌兰察布市| 蓬安县| 邹城市| 淳安县| 孟连| 桑植县| 晋中市|