今天,英偉達開源了一款名為 Llama-3.1-Nemotron-Ultra-253B-v1 的新模型。
該模型基于 Meta 早期的 Llama-3.1-405B-Instruct 模型開發,擁有 2530 億個參數,在多項第三方基準測試中表現出色。
英偉達新模型的性能逼近擁有 6710 億參數的 DeepSeek R1,但只用了不到一半的參數量。
測試結果顯示,GPQA(76 vs. 71.5)、IFEval 指令遵循(89.5 vs. 88.8)和 LiveCodeBench 編碼任務(66.3 vs. 65.9)。
并且,Llama-3.1-Nemotron-Ultra-253B 推理吞吐量也比 DeepSeek R1 671B 高 4 倍。
不過,在 MATH500 和 Arena Hard 基準測試中,DeepSeek R1 仍略占優勢。
據悉,Llama-3.1-Nemotron-Ultra-253B 的設計目標是支持高級推理、指令遵循以及 AI 助手工作流程。
技術特點如下:
1?? 采用神經架構搜索(NAS)優化架構
2?? 引入跳躍注意力層、融合前饋網絡(FFN)和可變 FFN 壓縮率
3?? 降低內存占用和計算需求,保持輸出質量
4?? 可在單個 8x H100 GPU 節點高效部署
5?? 部署支持 B100 和 Hopper 微架構硬件
6?? 在 BF16 和 FP8 精度模式下均驗證通過
目前,該模型的代碼已在 Hugging Face 平臺上公開,包含開放的權重和訓練后數據。
Llama-3.1-Nemotron-Ultra-253B 可用于聊天機器人開發、AI Agent 工作流、檢索增強生成(RAG)和代碼生成等場景。根據英偉達開放模型許可證及 Llama 3.1 社區許可協議,該模型已獲準用于商業用途。
附上體驗地址:
https://build.nvidia.com/nvidia/llama-3_1-nemotron-ultra-253b-v1?ncid=so-twit-273200
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.