如今,人工智能發(fā)展迅猛,大模型更是成為推動AI技術(shù)進(jìn)步的“引擎”。然而,隨著模型參數(shù)量的激增,算力需求也呈指數(shù)級增長,如何高效、低成本地運行大模型成為行業(yè)面臨的共同挑戰(zhàn)。
以DeepSeek R1滿血大模型為例,其參數(shù)量高達(dá)6710億,由于其采用了前沿的MLA注意力機制、共享專家和路由專家共同組成的混合專家(MoE)架構(gòu),在提升推理效能方面成果顯著,但是企業(yè)在實際應(yīng)用過程中,對大模型的性價比有著更為極致的追求。
近日,超聚變FusionOne AI大模型一體機通過軟硬協(xié)同,深度調(diào)優(yōu),成功打破了H20運行DeepSeek滿血大模型的性能天花板。在模擬問題對話場景(上下文序列長度1K/1K)下,僅需1臺FusionServer G8600搭載8張H20硬件,即可流暢運行DeepSeek R1滿血版,支持1024并發(fā)訪問數(shù),總吞吐量高達(dá)6335 token/s,性能領(lǐng)先業(yè)內(nèi)H20方案60%。其中,TPOT(Time per Output Token)時延相比業(yè)內(nèi)H20方案減少40%,單臺FusionOne AI大模型一體機即可支撐數(shù)千人規(guī)模企業(yè)使用,將單機H20運行大模型的性能推向新高度。
軟硬協(xié)同調(diào)優(yōu),打破 H20 性能天花板
- 算力釋放,顯存最優(yōu)分配:通過內(nèi)核優(yōu)化,提升顯存空間利用率20%,KV cache池使用率提升至93%,保障模型參數(shù)、過程KV高效運行
- 數(shù)據(jù)、模型并行調(diào)度:通過DP數(shù)據(jù)并行、TP模型張量并行技術(shù),調(diào)度多卡分布式并行計算,提升token產(chǎn)生的吞吐效率50%,有效提升計算效能
- 推理任務(wù)切片混合調(diào)度:Prefill階段(首token輸出階段任務(wù))長文本切片, 加速初始內(nèi)容生成速度,同時在每個切片計算過程中,混合調(diào)度Decode任務(wù)(后續(xù)token迭代生成任務(wù))并行運行, 無需串行等待,提高資源利用率,降低TTFT(Time to First Token)和TPOT(Time per Output Token )。
超聚變FusionOne AI大模型一體機以極致成本、性能躍升的雙重突破,大幅降低DeepSeek-R1 671B模型的部署門檻,以普惠形態(tài)讓更多企業(yè)和科研機構(gòu)能夠輕松應(yīng)用。未來,超聚變將持續(xù)加大研發(fā)投入,聚焦AI算力優(yōu)化與應(yīng)用拓展,加速企業(yè)AI應(yīng)用落地。
*本文圖片均來源于網(wǎng)絡(luò)
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.