今天,聯想宣布旗下首款AMD AI大模型訓練服務器聯想問天WA7785a G3在單機部署671B(滿血版)DeepSeek大模型時,可實現極限吞吐量6708token/s。
一舉將單臺服務器運行大模型的性能推向了新高,充分展現了聯想在AI基礎設施領域技術的深厚積淀與研發的快速響應能力。
在AI算力競爭日趨白熱化的今天,聯想再次以硬核技術實力樹立了行業新標桿。
軟硬協同打造業界性能新標桿
依托聯想萬全異構智算平臺,聯想通過訪存優化、顯存優化、PCIe 5.0全互聯架構創新以及精選SGLang框架中性能最優算子等諸多創新方式,對大模型從預訓練、后訓練到推理的全流程進行持續優化。
在單臺部署DeepSeek 671B大模型的聯想問天WA7785a G3上實測最高吞吐量達6708 token/s。
在模擬問題對話場景(上下文序列長度128/1K)時,最高可支持并發數158,TPOT 93毫秒, TTFT 2.01秒;
而在模擬代碼生成(上下文序列長度512/4K )時,并發數可達140,TPOT 100毫秒, TTFT 5.53秒。
這一成績意味著單臺聯想問天WA7785a G3可以支撐1500人規模企業的正常使用,是繼聯想問天WA7780 G3服務器單機部署滿血版DeepSeek 大模型總吞吐量突破2500 token/s之后,單機部署該大模型推理性能的又一次突破。
此次突破是聯想中國基礎設施業務群、聯想研究院ICI實驗室和AMD聯合設計、協同調優、共同實現的。
當然,該結果也并非最終結果, 聯想與AMD 還在持續嘗試深度調優新方法。實現更高調優突破。
硬核配置構筑強大DeepSeek算力底座
聯想問天 WA7785a G3服務器是聯想與AMD雙方深度合作的智慧結晶,正是雙方通力合作帶來的技術創新、軟硬協同能力與架構突破為DeepSeek-R1滿血版大模型插上性能騰飛的翅膀。
▋強大算力引擎:
聯想問天WA7785a G3搭載了2顆AMD處理器和8顆AMD新一代Instinct OAM GPU,它們為大模型訓練、推理等場景提供了強大的算力引擎。
▋超大顯存優勢:
聯想問天WA7785a G3擁有超大的顯存容量,單顆GPU的HBM3e顯存容量高達192GB,總計達1.5TB。超大顯存使得單機支持全量模型推理情況下,仍保留充足的KV緩存空間。而其顯存帶寬達到了驚人的5.3TB/s,GPU聚合帶寬達896GB/s,節點間網絡帶寬3.2TB/s,更高的帶寬可為推理解碼實現極致加速,充分滿足了大模型并行計算時對跨節點通信的高帶寬需求,使其成為用戶首選大模型推理服務器。
▋特有創新架構:
聯想問天WA7785a G3的獨特架構設計也為最大程度地釋放算力潛能、突破帶寬限制發揮了關鍵作用,其三重獨立風道設計分別針對CPU節點、GPU節點和交換機節點進行精準散熱控制,提高了散熱效率,為服務器的穩定性和可靠性提供了有力保障。
未來,聯想將持續深化與產業伙伴的技術協作,通過架構創新、算法優化與硬件技術創新,不斷突破性能邊界,為各行業提供更高密度、更低能耗、更易部署的AI算力基礎設施,推動AI算力向更高效、更普惠、更可持續的方向演進,助力中國智算產業的持續發展。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.