大周末的,DeepSeek悄么聲放了個大招。
他們知乎官號發了一篇雄文,披露了【如何對DeepSeek V3/R1的推理系統進行優化】,文章有2大核心內容↓
一、如何通過優化架構,讓模型推理獲得更大的吞吐和更低的延遲
簡單概括就是三板斧↓
① 大規模跨節點專家并行
② 計算-通信重疊優化
③ 多級負載均衡策略
前兩步可以提升吞吐、降低延遲,而第三步用于優化GPU的占用率。
DeepSeek在線推理系統架構圖
二、測算一下:在這種優化架構下,按照目前DeepSeek官方的收費策略,一天能賺多少錢
DeepSeek在文中給出了這樣一個典型“優化推理”系統的投入產出比,也就是說,成本多少錢,能賺多少錢。
這些數據是基于正在運營的線上系統實測得來的,可參考性極高。
看第一張圖,最近24小時內(2月27日12點-2月28日12點),DeepSeek V3 和 R1 推理服務占用GPU節點總和↓
峰值占用為278個節點,平均占用 226.75個節點(每節點為 8個H800GPU)。
如果按每GPU租金2美金/小時來計算,總成本為2×226.75×8×24=$87,072/天。
而在對應的時間內,產生的Tokens數量和收入是多少呢?
總輸入:608B(其中56.3%命中硬盤中的KVCache);總輸出:168B
平均每臺H800服務器的吞吐量為:73.7k tokens/s (輸入)、14.8k tokens/s(輸出)。
不得不說,DeepSeek優化完的推理系統性能真是高啊!
各家一體機廠商可以自己比一比,只有幾K甚至幾百tokens的單機還好意思拿出來么?
接下就是收入估算,在這24小時里,理論總收入是$562027(折合人民幣約409萬),成本利潤率高達545%!
(當然DeepSeek官方也說了,實際收入沒有這么多,因為web版目前免費、API夜間還打折,還有V3比R1便宜)
但是,這個收益已經足夠震撼!
只能說,DeepSeek真太牛了。
有圈內人士說,DeepSeek這個發布,為實際項目帶來了極大的參考價值!
就是別瞎來!
因為,接下來對算力黃牛來說,挑戰來了——
這個數字幾乎是算力生意ROI的天花板,大家再畫餅的時候,不要要超過這個數哦,否則這餅就不圓了。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.