大家好,我是波導終結者。
最近DeepSeek非常火,身邊幾位小伙伴也都心動了。目前方案無非兩種,一種是使用線上服務商的在線接口,途徑挺多的,但是都得聯網也就會有隱私泄露問題,而且免費也不知道持續到什么時候。另一種就是本地部署,但是民用電腦想跑滿671B還是不太現實。之前我試了一下,32B勉強能跑,14B是比較理想的。但最近冒出了不少內容(諷刺的是,看起來很像AI生成的……),號稱只要把內存堆上去,比如搞套洋再插滿192GB內存,就能本地跑671B啥的。我有位朋友不死心,問我說真的假的,我一看那些內容甚至連具體的實測都沒有。于是這次我現場跑給這位朋友看。
垃圾
這次的平臺是之前配的12700K,Z690,因為現在還冒出不少用核顯跑DeekSeek的內容,所以這次我把獨立顯卡拔掉,一起測試一下。沒有在之前配的265K+Z890跑,因為想完全摒棄NPU的影響。
內存我之前已經升級到了光威神策DDR5 6400Mhz 48Gx2,若真的如營銷號所說,堆內存就能把模型跑上去,再考慮更大的內存方案。
默認參數如上圖,因為沒有獨顯,默認的設置為純CPU線程池跑。不過這里線程池的設置也沒有拉滿,先試試默認方案下的效果。
默認設置下,1分35秒出結果,3.55 tok/sec,1369 tokens,3.94s to first token,內存占用29.3G,CPU占用率在50%左右。題目統一為“我是一名程序員,每天上班24個小時,每周上班7天。請幫我寫一篇1000字的年終工作總結”。
將設置里的GPU卸載拉滿,我當然知道12700K搭載的核顯現在很弱,我只是覺得營銷號鼓吹的“只要內存堆上去核顯也能隨便跑”根本就不靠譜。實測11分鐘35秒才出結果,而且一個字一個字蹦又要花好久。這種情況下,我認為已經失去可用性。
那么,所謂的用內存堆又如何操作呢?我把各個選項和可能性都試了一下,這里明確寫明會“增加內存使用”的評估批處理也拉到過最大了。
GPU卸載拉到16,CPU線程池10(均拉滿),評估批處理512,內存占用稍微增長到30G,CPU占用25%左右,GPU占用60%左右。5分48秒出結果,1.34 tok/sec,1537 tokens,11.64s to first token。
默認設置,單純把評估批處理拉到1024,3.63 tok/sec,1132 tokens,3.77s to first token,速度和資源占用均無太大變化。把CPU線程池拉滿到10,評估批處理拉滿到1024,3.65 tok/sec,1225 tokens,3.10s to first token,稍微快了一點。
其他方案我也都試了一下,就不再贅述。我自己以前就是程序員,所以在跑之前,我就知道死堆內存不可能,但小伙伴各種短視頻刷多了,不親眼見識一下不死心。顯存或者內存只是最基礎的硬件條件之一,而不是堆上去就能隨便跑。本地模型仍然需要依靠算力出結果,所謂的什么洋插滿內存,核顯插滿內存,破獨顯共享插滿了的物理內存等,都只是一場流量狂歡罷了。
垃圾
感謝大家的觀看,點贊和關注,我們下期再見。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.