本文系網易新聞?網易號特色內容激勵計劃簽約賬號【智東西】原創內容,未經賬號授權,禁止隨意轉載。
作者 | 陳駿達
編輯 | 漠影
2025年,以DeepSeek、QwQ等為代表的推理大模型火爆全球,并在復雜任務上展現出強大實力。這也讓不少企業考慮,如何能利用此輪推理大模型的技術進步,來優化自身的決策、提升企業運行效率并促進創新。
然而,傳統的CPU服務器在處理當前的AI推理需求時顯得力不從心,而GPU推理服務器動輒上百萬的高昂成本又將許多中小企業擋在門外。
在這樣的背景下,市場亟需一種既能控制成本又能保證性能的服務器解決方案,以滿足企業對便捷、高性價比AI推理服務的需求。
隨著AI技術的快速發展,CPU服務器也在不斷進化。近日,浪潮信息發布的元腦CPU推理服務器,能高效運行DeepSeek-R1 32B和QwQ-32B等適合企業日常需求的推理模型,還能與企業原有的業務兼容,具備性價比高、運維簡單等優勢。
▲元腦CPU推理服務器,基于QwQ-32B模型生成猜數字游戲
在GPU服務器之外,新一代CPU推理服務器為企業提供了快速、易獲取且低成本的算力供給,正成為更多企業的理想選擇。
一、跑大模型GPU并非唯一解,CPU推理服務器成中小企業理想新選擇
當談及部署大模型時,不少企業的第一反應都是“買卡”。的確,在大模型訓練、推理的場景中,GPU加速卡憑借強大的浮點運算能力和大規模并行處理架構,在高吞吐量的AI推理任務上展現出明顯優勢。
但GPU并不是唯一解。
CPU更擅長處理復雜的邏輯運算和通用計算任務,雖然在高并行計算任務上不如GPU,但在處理多樣化工作負載(如數據庫查詢、業務邏輯處理)時性能表現優秀。而且,隨著技術的不斷迭代,具備AI計算能力的CPU服務器也開始在AI推理場景中展現獨到優勢。
在大模型推理過程中,不少模型采用KV Cache(鍵值緩存),用于存儲解碼過程中生成的中間結果,以減少重復計算,提升推理效率。隨著模型規模的增大,KV Cache的存儲需求也隨之增加。
與GPU服務器相比,CPU推理服務器以更低的硬件投入,支持更大容量的系統內存,能夠輕松存儲更大規模的KV Cache,避免頻繁的數據交換,從而提升推理效率。CPU推理服務器還可通過多通道內存系統,進一步支持大規模KV Cache的高效訪問。
當CPU推理服務器與高效的中等尺寸推理模型結合后,能夠形成顯著的協同效應,在保證性能的同時進一步壓縮成本。
以業界多款32B推理模型為例,這些模型通過采用更高效的注意力機制、模型量化與壓縮技術以及KV Cache優化,顯著降低了計算和存儲需求。例如,DeepSeek-R1 32B在知識問答、智能寫作和內容生成等方面表現優異,而QwQ-32B則在數學推理、編程任務和長文本處理等領域展現出強大的性能。
此外,DeepSeek-R1 32B和QwQ-32B的訓練數據中包含了海量的高質量中文語料庫,使其更加適合國內企業的應用需求。
在企業知識庫問答、文檔寫作、會議紀要整理等場景中,32B參數級別的模型往往是最佳選擇,既能提供強大的能力支持,又能保持合理的硬件投入,僅基于CPU推理服務器,企業用戶即可實現本地化部署,滿足對性能、成本和易用性的多重需求。
從成本角度來看,相比GPU服務器高昂的硬件成本,更嚴格的電源、散熱和機架空間,CPU服務器對環境的要求較為寬松,對于輕量使用和預算有限的企業而言,更具性價比。
二、軟硬件協同優化成效顯著,解碼速度翻番、效率提升至4倍
浪潮信息本次推出的元腦CPU推理服務器,正是這樣一款支持中等尺寸模型推理,能為中小企業提供高效AI推理服務的CPU推理服務器。
在實際測試中,單臺元腦CPU推理服務器在使用DeepSeek-R1 32B進行帶思維鏈深度思考的短輸入長輸出的問答場景下,解碼性能超過20tokens/s,20個并發用戶下,總token數達到255.2tokens/s。
▲基于DeepSeek-R1 32B 并發性能測試數據
在使用QwQ-32B進行模型推理時,20個并發用戶數下總token數達到224.3tokens/s,可以提供流暢穩定的用戶體驗。
▲基于QwQ-32B 并發性能測試數據
元腦CPU推理服務器的性能,得益于浪潮信息的軟硬件協同優化。
算力方面,元腦CPU推理服務器采用4顆32核心的英特爾至強處理器6448H,具有AMX(高級矩陣擴展)AI加速功能,支持張量并行計算。與傳統雙路服務器方案的有限內存不同,元腦CPU推理服務器的多通道內存系統設計可支持32組DDR5內存。
在這些硬件的加持下,元腦CPU推理服務器單機具備BF16精度AI推理能力、最大16T內存容量和1.2TB/s內存帶寬,可以更好滿足模型權重、KV Cache等計算和存儲需求,快速讀取和存儲數據,大幅提升大模型推理性能。
▲元腦CPU推理服務器NF8260G7配置
在算法方面,元腦CPU推理服務器對業界主流的企業級大模型推理服務框架vLLM進行深度定制優化,通過張量并行和內存綁定技術,充分釋放服務器CPU算力和內存帶寬潛能,實現多處理器并行計算,效率最高提升至4倍。
面對內存帶寬的挑戰,元腦CPU推理服務器為進一步提升解碼性能,采用了AWQ(Activation-aware Weight Quantization激活感知權重量化)技術。
AWQ技術能確定模型中對性能影響最大的少部分重要權重,并通過保護這些權重來減少量化帶來的誤差。AWQ還避免了混合精度計算帶來的硬件效率損失。
采用了AWQ的元腦CPU推理服務器在解碼任務中的性能提升了一倍,讓大模型在保持高性能的同時,跑得更快、更省資源。
元腦CPU推理服務器還通過浪潮信息打造的AI Station平臺,支持用戶靈活選擇適配的大模型算法,包括DeepSeek全系模型、QwQ和Yuan等不同參數量的模型。
三、更懂中小企業需求,通用性、成本效益突出
在智東西與浪潮信息副總經理趙帥的溝通中,我們了解到,元腦CPU推理服務器僅推出1周,便吸引了多家來自大模型、金融、教育等行業的客戶咨詢和測試,這款CPU推理服務器精準地填補了中小企業市場中的一個關鍵空白。
目前,許多企業對將私有數據上云仍持保留態度,更傾向于在本地完成AI推理任務。然而,如果企業選擇使用GPU服務器來部署高性能AI模型,往往需要承擔高昂的初始投資成本。對于中小企業而言,這種投資的性價比并不高——它們通常不需要極致的AI性能或超高的并發處理能力,而是更關注易于部署、易于管理、易于使用的入門級AI推理服務。
在這種情況下,生態更為成熟、開發工具更為健全的CPU推理服務器展現出了顯著的優勢。CPU推理服務器不僅能夠更好地融入企業現有的IT基礎設施,還因其通用性而具備更高的靈活性。
與專用AI硬件(如GPU服務器)不同,CPU推理服務器在AI推理需求空閑期,還可以兼顧企業的其他通用計算需求,如數據庫管理、ERP系統運行等,從而最大化硬件資源的利用率。
在部署便捷性方面,元腦CPU推理服務器功耗2000W左右,降低了對供電設備的要求,還使得服務器的冷卻需求大幅減少,僅需家用級空調即可滿足散熱要求。這意味著元腦CPU推理服務器能夠輕松適應大部分企業自建的小型機房環境,無需額外投資高成本的冷卻設施或對現有機房進行大規模改造。
元腦CPU推理服務器還具備高可靠性的特點,平均無故障時間可達200000小時,能夠保障關鍵應用和AI推理任務的持續穩定運行。這一特性對于企業來說尤為重要,尤其是在金融、醫療、制造等對系統穩定性要求極高的行業中,高可靠性意味著更低的業務中斷風險和更高的運營效率。
談及未來,趙帥分享,浪潮信息還將進一步提升元腦CPU推理服務器的能力。依托于融合架構開發的經驗積累,他們已在開發內存資源池化的新技術,結合長文本等算法特征進行軟件優化,更好地支持企業的使用需求。
結語:CPU推理服務器有望推動AI普惠
隨著AI技術往行業深水區發展,大模型推理需求正從大型企業逐步向中小企業滲透,從少部分企業所享有的“奢侈品”轉化為大部分企業的“必需品”。
在這一進程中,如元腦CPU推理服務器這樣的高性價比AI推理解決方案,有望成為中小企業實現AI普及化和行業智能化的重要工具。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.