網易首頁 > 網易號 > 正文申請入駐

焱融YRCloudFile KVCache實測：推理性能提升13倍，延時縮短超4倍

2025-04-03 18:07:45　來源: 數(shù)智前線

甘肅舉報

分享至

DeepSeek 引爆大模型在千行百業(yè)落地的背景下，存儲與計算的協(xié)同優(yōu)化正成為企業(yè)提升 AI 推理效率、降低運營成本的關鍵。KVCache 技術通過“以存換算”的創(chuàng)新模式，顯著提升了推理性能，成為企業(yè)構建大模型基礎設施的必要選擇。此前，焱融科技率先推出 YRCloudFile 分布式文件系統(tǒng)的 KVCache 特性，支持 PB 級緩存擴展，大幅提高 KV 緩存命中率與長上下文處理能力，為大模型推理提供更優(yōu)性價比技術方案。

焱融存儲技術團隊基于公開數(shù)據集和業(yè)界公認的測試工具，基于 NVIDIA GPU 硬件平臺模擬真實的推理業(yè)務場景，進一步探索并發(fā)布 KVCache 在推理場景中的詳細性能優(yōu)化數(shù)據。測試結果顯示，在相同規(guī)模和推理延遲 TTFT (Time-To-First-Token) 下，YRCloudFile KVCache 可支持更高并發(fā)查詢請求，為用戶提供更貼近實際使用場景的性能驗證與優(yōu)化方案。這些數(shù)據不僅驗證了 KVCache 技術的有效性，并揭示了高性能 KVCache 給推理業(yè)務帶來的可量化的價值。

實測 YRCloudFile KVCache

在推理場景中的性能優(yōu)化數(shù)據

為了驗證將 GPU 內存擴展至 YRCloudFile KVCache 對 token 處理效率的顯著提升效果，并充分展示焱融 AI 存儲架構的卓越性能，我們進行了多輪測試。通過針對不同 token 數(shù)量和配置的測試，深入探索該架構在實際應用中的優(yōu)化潛力。以下測試均是基于原生 vLLM，以及 vLLM+YRCloudFile KVCache 進行的數(shù)據對比。

測試一：長上下文提問下，推理 TTFT 的對比數(shù)據。

背景：輸入長上下文，對比單次提問的回答總耗時（指超過 20K 長度的 token）
顯卡：NVIDIA T4
模型：Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4
測試方法：基于同樣的上下文，使用相同的問題，通過 QA chatbot 上進行提問模擬
測試結論：在長上下文場景中，使用 YRCloudFile KVCache 可實現(xiàn)高達 13 倍的 TTFT 性能提升。這一顯著優(yōu)化得益于其高效緩存命中率和對大規(guī)模數(shù)據的快速處理能力，為大模型推理提供了更優(yōu)的性能支持。

用戶普遍能接受的 TTFT 在 2 秒以內?；谶@一背景，我們設計了測試二，以驗證系統(tǒng)在長上下文場景下的性能表現(xiàn)。

測試二：使用不同上下文長度，在 TTFT ≤ 2 秒時，相同 GPU 能支撐的并發(fā)數(shù)對比數(shù)據。

背景：在相同顯卡配置與 2 秒 TTFT 延遲約束條件下，通過對比原生 vLLM 與集成 YRCloudFile KVCache 的解決方案在不同上下文長度（--max-prompt-length 參數(shù)）下的并發(fā)支持能力，驗證存儲擴展對并發(fā)推理請求的提升效果。
顯卡：NVIDIA L20
模型：Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4
測試工具：使用 evalscope 測試工具， --dataset 參數(shù)為 longalpaca，以及指定不同 --max-prompt-length 參數(shù)值，進行測試。
測試結論：在相同 GPU 配置下，當 TTFT ≤ 2 秒時，YRCloudFile KVCache 可承載的并發(fā)數(shù)可提升 8 倍。這意味著，在相同數(shù)量的 GPU 配置下，系統(tǒng)能夠滿足更高并發(fā)請求的需求，顯著優(yōu)化了推理性能和資源利用率。

測試三：在相同 GPU 配置和較高并發(fā)數(shù)下，使用不同上下文長度的 TTFT 性能對比數(shù)據。

背景：在相同顯卡配置下，通過設置不同的上下文長度（--max-prompt-length 參數(shù)），在并發(fā)數(shù)為 30 情況下，使用原生 vLLM，以及 vLLM+YRCloudFile KVCache 進行的數(shù)據對比。
顯卡：NVIDIA L20
模型：Qwen/Qwen2.5-7B-Instruct-GPTQ-Int4
測試工具：evalscope，--dataset 使用longalpaca，指定不同--max-prompt-length，并發(fā)為 30 的情況下，進行測試。
測試結論：在較高并發(fā)數(shù)下，對于不同的上下文長度，YRCloudFile KVCache 所提供的 TTFT 延遲可縮小 4 倍以上；這表明 YRCloudFile KVCache 在高并發(fā)場景下，能夠有效優(yōu)化推理性能，顯著減少延遲，提升用戶體驗。

本次測試通過多維度驗證表明，YRCloudFile KVCache 在長上下文處理與高并發(fā)場景中展現(xiàn)出顯著性能優(yōu)勢：在 TTFT≤2 秒的嚴苛約束下，其支持的并發(fā)數(shù)提升達 8 倍，且在高并發(fā)負載中延遲可降低 4 倍以上。這一成果不僅印證了 “存儲 - 計算協(xié)同優(yōu)化” 對 AI 推理效率的核心價值，更揭示了通過分布式存儲架構擴展顯存資源的技術路徑，能夠有效突破傳統(tǒng) GPU 算力瓶頸，實現(xiàn)資源利用率的指數(shù)級提升。

當前，隨著 DeepSeek 等大模型在千行百業(yè)的規(guī)?；涞?，企業(yè)對推理效率與成本優(yōu)化的需求愈發(fā)迫切。YRCloudFile KVCache 通過 PB 級緩存擴展能力，將存儲資源轉化為計算性能增益，為行業(yè)提供了兼顧高性能與低成本的實踐范例。這種以存儲架構創(chuàng)新驅動算力釋放的模式，或將成為企業(yè)構建下一代 AI 基礎設施的關鍵突破點，加速大模型從技術突破到商業(yè)閉環(huán)的演進進程。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.