近期,第四范式一體機解決方案SageOne IA全新升級,推出“模型彈性伸縮”技術來應對流量波動。當前企業一般采用傳統擴縮容方案,即當應用負載增加時,通過人工干預或系統按既定規則擴展計算節點,保證服務可用;當負載減少時釋放多余的計算節點,這一定程度上增加了算力成本和IT運維復雜度?!澳P蛷椥陨炜s”是系統根據負載狀況,自動靈活切換同一系列下不同參數大小的模型提供模型服務,無需額外擴展計算節點,節省算力成本,提升資源使用效率的同時還大大降低運維工作量。
例如在大模型推理場景下,負載較小時,滿血版模型提供高精度的推理服務;進入高峰時段時,系統會自動將滿血版降級為一個或多個蒸餾版/量化版模型實例,來處理大量并發請求。結合模型預加載等技術,可避免模型服務切換時,導致服務中斷或輸出質量波動問題,做到用戶無感知的平滑切換;當流量回歸常態后,系統再自動升級到滿血版模型服務,并釋放多余的較小參數模型實例。
同時,系統可預設多種基于負載的觸發條件,如結合GPU使用率、請求隊列長度、響應延遲等資源健康度指標,形成動態切換策略和任務路由機制,使彈性方案在實際應用中更貼近業務需求。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.