2025 年 4 月 10 - 12 日,QCon 全球軟件開發大會將匯聚全球 140+ 技術先行者及創新實踐者,直擊行業痛點,解鎖可復制的經驗與模式。這不僅是一場會議,更是一次對技術演進的集體探索。無論你是資深開發者,還是技術管理者,都能在這里有所收獲,為下一步的技術決策提供方向。
小米高級云原生研發工程師李洋已確認出席并發表題為《小米資源畫像體系構建與業務實踐》的主題分享。在 Kubernetes(簡稱 K8s)場景中,很多原生包括擴展的策略都是依托于不同維度的資源數據進行開發的,可以理解為資源數據是最能直接影響到策略結果的因素之一。然而無論是小到容器,還是大到集群,都擁有各自獨特的資源屬性,不能一概而論。但在通用型場景下,也不能重復造輪子。
資源畫像,就是朝著 K8s 中最根本的資源方向,對不同類型的負載分層分類的刻畫出更高維度的聚合數據,用數據豐富上游各種維度策略或提升現有策略準確性,從而解決“穩定性”、“交付”和“成本”等場景中的實際問題。本次分享將介紹小米內部在資源畫像方面的實踐,以及解決了哪些業務場景問題,帶來了哪些收益,希望能為大家提供一些新的思路。
李洋現任小米高級云原生研發工程師,專注于云原生技術研發與優化,此前曾就職于快手和陌陌。深度參與內部核心組件研發(如 scheduler、descheduler、volcano、vGPU、koordinator 等)。其主導的資源畫像預測壓縮功能累計減少 5W+CPU 資源浪費,并通過優化 HPA 擴容策略顯著提升業務穩定性和資源利用率。他在本次會議的詳細演講內容如下:
演講提綱
從真實場景中分析不同維度遇到的挑戰
交付 & 成本:資源浪費導致集群容量不足,發布“pending”,間接導致無法容納更多的業務,導致集群資源利用率低。
穩定性:靜態分配調度轉實時負載感知調度后仍然有單機熱點問題,影響業務穩定性。
穩定性:彈性擴縮滯后,業務穩定性受到影響。
畫像體系構建與架構設計
組織陣型搭建:資源畫像研發小組及基礎架構的設計。
畫像架構設計:能力拆解、組件劃分、目標一致、各司其職。
業務場景實踐
預測 workload 申請資源壓縮,減少浪費,提高利用率。
預測 node 真實用量調度,減少熱點,提高穩定性。
預測 HPA 提前擴容,避免無效縮容,提高穩定性。
總結展望
總結小米在資源畫像實踐中的效果。
探討更多機制設計與思考。
內容亮點
很少有項目能從“資源預測”與“特征訓練”等層面直接解決用戶與 K8s 間的痛點問題。
貼近實際業務場景來講解如何使用資源畫像增強策略,帶來收益。
聽眾收益
學習如何通過特征提取、預測與算法等技術,為 K8s 場景賦能。
了解小米內部如何通過資源畫像解決真實業務問題。
除此之外,本次大會還策劃了多模態大模型及應用、AI 驅動的工程生產力、面向 AI 的研發基礎設施、不被 AI 取代的工程師、大模型賦能 AIOps、云成本優化、Lakehouse 架構演進、越挫越勇的大前端等專題,屆時將有來自不同行業、不同領域、不同企業的 100+ 資深專家在 QCon 北京現場帶來前沿技術洞察和一線實踐經驗。
目前,所有大會演講嘉賓已結集完畢,了解更多報名和詳情信息可掃碼或聯系票務經理 18514549229 咨詢。
為確保大會順利舉行,現誠邀志愿者加入,時長 3.5 天。可與大咖交流、獲極客時間 VIP 月卡、大會演講視頻資源和證書。主辦方提供午餐和交通支持。時間:4 月 9 日 13:00-4 月 12 日 18:00,地點:北京萬達嘉華酒店,報名鏈接:https://www.infoq.cn/form/?id=2088
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.