今天,被一張網傳圖給笑岔氣了。
這張圖太能代表大模型用戶最近幾天的心情了。
我本將心向明月,奈何明月宕機了
不知不覺當中,各種大模型成了我們工作中不可分割的一部分,職場牛馬也終于體會了一把當主子的感覺。
可是,你越離不開大模型牛馬,它就越愛玩失蹤。
不只是如今萬千寵愛于一身的DeepSeek,過去一年里,前代“網紅大模型”ChatGPT,可算是崩了又不崩。
有時是因為訪客太多崩,有時是因為系統(tǒng)bug崩,有時是因為配置錯誤崩,甚至因為機房停電崩。
這么說吧,每次崩,都讓深度依賴它的小伙伴們抓狂。
道理很簡單,我對你那么上頭,你卻那么讓我下頭,這可還行?
DeepSeek也好,GPT也好,我們希望這些大模型要死扛住厚望,提供高可用的服務。
要想大模型不宕機、不作妖,我們首先就要搞清楚“供養(yǎng)”大模型的都是啥。
AI大模型其實是典型的云上原生業(yè)務,穩(wěn)健的大模型離不開既有彈性又有韌性的云服務。
云服務需要為“大模型牛馬”提供牛棚、飼料以及整個成長周期的呵護。
?要想“牛棚牢固”,就需要「AI基礎設施」高可用:
從可用區(qū)的架構搭建,到基礎設施硬件的RAS設計,從GPU實例、容器服務,到存儲服務、網絡傳輸服務…,不能有任何一塊短板。
?要想“飼料充足”,就需要「AI數據處理」高可用:
數據采集、清洗、供給的鏈條不能斷鏈。
否則,訓練時吃不飽,大模型會發(fā)育不良,智商不夠。推理時斷了炊,大模型也會大腦短路,反應遲鈍。
那優(yōu)質“飼料”的供給如何保證呢?
這依賴于數據存儲、數據處理服務的高可用設計與故障快速恢復。
數據庫、數據湖、數倉、數據治理服務等等,凡是負責“飼料”采存、清洗、存儲、供應的設施,都要穩(wěn)如泰山。
?要想“牛馬茁壯成長”,就需要AI訓推&應用開發(fā)高可用:
這個環(huán)節(jié),需要圍繞訓練、模型推理部署、AI應用開發(fā)、AI應用服務的整個生命周期,保障訓推平臺、MaaS平臺、開發(fā)平臺、API網關的可靠性和安全性。
讓大模型開發(fā)者和AI應用的使用者,享受持續(xù)的服務和卓越的體驗。
這么說吧,從基礎設施到數據供給再到訓推和AI應用開發(fā),就像三腳架的三個支點,缺一不可。
必須全棧高可用,三個都穩(wěn),則大模型穩(wěn)。任何一個支點有短板,則大模型危。
那么,這樣的全棧高可用方案,怎么才能獲得呢?
我們以阿里云為例,來看看他們是怎么干的↓
最近,阿里云推出了全棧AI負載高可用架構,給業(yè)界展示了生成式AI時代的云到底應該如何架構。
??
接下來,我們來看在每個層面,阿里云具體都有哪些高可用的保障。
01、「AI基礎設施高可用」
部署過算力集群的老司機都知道,甭管是哪家的GPU,故障率都很高,很多訓練中斷,都是因為GPU作妖。
而阿里云磐久服務器基于AI算法,可以對GPU的故障進行精準預測,從而提前預判故障,及時進行物理節(jié)點自動化切換。
同時,磐久服務器有CIPU2.0加持,這是阿里云自研的一種云基礎設施處理器,除了具備性能加速能力外,還可以提供全方位安全能力增強,讓整機穩(wěn)定性提升20%。
單機穩(wěn)定是集群穩(wěn)定的基礎,阿里云還通過集群健康檢測、故障感知和自愈、HPN7.0集群網絡的冗余設計等手段,進一步提升訓練業(yè)務的穩(wěn)定性和計算資源的使用效率。
最終,由磐久服務器、HPN7.0高性能網絡組成的靈駿智算集群,在大規(guī)模訓練作業(yè)中有效訓練時長占比高于99%,披星戴月“肝出”大模型。
這份“披星戴月”的戰(zhàn)斗力,還需要算、存、網的集體加持↓
在存儲服務上,阿里云推出了Regional ESSD,這是一種多可用區(qū)級的ESSD,基于飛天盤古同城冗余架構,支持多重掛載,容忍可用區(qū)級別故障。
即便單個IDC故障,仍然可以保證數據不丟失、保障數據一致性。
除了Regional ESSD,阿里云存儲服務還有同城冗余和數據保護能力↓
比如OSS對象存儲也支持同城多機房容災,滿足RTPO=0的苛刻要求,Tablestore表存儲同城冗余。
提供數據災備和合規(guī)管理,并支持備份點病毒檢測,快速識別干凈數據完成恢復。
在網絡服務上,阿里云HPN高性能網絡已經進化到8.0,提供400G/800G低延遲無阻塞多路徑網絡連接。
還有一個“近水樓臺”的獨特功能,用戶可以通過Privatelink私網通道高速訪問通義大模型家族,既高效又安全。
當然,在基礎設施層面,還有多Region和多AZ的云架構,阿里云作為一線大云,這屬于彈性和韌性方面的標配,我們就不多說了。
02、「AI數據處理高可用」
在數據處理這一層,底座有阿里云對象存儲OSS,作為PB級、EB級超大規(guī)模數據統(tǒng)一承載,并與多種計算引擎、AI框架進行深度集成。
提供多副本冗余、同城容災、大文件端點續(xù)傳、批量和多線程數據操作等融合手段,來保障數據服務的高可靠。
在穩(wěn)固的數據底座之上,阿里云構建了大數據、搜索、AI一體化解決方案:OpenLake。
OpenLake基于開放的數據湖倉格式,支持大數據、搜索和AI多引擎對接,實現引擎平權協同計算。并且OpenLake支持多級容災體系,能夠讓“飼料”供應鏈穩(wěn)健運轉。
同時,阿里云通過DMS+DTS(數據管理服務+數據傳輸服務),構建了針對AI場景的數據庫多AZ、跨Region高可用與容災方案。
無論傳統(tǒng)的關系型數據庫,還是針對AI訓推的向量數據庫,都可以通過DTS的實時雙向同步、就近讀寫、負載均衡,實現跨Region的強一致性,保證AI數據服務高可用。
03、「AI訓推&應用構建高可用」
在這一層級,阿里云有兩大高可用平臺:一個是用于模型訓推的PAI,另一個是用于MaaS服務和應用開發(fā)的百煉。
訓練環(huán)節(jié),PAI提供彈性容錯引擎AI Master,可以自動發(fā)現并修復出錯的任務,并且可以各種底層監(jiān)控,發(fā)現問題節(jié)點,就啟動自愈。
故障任務分鐘級恢復,大幅提升訓練效率。
推理環(huán)節(jié),PAI-EAS(模型在線服務平臺)可以分鐘級彈性自動擴縮,每分鐘可以擴展10000Pod,再高的突發(fā)推理負載也不怕。
同時,PAI-EAS在承載各種實時推理、近實時推理任務時,可以感知每個推理請求的執(zhí)行進度,進行智能任務調度,提升擴縮容效率,保障服務體驗。
模型托管服務和開發(fā)環(huán)節(jié),百煉MaaS平臺核心模型服務API達到99.99% 的SLA,并對實時AI語音交互、實時AI搜索這種高性能場景,提供超低延遲API響應。
此外,阿里云所講的「全棧」,不只是三大支點(基礎設施、數據處理、訓推&應用構建)高可用,還提供AI開發(fā)的全鏈路可觀測。
通過實時的監(jiān)控和分析,來進行健康性檢查和開發(fā)體驗持續(xù)優(yōu)化。
現在,從牛棚搭建到飼料供給,從育種呵護到監(jiān)管防疫,方方面面全部到位。
AI和大模型牛馬的連續(xù)性、響應速度、穩(wěn)定性和安全性都有了保障。
不止如此,在全棧AI高可用的基礎上,阿里云與用戶攜手,共同努力打造AI原生的智能化、自動化、可持續(xù)的云上IT治理體系,推出「阿里云卓越架構」。
這套架構,是阿里云根據多年服務客戶的經驗,總結出來的方法論和架構設計原則,從安全、穩(wěn)定、效率、成本、性能五個層面,來提升系統(tǒng)整體韌性和運營效率。
合理借鑒這些方法論和實踐經驗,無論傳統(tǒng)云上生產業(yè)務,還是AI大模型“新貴”業(yè)務,都可以更安全、更穩(wěn)定、更高效、更有性價比的用好云。
宕機不可怕,就怕沒規(guī)劃
這些導致宕機的“雪花”,就是貫穿大模型全生命周期的每個環(huán)節(jié)、每個細節(jié),涉及云服務商、模型服務商/開發(fā)者、AI用戶等不同角色。
云服務商要“搭好臺”,確保全棧服務的高可用;大模型服務商、開發(fā)者要“唱好戲”,采用先進的設計、選擇合適的服務、搭建正確的架構↓
當每片“雪花”都落對了地方
大模型服務就能夠高效穩(wěn)健運轉
打工人的各種大模型“牛馬”
才能扛起生產級的硬活兒
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.