AI存力卡位戰(zhàn),國(guó)產(chǎn)存儲(chǔ)如何破局?
文|趙艷秋 周享玥
編|石兆
今年開(kāi)年后,當(dāng)DeepSeek等攪動(dòng)的大模型應(yīng)用熱潮在各行業(yè)迅速蔓延時(shí),一場(chǎng)更底層的競(jìng)賽,已在AI基礎(chǔ)設(shè)施領(lǐng)域悄然爆發(fā)。國(guó)產(chǎn)存儲(chǔ)企業(yè),正在高性能存儲(chǔ)市場(chǎng)上發(fā)起攻勢(shì)。
“DeepSeek等在應(yīng)用側(cè)產(chǎn)生的效果,徹底點(diǎn)燃了企業(yè)應(yīng)用AI的信心。”京東云相關(guān)負(fù)責(zé)人告訴數(shù)智前線,大中型企業(yè)今年普遍在AI基礎(chǔ)設(shè)施上投入更多資源和預(yù)算。但第三方調(diào)研顯示,超過(guò)76%的企業(yè)AI項(xiàng)目,因存儲(chǔ)性能利用率不足,直接造成15%-30%的算力損耗。
存儲(chǔ),這個(gè)此前被經(jīng)常“忽視”的賽道,在今天正變得舉足輕重。高性能存儲(chǔ)已成為智算中心標(biāo)配,占AI Infra的15%左右,而今年新增市場(chǎng)將是之前的數(shù)倍。
僅第一季度,京東云就已基本完成兩個(gè)超大智算中心項(xiàng)目實(shí)施。客戶對(duì)存儲(chǔ)的要求驚人地一致,就是高性能,以滿足他們大模型訓(xùn)練和應(yīng)用的需求。京東云提供存儲(chǔ)系統(tǒng),適配了業(yè)界最高的400G IB網(wǎng)絡(luò),并成功將存儲(chǔ)帶寬利用率推升至84%。
此前,高性能存儲(chǔ)幾乎是國(guó)際廠商的天下。而在新一輪AI變局中,市場(chǎng)爭(zhēng)奪和重塑的背后,是國(guó)內(nèi)企業(yè)在技術(shù)商業(yè)以及人才團(tuán)隊(duì)上,長(zhǎng)達(dá)10多年的積累。
01
新一輪AI趨勢(shì)下,存力變化幾何?
新一輪人工智能,對(duì)高性能存儲(chǔ)的技術(shù)商業(yè)影響極大。
DeepSeek推出后,推理市場(chǎng)正在爆發(fā)。IDC預(yù)測(cè),2025年推理工作負(fù)載的占比,將達(dá)到近7成。人們可能認(rèn)為,推理對(duì)AI基礎(chǔ)設(shè)施的性能要求要低于訓(xùn)練,但事實(shí)并非如此。
“從DeepSeek發(fā)布的產(chǎn)品特征來(lái)看,對(duì)于存儲(chǔ)性能的需求,還會(huì)再上一個(gè)臺(tái)階。理論上,推理對(duì)存儲(chǔ)的讀取性能要求,會(huì)遠(yuǎn)超訓(xùn)練。”京東云資深人士說(shuō),以DeepSeek的671B模型為例,要求存儲(chǔ)讀取速度突破每秒TB級(jí),才能支撐GPU推理集群的秒級(jí)擴(kuò)展。而只有這樣的彈性擴(kuò)展能力,才能達(dá)到人們縮短首次token輸出時(shí)間的期望。
隨著AI應(yīng)用落地,很多企業(yè)也開(kāi)始重視推理成本。DeepSeek已采用如PD分離技術(shù),將推理的預(yù)填充(Prefill)和解碼(Decode)階段分開(kāi)部署,分配不同硬件資源,來(lái)提升推理性價(jià)比。在一些真實(shí)場(chǎng)景中,PD分離讓長(zhǎng)文本生成速度提升5倍以上。京東云人士則告訴數(shù)智前線,PD分離結(jié)合存儲(chǔ)、kv緩存,可進(jìn)一步大幅提升推理性價(jià)比,該團(tuán)隊(duì)已在這一方向上展開(kāi)技術(shù)攻關(guān)。
除了推理市場(chǎng)給高性能存儲(chǔ)帶來(lái)的挑戰(zhàn),后訓(xùn)練的增加,對(duì)存力市場(chǎng)的影響也不小。業(yè)界的共識(shí)是,全球只有少數(shù)幾家企業(yè)將繼續(xù)做預(yù)訓(xùn)練,在大模型技術(shù)上持續(xù)摸高。而大多數(shù)大中型企業(yè),做后訓(xùn)練的頻率將增加。
相比于預(yù)訓(xùn)練,后訓(xùn)練對(duì)語(yǔ)料數(shù)量要求更少,訓(xùn)練周期也會(huì)縮短,但與預(yù)訓(xùn)練一樣,對(duì)存儲(chǔ)在時(shí)延、吞吐和帶寬等性能以及可靠性上,同樣提出極致高要求。這就像“數(shù)據(jù)輸油管”,如果輸送得不夠快、不夠穩(wěn)定,耗資巨大的GPU集群就無(wú)法工作。
在行業(yè)市場(chǎng),汽車智駕、AI醫(yī)療等賽道,成為存儲(chǔ)性能的角斗場(chǎng)。
某醫(yī)療AI企業(yè)影像診斷系統(tǒng),因小文件處理延遲,導(dǎo)致急診響應(yīng)超時(shí)率升高至12%。2024年,國(guó)家醫(yī)保局在放射檢查類相關(guān)指南中,首次將人工智能輔助診斷列入立項(xiàng)指南,在一些三甲醫(yī)院,AI輔助閱片已落地應(yīng)用。AI輔助閱片要求在10多分鐘內(nèi),就要完成1T數(shù)據(jù)的讀取、加載和訓(xùn)練,醫(yī)療市場(chǎng)的原有存儲(chǔ)系統(tǒng)正受到挑戰(zhàn)。
在汽車行業(yè),多家車企在智駕系統(tǒng)上展開(kāi)了“軍備競(jìng)賽”。頻繁的模型訓(xùn)練,對(duì)有強(qiáng)大并行處理能力的文件存儲(chǔ)系統(tǒng),提出強(qiáng)烈需求。一臺(tái)L3級(jí)別的自動(dòng)駕駛測(cè)試車,平均每天產(chǎn)生60TB的數(shù)據(jù),完整測(cè)試產(chǎn)生的數(shù)百PB數(shù)據(jù),需要存儲(chǔ)30年以上。車企也對(duì)低成本海量存儲(chǔ)提出明確需求。
此前,高性能存儲(chǔ)市場(chǎng),基本被海外產(chǎn)品覆蓋。最近兩年,國(guó)產(chǎn)存儲(chǔ)企業(yè)嶄露頭角,競(jìng)賽已在日夜吞吐數(shù)據(jù)的存儲(chǔ)系統(tǒng)中,悄然打響。
02
國(guó)產(chǎn)高性能存儲(chǔ)在激烈爭(zhēng)奪市場(chǎng)
早期,國(guó)內(nèi)企業(yè)如新能源車企,在構(gòu)建AI Infra時(shí),從算力、網(wǎng)絡(luò)到存儲(chǔ),幾乎都要花天價(jià),采購(gòu)海外廠商的全套技術(shù)棧。當(dāng)時(shí),國(guó)內(nèi)沒(méi)有相應(yīng)的自研高性能存儲(chǔ)技術(shù),主要以海外企業(yè)DDN、IBM GPFS為主。
不過(guò),市場(chǎng)已發(fā)生快速轉(zhuǎn)變。國(guó)產(chǎn)高性能存儲(chǔ)在近幾年介入市場(chǎng),并展現(xiàn)出強(qiáng)勁勢(shì)頭。2024年,京東云高性能存儲(chǔ)平臺(tái)“云海”,營(yíng)收增長(zhǎng)就高達(dá)10倍。云海是京東云在2022推出的國(guó)產(chǎn)全自研并行文件存儲(chǔ)系統(tǒng)。他們期望抓住當(dāng)下新一輪AI發(fā)展中,頭部用戶構(gòu)建、升級(jí)AI Infra的時(shí)機(jī),重塑市場(chǎng)格局。
某頭部銀行訓(xùn)練金融大模型時(shí),原有存儲(chǔ)系統(tǒng)性能無(wú)法滿足需求,在訓(xùn)練過(guò)程中出現(xiàn)了數(shù)據(jù)流動(dòng)低效、帶寬不夠大、吞吐性能不足、算力閑置等痛點(diǎn),大模型訓(xùn)練跑不起來(lái)。在替換成云海高性能存儲(chǔ)后,通過(guò)存算分離技術(shù)架構(gòu),實(shí)現(xiàn)了超50GiB/S吞吐帶寬,文件響應(yīng)延遲低至100微秒,大幅減少GPU等待時(shí)間,讓模型訓(xùn)練周期縮短40%。
在一些新能源車企,在數(shù)千卡規(guī)模模型訓(xùn)練集群中,結(jié)合云海,比使用海外技術(shù),成本降低了大約一半以上。
但國(guó)產(chǎn)高性能存儲(chǔ),并不是橫空出世,需要企業(yè)突破性能、可靠性、成本以及自主可控四大難關(guān)。
在這個(gè)過(guò)程中,云海經(jīng)歷了三大發(fā)展階段:存算分離階段、AI及大模型訓(xùn)練階段、推理潮階段,并聚焦研發(fā)了高性能并行文件存儲(chǔ)系統(tǒng)、統(tǒng)一引擎等相關(guān)核心技術(shù),以自研、高性能、低成本的系統(tǒng)角逐市場(chǎng)。
以高性能的并行文件系統(tǒng)為例,它更適合人工智能場(chǎng)景下,頻繁小文件隨機(jī)讀寫(xiě)和低延遲場(chǎng)景。比如,在AI輔助診斷系統(tǒng),可將數(shù)十萬(wàn)個(gè)CT切片,多個(gè)節(jié)點(diǎn)同時(shí)對(duì)數(shù)據(jù)進(jìn)行讀寫(xiě)操作、并行分析。
為了提升大模型訓(xùn)練速度,需要對(duì)大規(guī)模數(shù)據(jù)集進(jìn)行快速加載,且一般采用數(shù)百甚至上萬(wàn)張GPU構(gòu)成計(jì)算集群進(jìn)行高效的并行計(jì)算,需要高并發(fā)輸入/輸出(I/O)處理,而訓(xùn)練數(shù)據(jù)集呈現(xiàn)海量小文件的特點(diǎn),文件量在幾億到幾十億量級(jí),對(duì)應(yīng)的帶寬需求可能每秒要達(dá)到上TB,這就要求存儲(chǔ)系統(tǒng)具備強(qiáng)大的數(shù)據(jù)管理能力。
目前,業(yè)界有一些開(kāi)源技術(shù),而自研高性能并行文件的企業(yè)僅寥寥幾家。京東云是其中之一,將系統(tǒng)性能“壓榨”到極致。一家客戶在選型時(shí),將云海與海外產(chǎn)品PK,最終得出的結(jié)論是,云海性能與海外產(chǎn)品相當(dāng),但網(wǎng)絡(luò)帶寬利用率,高出近3個(gè)百分點(diǎn)。以單節(jié)點(diǎn)95GB/s的讀帶寬、60GB/s的寫(xiě)帶寬,進(jìn)一步拉低了國(guó)產(chǎn)存儲(chǔ)與國(guó)際老牌廠商的差距。
在另一個(gè)創(chuàng)新點(diǎn)——統(tǒng)一存儲(chǔ)引擎上,傳統(tǒng)上有不同存儲(chǔ)類型,導(dǎo)致企業(yè)內(nèi)部的存儲(chǔ)系統(tǒng)五花八門(mén)。之前有客戶買了五套存儲(chǔ)系統(tǒng),導(dǎo)致數(shù)據(jù)很難統(tǒng)籌,成了大模型訓(xùn)練應(yīng)用的掣肘。得益于京東云團(tuán)隊(duì)在存儲(chǔ)技術(shù)上多年的積累、在多業(yè)務(wù)場(chǎng)景下的實(shí)戰(zhàn),云海在設(shè)計(jì)時(shí),得以實(shí)現(xiàn)高度的抽象化,從而讓一個(gè)引擎,滿足企業(yè)內(nèi)部多元場(chǎng)景的需求。
存儲(chǔ)系統(tǒng)的可靠性,幾乎是企業(yè)構(gòu)建底座的底線。存儲(chǔ)一旦出問(wèn)題,數(shù)據(jù)丟失,將帶來(lái)災(zāi)難性問(wèn)題。而可靠性的追求永無(wú)止境,關(guān)鍵要找到它與性能、成本之間的最佳平衡點(diǎn)。京東云的創(chuàng)新涉及算法、架構(gòu),并獲得了國(guó)家相關(guān)專利。“京東云云海未出現(xiàn)任何導(dǎo)致客戶服務(wù)中斷的故障。”上述資深人士說(shuō)。
根據(jù)信通院測(cè)試,云海代碼自研率達(dá)到98.9%+,并全面支持國(guó)產(chǎn)硬件環(huán)境,這需要與國(guó)產(chǎn)多元芯片、操作系統(tǒng),做大量對(duì)接、優(yōu)化和相互認(rèn)證。而在支持國(guó)產(chǎn)化的情況下,云海能做到在一些主流算力平臺(tái)上,在CPU主頻相同的情況下,性能與X86平臺(tái)近乎等同,而性價(jià)比更高。這讓客戶能落地大模型,并獲得正向收益。
03
商業(yè)化兩年,從懷疑到認(rèn)可
在替代國(guó)外存儲(chǔ)產(chǎn)品時(shí),國(guó)產(chǎn)存儲(chǔ)經(jīng)歷了客戶態(tài)度從懷疑到認(rèn)可的轉(zhuǎn)變過(guò)程。
“起初,客戶難免會(huì)有所顧慮,國(guó)產(chǎn)全自研的云海高性能存儲(chǔ),是否能穩(wěn)定可靠地支持AI Infra的要求?”京東云相關(guān)負(fù)責(zé)人對(duì)數(shù)智前線說(shuō)。但隨著與客戶的持續(xù)溝通、PoC測(cè)試,以及越來(lái)越多頭部客戶案例的出現(xiàn),“大家逐漸認(rèn)識(shí)到云海不僅能夠替代,甚至在成本和性能上可能優(yōu)于國(guó)外存儲(chǔ)產(chǎn)品”。
這個(gè)過(guò)程中,京東云云海也逐漸形成一套自己的落地方法論和典型案例集。
例如,客戶在做存儲(chǔ)產(chǎn)品選擇時(shí),一般會(huì)重點(diǎn)關(guān)注兩大因素:第一,是否有品牌背書(shū),以避免產(chǎn)品廠商突然消失或停止運(yùn)維的風(fēng)險(xiǎn)。第二,技術(shù)和服務(wù)能力如何。
云海在這兩方面都進(jìn)行了強(qiáng)化,借助于京東云品牌,以技術(shù)能力打動(dòng)客戶。
京東云資深人士告訴數(shù)智前線,在品牌背書(shū)方面,云海不僅歷經(jīng)了京東集團(tuán)10多年大規(guī)模高流量場(chǎng)景驗(yàn)證,也是國(guó)內(nèi)互聯(lián)網(wǎng)廠商中,唯一一家支持存儲(chǔ)系統(tǒng)與云平臺(tái)解耦,以獨(dú)立產(chǎn)品組件實(shí)現(xiàn)輕量化向線下輸出的。
而在技術(shù)能力方面,云海80%以上的項(xiàng)目都通過(guò)了用戶的PoC測(cè)試。在PoC過(guò)程中,客戶能夠清晰了解存儲(chǔ)產(chǎn)品的性能、穩(wěn)定性、故障處理等能力。
另外,是否有在頭部企業(yè)的成熟應(yīng)用案例,并能快速?gòu)?fù)制到其他企業(yè),也是打動(dòng)客戶的關(guān)鍵。上述人士透露,商業(yè)化兩年間,云海已在智能駕駛、銀行、券商、泛互聯(lián)網(wǎng)等行業(yè)的頭部企業(yè)中,實(shí)現(xiàn)了成功落地。
在解決傳統(tǒng)基礎(chǔ)設(shè)施存算分離問(wèn)題的階段,云海曾協(xié)助中信證券、中信建投等頭部券商和銀行完成了存算分離的工作。在泛互聯(lián)網(wǎng)行業(yè),云海幫助荔枝FM和墨跡天氣實(shí)現(xiàn)了綜合存儲(chǔ)成本直降30%……
這些云海的第一階段的客戶,在最新這波大模型浪潮中,基于之前建立的信任基礎(chǔ),實(shí)現(xiàn)了延續(xù)。“只要之前用我們存算分離存儲(chǔ)系統(tǒng)的,現(xiàn)在在AI Infra層面,有并行文件高性能存儲(chǔ)需求的,幾乎100%都選擇了云海。”上述人士告訴數(shù)智前線。
某頭部券商的傳統(tǒng)存儲(chǔ)架構(gòu),隨著其金融業(yè)務(wù)擴(kuò)大,逐漸暴露出資源利用率低、存儲(chǔ)架構(gòu)不夠靈活、存儲(chǔ)性能不足、故障難恢復(fù)等問(wèn)題,為支撐業(yè)務(wù)發(fā)展,該券商基于云海構(gòu)建了統(tǒng)一云原生存儲(chǔ)架構(gòu)體系,實(shí)現(xiàn)數(shù)據(jù)高效存儲(chǔ)與流動(dòng),滿足了“小微化、高頻化”的業(yè)務(wù)新模式,支撐證券業(yè)務(wù)系統(tǒng)頻繁變更。同時(shí),存儲(chǔ)平臺(tái)兼容多存儲(chǔ)接口類型,與用戶業(yè)務(wù)系統(tǒng)無(wú)縫鏈接。
國(guó)內(nèi)某汽車廠商在做大模型訓(xùn)練時(shí),面臨GPU集群閑置的問(wèn)題,希望存儲(chǔ)廠商能幫忙提升集群使用效率。“我們之前給它做了估算,GPU集群閑置5%左右的時(shí)間,成本就已經(jīng)與重建一套分布式存儲(chǔ)集群相當(dāng)。”京東云資深人士告訴數(shù)智前線,為了將GPU的等待時(shí)間降下來(lái),云海做了一套高性能并行文件系統(tǒng)解決方案,來(lái)支撐它約100T的數(shù)據(jù)集訓(xùn)練,實(shí)現(xiàn)秒級(jí)讀寫(xiě)。
隨著大模型應(yīng)用的爆發(fā)式增長(zhǎng),AI基礎(chǔ)設(shè)施領(lǐng)域正經(jīng)歷一場(chǎng)前所未有的變革。從金融到汽車,從互聯(lián)網(wǎng)到醫(yī)療,各行業(yè)對(duì)高性能AI基礎(chǔ)設(shè)施都提出迫切需求。而在激烈角逐中,高性能存儲(chǔ)作為關(guān)鍵環(huán)節(jié),正見(jiàn)證國(guó)產(chǎn)力量的強(qiáng)勢(shì)崛起。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.