數據存儲領域正經歷著一場深刻變革,AI成為了中心,正在重塑系統處理海量數據的方式。
過去,企業組織多依賴傳統的SAN/NAS架構,但隨著以PB為單位的非結構化數據的爆炸式增長,傳統存儲技術在成本與效率方面明顯難以適應需求。
在軟件定義存儲(SDS)的架構體系下,基于對象存儲的解決方案快速發展。SDS對于對象存儲的性能、可靠性以及靈活擴展等都發揮著關鍵作用。而對象存儲有望成為存儲的主導技術,以滿足企業AI日益復雜且龐大的存儲需求。
對象存儲借助API,通過HTTP或HTTPS協議來進行數據的讀寫操作。其系統將數據分散存儲于多個硬件設備上,能自動處理數據冗余備份和擴展性難題,在大規模數據存儲場景中展現出卓越性能。
市場調查發現,企業超70%的云原生數據都存儲于對象存儲中。對象存儲強大的可擴展性、豐富的元數據等,為AI對數據的海量需求提供了有力支撐,正在革新AI模型的構建、訓練及部署方式,成為AI驅動的新時代中數據存儲的理想選擇。
對象存儲
AI和高級分析工作負載的基礎
AI不僅基于數據運行,而且建立在數據之上。AI模型做出的每一個決策,發現的每一個見解,都來自為其訓練和操作提供支持的龐大數據。
然而,隨AI模型變得越來越廣泛和復雜,與數據的交互方式帶來了傳統存儲系統無法解決的挑戰,不僅在于數據量龐,像GPT-4這樣的模型要能處理數萬億個Token,而且還在于訪問和管理數據的復雜性。
分散在分布式系統中的小文件以及對隨機訪問的需求凸顯了AI的需求與最初為結構化、順序工作流構建的基礎設施功能之間的不匹配。
對象存儲為AI對數據的渴望提供動力,其可擴展性、元數據豐富性和不變性改變AI模型的構建、訓練和部署方式。
法規遵從促進了對象存儲的發展。法規遵從要求組織在特定時間段內保留數字信息,包括電子郵件和文檔等,要求IT基礎設施必須以一種易于檢索的格式集中存儲海量數據。在此背景下,面向法規遵從的存儲產品——對象存儲應運而生。
與傳統存儲將數據作為文件存儲到文件系統不同,對象存儲把數據以對象形式存儲于更扁平的層次結構中,使系統具備更強的可擴展性。同時允許用戶以不可變方式存儲數據,且其元數據集更豐富。受監管的行業,尤其是金融、電信等廣泛采用了此類存儲平臺。
云服務上將對象存儲從小眾用途轉變為如今廣泛應用云存儲。其中,Amazon S3已成為事實上的行業標準,為大量以數據為核心、基于云的新型應用打開了便捷之門。同時內容密集型組織借助不斷涌現的對象存儲技術,能夠經濟高效地在本地管理呈爆炸式增長的數據。
對象存儲沿著公有云與企業本地存儲兩條截然不同的方向發展。在公有云領域,隨著S3不斷發展,其應用范圍持續拓展,逐漸成為新型Web規模應用和大數據的基礎。如今,S3客戶數量已達數百萬,存儲對象約450萬億個。AWS持續投入創新,促使S3對象存儲功能不斷擴展,為數據湖倉一體、元數據等提供附加服務。
在2024年AWS re:Invent上,AWS正式發布Amazon S3表,同時推出Amazon S3元數據預覽版。Amazon S3表能讓S3對象成為Apache Iceberg中用于創建數據湖的表格數據,由AWS完全管理;Amazon S3元數據可自動生成與數據管理和信息相關的對象元數據。越來越多企業將AWS S3對象存儲用于生成式AI等新工作負載,S3表和S3元數據服務將對象存儲進一步融入關鍵工作負載。
與之形成對比的是,企業對本地對象存儲平臺的采用率較低。Enterprise Strategy Group的研究顯示,約1/3的組織在一定程度上使用本地對象存儲。盡管對于擁有大量非結構化數據,或無法、不愿使用公有云的用戶而言,其使用量有所增加,但在常規企業中,對象存儲仍非主流。主流應用,特別是對存儲性能要求高的應用,大多運行在SAN、NAS或統一存儲上。
在企業里,對象存儲主要承擔以容量為核心、注重持久性和低成本擴展而非性能的角色,常作為備份、存檔、大規模數據湖等的存儲庫。當一些組織大規模部署含大量非結構化數據的AI時,傾向使用高性能文件存儲,如并行文件系統,對象存儲可能作為面向容量的底層混合存在,但尚未成為核心。
不過,本地對象存儲正步入新的創新階段,角色或將再次轉變。有觀點認為,提升性能后,對象存儲可作為傳統存儲方法更具擴展性、易用性且成本效益更高的替代方案,在企業中發揮更大作用,甚至直接支持高性能AI工作負載,為基于文件系統的方法提供新選擇。
對象存儲正成為AI和高級分析工作負載的基礎。MinIO公司最近發布的對象存儲和AI的調查報告顯示,企業超70%的云原生數據存于對象存儲,預計兩年內這一比例將升至75%。
對象存儲呈現爆炸式增長,主要歸因于AI支持、性能要求和可擴展性,AI計劃對大規模性能的需求,使對象存儲成為高效處理海量數據的理想選擇。
企業使用對象存儲的前三大場景分別是高級分析、AI模型訓練和數據湖倉一體存儲。在GenAI工作負載推動下,對象存儲因其獨特優勢,契合這些工作負載對吞吐量性能、不變性和大規模存儲的需求。
針對AI和機器學習工作負載,68%的受訪者因擔心公有云運行AI工作負載的成本,正考慮采用混合云,未來混合云方法的采用趨勢日益明顯。不過組織需謹慎權衡成本與績效。
盡管AI支撐著對象存儲的增長,但96%的受訪者稱面臨AI帶來的挑戰,主要源于管理大量非結構化數據和保障大規模一致性性能的需求。IT領導者將安全和隱私(44%)、數據治理(27%)、云原生存儲(25%)列為組織AI成功面臨的三大挑戰。
三大優勢確立對象存儲江湖地位
應用場景豐富多彩
傳統的文件或塊存儲適用于事務性較強的應用,在處理AI和ML工作負載時顯得力不從心。隨著AI和ML項目在各行各業的快速擴展,企業對高效、靈活的存儲解決方案的需求日益增長。對象存儲因其獨特的設計和功能,正成為AI和ML領域的理想選擇。
首先,無與倫比的可擴展性。AI和ML模型的訓練依賴于海量且多樣化的數據,如圖像、文本、結構化與半結構化數據等。這些數據的“數量”和“種類”是構建高效模型的關鍵。對象存儲通過水平擴展架構,能夠無縫支持數據存儲的無限增長。
與文件和塊存儲的縱向擴展(通過增加單個節點的資源)不同,對象存儲允許企業通過添加節點實現橫向擴展,輕松應對數據量的激增。
此外,對象存儲采用單個全局命名空間,支持跨多個地理位置的分布式部署,進一步提升了其擴展能力。這種靈活性使對象存儲成為處理大規模AI和ML數據集的理想選擇。
其次,強大的API支持。AI和ML工作負載通常涉及多種數據類型和復雜的數據處理流程,因此需要存儲平臺提供強大且靈活的API支持。對象存儲,尤其是基于Amazon S3 API的設計,能夠滿足這一需求。標準的存儲API支持豐富的功能,如版本控制、生命周期管理、加密、對象鎖定和元數據操作等,使對象存儲能夠輕松適應AI和ML的多樣化需求。
此外,存儲API的標準化使得在公有云、私有云和本地環境之間無縫遷移AI和ML工作負載成為可能。例如,企業可以將本地訓練的模型快速遷移到公有云進行擴展,或將在云中開發的應用部署到本地環境,而無需擔心功能丟失。同時,主流ML平臺(如TensorFlow和Apache Spark)已內置對存儲API的支持,進一步加速了AI和ML社區的開發進程。
豐富的元數據能力。元數據(關于數據的數據)是AI和ML模型訓練的核心。對象存儲支持無限制、可自定義的元數據標簽,使數據科學家能夠為數據添加豐富的描述信息,如數據的來源、類型、創建時間等,對于查找和分析特定數據集至關重要,能夠顯著提升模型的訓練效率和準確性。
相比之下,文件和塊存儲僅支持有限的元數據,無法滿足AI和ML對數據深度分析的需求。如在醫療領域,對象存儲可以為每張X光圖像添加精細的元數據標簽(如患者年齡、性別、受傷類型等),幫助訓練更精準的圖像識別模型,并從中獲得新的醫學見解。
對象的內容、元數據和唯一標識符是對象的組成部分
對象存儲的主要應用場景包括:
機器學習數據存儲。對象存儲適合存儲機器學習的訓練數據集、中間處理數據和最終模型文件。以自動車牌識別系統為例,可保存用于訓練模型的海量車牌圖片及特征數據,優勢是高度可擴展、持久且成本效益高,提供快速數據訪問速度,提升模型訓練和推理效率等。
數據湖構建。對象存儲是構建數據湖的理想選擇,能容納管理海量結構化和非結構化數據。如企業用阿里云對象存儲OSS構建數據湖,收集多源數據,供大數據分析工具訪問分析,可存儲多源數據,為數據分析提供基礎,進而獲得商業洞察、輔助決策。
數據分析。在對象存儲中可收集存儲幾乎無限、任意類型的數據,進行大數據分析,能獲取關于運營、客戶和市場等的寶貴見解。
備份和災難恢復,以及數據存檔。對象存儲因其持久性和可擴展性成為數據備份和恢復的首選。企業定期將重要文件和數據庫備份到對象存儲,數據丟失或損壞時可快速恢復。優勢是能有效保障數據安全,減少業務中斷時間。
對象存儲適合長期數據留存,可取代本地磁帶和磁盤存檔一類基礎設施。對象存儲既能優化數據持久性、檢索速度、安全性與合規性、可訪問性,而且還可歸檔富媒體和監管數據,能獲得高級分析及業務情報能力,以經濟高效方式存儲大量數據。
全球內容分發。對象存儲與CDN緊密集成,實現媒體文件全球分發。如在線游戲公司將游戲更新和補丁文件存儲其中,借助CDN分發,縮短用戶訪問延遲,確保全球用戶及時獲取內容。
靜態網站托管。對象存儲可存儲和提供靜態資源并作為Web服務器。如簡單博客或公司介紹網站將靜態文件托管在對象存儲上,通過配置權限可直接訪問,訪問速度快、成本低。
云原生應用數據,以及支持富媒體應用。對象存儲為云原生應用提供數據管理,滿足其快節奏、靈活的需求。應用由微服務組成,對象存儲支持組件間數據共享通信。這樣用戶可以添加任意數量內容,可以在任意位置訪問,加快應用部署。
對于富媒體應用,對象存儲可以加速應用,降低存儲富媒體文件的成本,能夠創建經濟高效的全局復制架構,并能通過存儲和復制功能將媒體交付給分布式用戶。
創新技術引領對象存儲發展
服務更多企業創新應用
為了滿足AI、ML等場景的應用需求,企業如何選擇對象存儲的解決方案和服務商呢?目前,對象存儲市場目前主要有三大類供應商,其解決方案豐富多彩,可供用戶選擇。
第一類云服務商。阿里云、騰訊云、亞馬遜云科技(AWS)等云服務商是對象存儲的主力軍,也是對象存儲業務發展的最大受益者。
阿里云對象存儲OSS是可提供12個9的數據持久性,99.995%的數據可用性,并提供標準存儲、低頻訪問存儲、歸檔存儲、冷歸檔存儲和深度冷歸檔多種存儲類型供選擇,全面優化存儲成本。
阿里云對象存儲在客戶端簽名直傳、服務端簽名直傳、微信小程序直傳實踐、支付寶小程序直傳、云端圖片處理、CDN加速訪問、搭建在線教育視頻課程分享網站、數據庫備份、第三方數據源遷移到 OSS等方面都有成功實踐。
正如前文所言,亞馬遜云科技Amazon S3是一種對象存儲服務,提供行業領先的可擴展性、數據可用性、安全性和性能。各種規模和行業的客戶都可以使用S3,來存儲并保護各種使用場景如數據湖、網站、移動應用程序、備份和還原、存檔、企業應用程序、IoT 設備和大數據分析等的數據,容量不限。
Amazon S3 提供管理功能,以便用戶可以優化、組織和配置對數據的訪問,以滿足用戶的特定業務、組織和合規性要求。
例如,Amazon S3 允許客戶在云存儲平臺對數據運行復雜數據分析,不需要將數據提取并移動到單獨的分析數據庫。熟悉SQL的客戶可以使用Amazon Athena在Amazon S3中按需分析大量非結構化數據;借助Amazon Redshift Spectrum,客戶可以對Amazon S3中的數EB數據運行復雜的分析,還可對在Amazon S3和Amazon Redshift數據倉庫中的數據運行查詢。
騰訊云的GooseFS是一款分布式緩存加速服務,主要用于解決對象存儲在AIGC、大數據分析等場景下的性能問題。它通過多級緩存調度、分布式緩存池以及自研元數據引擎,使數據訪問吞吐量提升8 - 10 倍,存儲帶寬消耗降低了90%。目前,該技術已成功應用于蔚來、博世等企業,為大模型訓練、自動駕駛等場景提供了有力支持。
騰訊云對象存儲(COS)支持多種數據存儲類型,包括標準存儲、低頻存儲、歸檔存儲等,滿足不同業務場景的需求。用戶可以通過簡單的API接口或SDK工具將數據上傳到COS,并實現數據的高效訪問和管理。
第二類是IT基礎設施供應商。IT基礎設施供應商提供各種存儲方案,而其對象存儲方案為組織提供了一種傳統存儲的替代方案,幫助大規模數據湖、分析或AI計劃等業務實現整體數據和存儲架構的現代化。
浪潮信息的對象存儲產品AS13000是面向企業級用戶的高性能分布式存儲系統,支持海量非結構化數據的存儲和管理。AS13000采用分布式架構,支持多節點集群部署,提供高可靠、高性能的存儲服務,適用于大數據、人工智能、云計算等場景。
AS13000應用場景多樣,如適用于海量非結構化數據的存儲和分析,如日志數據、用戶行為數據等;適用于AI模型訓練數據的存儲和管理,如圖像、視頻、文本數據;適用于云平臺的數據存儲,如虛擬機鏡像、容器數據;適用于企業數據的備份和歸檔,如歷史數據歸檔、災備數據存儲,以及 多媒體存儲與處理等。
HPE最近推出了其首個自主開發的對象存儲平臺,在全閃存架構上構建的 Alletra Storage MP X10000。針對高速數據湖以及更傳統的用途,如備份和存檔,HPE對象存儲的系統的性能是競爭對手產品的6倍。
此外,HPE還與Nvidia 合作,在GPU內存、系統內存和X10000之間實現直接內存訪問,將進一步增加系統的帶寬,減少延遲并提高GPU利用率,使其更適合作為高性能AI應用的存儲層。
Hitachi Vantara的最新對象存儲產品VSP One Object 針對各種企業用途,涵蓋S3原生分析、備份甚至高性能AI/ML數據湖工作負載。
第三類是存儲初創企業。依靠SDS創新技術與軟件,存儲初創企業也獨領風騷。
金山云和天翼云雖然是云服務商,但也推出了對象存儲創新技術。金山云申請了基于分布式對象存儲的數據存儲方法專利,旨在解決存儲空間資源浪費的問題。天翼云則申請了對象存儲方法專利,通過多網關部署提高數據存儲效率。這兩項專利技術分別從不同角度對對象存儲的性能和資源利用率進行了優化。
驛心科技與Hammerspace合作,推出了超大規模AI存儲解決方案。該方案整合了軟硬件優化技術,支持對象存儲與文件存儲的統一管理,能夠為多模態AI工作負載提供自動化數據編排服務。
MinIO下載量超過15億次,是很受歡迎的開源S3兼容對象存儲系統之一。由于其將性能和簡單性相結合,已被用于各種應用的數據的存儲。
隨著生成式AI的迅速發展,MinIO公司推出了AIStor。AIStor為對象存儲添加了特定于AI的功能,包括與S3兼容的新API promptObject,允許用戶與非結構化數據“對話”,以及AI模型的私有存儲庫,是Huggingface的替代品。AIStor還添加了支持新興AI數據工作負載的新功能,如支持通過S3建立RDMA連接,以及使管理更輕松的新全局控制臺。
對象存儲企業Cloudian將其 HyperStore產品與Nvidia Magnum IO GPUDirect Storage技術集成,實現了Nvidia GPU和Cloudian存儲節點之間的直接通信,在行業內尚屬首次。通過以這種方式繞過CPU,該方案可以為訓練和推理等AI工作負載提供高水平的并行吞吐量和可擴展性,而不會產生文件系統的復雜性,也不必在層之間遷移數據。
克服多重挑戰
對象存儲必將邁向發展的康莊大道
對象存儲在AI和機器學習應用中也面臨不少挑戰。
首先,存儲容量與云成本問題。對象存儲需要大量容量來存儲海量數據,云因此成為重要選擇。但企業將對象存儲用于AI時,必須考量云成本。由于對象大小各異,若在同一云服務商中存儲大量對象,數據定位可能耗時較長,可能還會對網絡帶寬造成影響。
其次,云管理相關問題不可回避。組織在云中存儲對象時,需要考慮云管理相關的成本、安全性以及服務級別等問題。而現場存儲雖不存在這些問題,但即便對對象進行數據壓縮,所需的存儲量仍可能導致高昂的存儲成本。
此外,對象版本管理難題與對象安全問題也不容忽視。在AI/ML應用中,數據是主要考量因素。當多個用戶處理同一對象時,可能會創建出不同版本,每次對象更改都會自動生成新對象,使得選擇使用哪個版本的對象成為挑戰。組織還必須關注對象的安全性,明確授予哪些用戶訪問權限。
未來,對象存儲將與AI和機器學習深度融合。隨著AI和ML技術的普及,對象存儲因其處理海量非結構化數據的能力,正成為訓練和部署模型的核心基礎設施。其豐富的元數據支持和強大的API將進一步推動AI/ML應用的發展。
對象存儲在多云和混合云中將加速部署,并將擴展到邊緣計算。對象存儲的標準化API使其在多云和混合云環境中無縫遷移和擴展成為可能。企業將更多采用跨公有云、私有云和本地環境的混合存儲架構,以提升靈活性和成本效率。
同時隨著邊緣計算的興起,對象存儲將擴展到邊緣節點,支持實時數據處理和低延遲訪問,滿足物聯網和5G應用的需求。
對象存儲將增強智能存儲與自動化管理功能。對象存儲將集成更多智能功能,如自動分層存儲、生命周期管理和智能數據分析等,幫助企業優化存儲資源,降低運營成本。
同時對象存儲將強化數據安全與合規性,將加強加密、訪問控制、對象鎖定等功能,確保數據的安全性和合規性,滿足企業對數據保護的更高要求。
對象存儲的角色正隨著市場發展不斷演變,為組織提供了一個新的替代方案和戰略機遇。
無論是數據湖、AI還是邊緣計算,對象存儲都在推動數據架構現代化,成為未來數據管理的核心支柱。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.