作者 | 金旺
IDC預測數據顯示,2024年全球人工智能產業規模將達到6233億美元,同比增幅高達21.5%。
中國信通院在相關分析報告中也指出,人工智能產業之所以能保持高速增長,除了大模型的涌現,另一個重要原因是生成式AI正在加速產業化。
要想推動以生成式AI為代表的人工智能技術在產業中快速落地應用,事關AI計算、存儲等的基礎設施技術升級就成了其中關鍵。
1月16日,OceanBase公共云產品總監陳小偉在OB Cloud見面會上透露,面向AP實時分析場景的首個LTS(長期支持)版本OceanBase 4.3.5 LTS版本即將上線OB Cloud。
這將成為OceanBase接下來支撐企業AI應用落地的一次重要產品更新。
01 構建現代數據架構,OB Cloud迎來AP更新
據中國信通院在《中國數字經濟發展研究報告(2024年)》中公布數據顯示,2023年我國數字經濟規模達53.9萬億元,較上年增長3.7萬億元,占GDP比重達42.8%。
在數字經濟規模持續增長背后,是數字化已成大勢所趨,越來越多企業加入到了數字化轉型浪潮中。
不過,在企業數字化轉型過程中,尤其是中國數以千萬計的中小企業,雖然得益于互聯網技術紅利,但也備受這些復雜技術維護和硬件成本投入的困擾。
于是,云服務就成了一個不錯的選擇。
OceanBase是在2022年推出的云數據庫產品OB Cloud,并啟動了云數據庫戰略。
彼時的OceanBase更多是為了屏蔽和簡化互聯網技術的復雜度,讓企業在受益于互聯網技術的同時,簡化技術棧并降低維護成本。
在經過這兩年持續技術更新后,OB Cloud在傳統數據庫云上遷移、高并發場景支持、TP&AP融合方面有了很好的表現,不僅服務了理想、上汽大眾、vivo等超700家企業,也成為了OceanBase的第二增長曲線。
例如全球零售巨頭寶潔正是在完成了多種數據庫向1個OceanBase集群遷移后,ELT最高提速了324%,得益于技術棧整合和存儲壓縮技術,實現了40%的降本。
作為中國跨境物流領域頭部企業,縱騰物流此前由于原有自建數據庫對大規模數據處理和復雜查詢的支持有限,數據準確性和及時性不足,嚴重影響了物流過程的順利運行。
在將自建數據庫切換到OB Cloud后,縱騰物流數據庫整體擁有成本降低了56%,集團業務系統各項性能也得到了一定的提升。
時至今日,云數據庫已然成為行業發展的一個主流趨勢,據Flexera發布的《云狀態報告 2023》數據顯示,環境更復雜、決策較緩慢的大型企業已有50%的工作負載和數據在公有云上,中小企業比例更大,有超過三分之二的工作負載和63%的數據位于公有云中。
作為國內頭部數據庫廠商,OceanBase的OB Cloud客戶數量在2024年更是實現了130%的增長。
也就在云服務成為大勢所趨時,隨著生成式AI成為各類應用構建的核心功能,在企業數字化轉型過程中,人工智能技術開始加速在企業中得到應用。
來自Gartner的預測數據顯示,到2026年,超過80%的企業將會使用生成式AI的API或部署生成式AI應用程序。
這時,企業對于數據庫的實時分析能力提出了更高的需求。
1月16日,OceanBase公共云產品總監陳小偉在OB Cloud見面會上官宣,面向AP實時分析場景的首個LTS版本OceanBase 4.3.5 LTS即將上線OB Cloud。
相較于2024年10月OceanBase年度發布會上發布的4.3.3 GA版本,OceanBase4.3.5 LTS版本在性能、功能、兼容性和易用性上得到了全面的提升。
在功能層面,4.3.5 LTS版本引入了對嵌套物化視圖的支持,并對全文索引和向量索引功能進行了完善。
這使得OceanBase數據庫在應對多模數據分析時更加靈活高效,與此同時,數據導入導出的能力也得到了顯著增強。
在向量索引方面,4.3.5 LTS版本在4.3.3版本基礎上增強了向量索引功能,支持的最大向量維度從2000維提升到了4096維,進一步擴大了OceanBase的適用范圍。
與此同時,4.3.5 LTS版本新增了對cosine距離算法的支持,用戶可以在創建向量索引時指定此算法,并在查詢時通過cosine_distance表達式進行過濾條件設置。
這讓OceanBase得以高效處理基于向量的多模數據查詢,為復雜的AI應用場景提供了更強的能力支持。
此外,4.3.5 LTS版本不僅對MySQL和Oracle場景的支持更加全面,還在表級恢復性能、旁路導入性能、DML性能和DDL性能方面都進行了不同程度的優化。
值得注意的是,作為首個面向AP實時分析場景的LTS版本,在OceanBase 4.3.5 LTS版本發布之前,面向AP實時分析場景的OceanBase數據庫產品已經經歷了從4.3.1 Beta版本到4.3.3 GA版本多次迭代,有上百家企業客戶驗證了OceanBase的AP能力,在OceanBase 4.3.3 GA版本中運行的實例也已經超過100個。
正因如此,OB Cloud得以在OceanBase 4.3.5 LTS版本中構建起面向現代企業數字化、智能化轉型的數據架構,更好地應對實時數據分析、混合負載管理、多模數據處理等需求。
而這樣的現代數據架構另一項重要能力,是支持企業業務的跨云部署。
02 跨云雙活,消弭云上屏障
OceanBase首席科學家陽振坤曾指出,“今天全球有很多云平臺,這些云平臺提供了很好的數據庫服務,但是他們都存在一個局限性,那就是每個云平臺提供的數據庫本質上只能在該云平臺上使用?!?/p>
無論是基于故障、容災方面的考慮,還是基于企業出海和全球化對于更多云的可選擇性方面的考慮,企業業務往往需要在多個云上進行部署。
然而,即便是同樣基于MySQL的數據庫,不同云上的MySQL數據庫往往有著諸多不同,因而,企業業務的跨云部署就成了一大難題。
作為云中立的數據庫供應商,OceanBase早在2022年OB Cloud發布之初,就開始支持多云部署。
OB Cloud的跨云高可用方案為了解決單元基礎設施不穩定問題,按業務需求不同,又分為跨云冷備和跨云熱備兩種模式:
跨云冷備是基于OB Cloud兼容不同云服務的對象存儲系統的能力,通過數據備份+實時日志備份,提供快速的集群恢復服務;
跨云熱備是OB Cloud直接通過OMS(數據遷移服務)打通不同云產品,在企業某項業務使用的云服務出現異常時,直接切換入口至備用云產品。
此外,OB Cloud的云內高可用方案,也為企業業務在節點、機房、地域多級之間提供了高可用保障:
在節點級高可用方案中,OB Cloud通過三副本Paxos保證企業業務不在相同機器,以避免機器級故障;
在機房級高可用方案中,OB Cloud是通過單地域三機房和單地域雙機房+異地仲裁節點保證機房級高可用;
在地域級高可用方案中,OB Cloud則是通過數據備份+日志實時備份快速做集群恢復,實現異地冷備。
正是基于這樣的云內高可用和跨云高可用方案,OB Cloud如今已經在美洲、歐洲、亞洲30多個地理區域的100多個可用區,支持阿里云、亞馬遜云科技、谷歌云、華為云、騰訊云五大主流公有云基礎設施,提供一致的云數據庫服務。
例如映宇宙(原映客)一直與阿里云、騰訊云、亞馬遜云科技等多個云廠商有著密切合作,這一方面是因為映宇宙不同業務對云產品的需求不同,另一方面也是因為多云部署有著更強的靈活性,也有更強的議價能力。
不過,由于各大云廠商數據庫產品之間有著技術與合規壁壘的存在,能夠進行多云部署,也就成了映宇宙選擇OB Cloud的一個主要原因。
正是在選用OB Cluod后,映宇宙實現了多云下的統一技術棧,簡化了運維流程,實現了超30%的降本。
映宇宙的多云部署更多是基于業務發展需求的考慮,此外,隨著近年來云故障事件頻發,多云部署方案的熱度還在繼續升溫,越來越多企業基于對云上安全和容災的考慮,開始基于多云方案部署核心業務系統。
也是在這時,在OceanBase 4.3.5 LST版本上新的同時,OB Cloud推出了跨云雙活的主備庫新特性,以滿足企業跨云容災的業務訴求。
以企業部署在阿里云上的實例為例,OB Cloud可以為該實例在AWS上創建備實例,以實現從阿里云到AWS之間的主備容災訴求。
在這個過程中,通過基于日志備份的物理備庫,將日志歸檔寫入到主庫所在同地域的對象存儲中,備庫通過公網來獲取主庫的備份歸檔日志,相較于以往的專線方案,這一方案無需額外打通成本,也無需管理復雜的VPC網絡連接,降低了使用成本和技術架構的復雜性。
與此同時,通過在不同站點保留完整的數據副本,OB Cloud跨云雙活架構大幅提升了系統的可靠性和抗風險能力,即使某一云產品出現不可用的極端情況,也能快速切換至其他云基礎設施,確保服務不中斷。
這讓OceanBase成了國內首個實現跨云容災的云數據庫服務商。
03 人工智能時代,需要怎樣的數據庫?
2012-2023年這11年間,我國數字經濟規模由2012年的11.2萬億元增長至2023年的53.9萬億元,數字經濟規模擴張了3.8倍,數字經濟占GDP比重高到42.8%。
在潛移默化中,數字經濟已經成為全球經濟增長的重要引擎。
與此同時,在生成式AI新模式的帶動下,人工智能技術正在成為驅動全球經濟發展的另一個重要變量。
人工智能技術的階躍式發展背后帶來的是數據量的暴增,據中國信通院研究報告顯示,在2020年6月1750億規模參數的GPT-3大模型發布后,大模型的知識密度在持續增強,平均每8個月翻一番。
尤其是在多模態大模型成為行業發展的主流趨勢后,非結構化數據爆發式增長,對數據庫提出了多模態需求。
陳小偉指出,人工智能時代非結構化數據的爆發式增長帶來了三方面挑戰:
第一,數據體量大,企業級的非結構化數據通常以PB、EB量級存在,存儲和使用這些數據需要大量的存儲和計算資源;
第二,數據格式多,包括文本、圖片、音視頻、日志等格式;
第三,數據理解困難,由于非結構化數據的多樣性和復雜性,使得快速、準確地查詢信息變得非常困難。
這時,OceanBase打造的多模一體化技術架構的優勢就凸顯了出來。
例如,OceanBase與支付寶“百寶箱”團隊合作,基于LBS搭建了一個可以實現周邊服務問答的智能體。
現在在支付寶的百寶箱中,你只需要對著它說出諸如“請推薦距離3000米內,評分4.5分以上,人均消費200元以內的潮汕牛肉火鍋店”,它就可以自動將符合條件的火鍋店推送給你。
在這個過程中,雖然僅僅是一次簡單的問答交互,對于數據庫而言,背后卻涉及到了空間搜索和計算、標量過濾、向量檢索在內一整套復雜流程和計算過程。
如果基于傳統數據庫方案,開發一個這樣的AI應用需要使用多個數據庫產品,由于不同數據庫查詢關注的維度有所不同,往往又需要基于不同數據庫召回大量數據并在內存中對多路召回數據進行重新排序,這不僅會消耗大量內存和算力,還需要較長的開發周期。
由于OceanBase多模一體化數據庫原生支持各類數據類型和索引,這類AI應用的數據庫架構從多庫簡化到了一個庫,支付寶“百寶箱”團隊僅僅用了一個星期的時間就完成了這一應用從0到1的開發。
OceanBase CEO楊冰在2024年OceanBase年度發布會上曾指出,“在未來數智化時代,數據庫技術由分走向合已經是一個必然趨勢?!?/p>
在經過這十幾年的技術研發、產品迭代,以及2000多家商業客戶實際應用場景中的打磨,如今的OceanBase已經形成了面向數字化、智能化時代的數據架構,OB Cloud也完成了向一體化多模分布式數據庫、一體化多云、一體化云平臺、一體化數據庫生態的進化。
而基于“一體化”數據架構的OB Cloud,不僅支撐了零售頭部企業和中國超60%的千億規模消費電子企業的數字化轉型,在接下來人工智能大潮下,也將成為支撐更多企業數智化轉型的一體化云數據庫。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.