99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

到底什么是“數據湖”?

0
分享至

3月11日那篇文章(),小棗君介紹了什么是“數據倉庫”和“數據集市”。今天這篇,我再來說說什么是“數據湖”。

█ 什么是數據湖

數據湖,英文名叫做Data Lake。它和數據庫、數據倉庫一樣,是一種存儲和處理數據的平臺。

或者,更準確來說,數據湖是一個技術體系。它不是某一個具體的產品,而是一種架構,包括了很多的技術和組件(下文會詳細說)。


我們還是先從數據湖的發展歷程開始說起吧。

2010年10月,在紐約的Hadoop World大會上,Pentaho公司創始人及CTO詹姆斯·迪克森(James Dixon)率先提出了數據湖的概念。當時,他之所以提出數據湖,主要是為了推廣自家的Pentaho產品以及Hadoop。

小棗君之前介紹過Hadoop()。它是大數據的一個核心技術,誕生于2006年,具有極強的數據存儲和處理能力。

詹姆斯·迪克森的Pentaho產品,是一個BI(Business Intelligence,商業智能)分析組件,基于Hadoop技術。

介紹數據倉庫的時候,小棗君提到過,數據倉庫會把眾多數據源的數據匯集起來,進行ETL(抽取Extract、轉換Transform和加載Load)三板斧操作,然后存儲,用于BI、SQL查詢、數據挖掘、數據分析等目的。


換言之,Pentaho,是將當時新興的Hadoop技術應用于數據倉庫的一個嘗試,主要是為了解決數據倉庫的能力不足問題。

數據倉庫正式誕生于1990年左右,到2010年,已經無法跟上時代。

數據倉庫(包括數據集市),會對來自數據源的數據進行預處理和篩選。所以,在進行數據分析和數據價值挖掘時,會面臨幾個問題:

1、數據被預處理過,只保留了指定的屬性。分析時,只能回答之前預設的問題。

2、數據被篩選過,很多底層的細節被篩除了。分析時,無法獲得這些信息。

3、隨著當時互聯網的高速發展,非結構化數據(電子郵件,文檔, PDF)以及半結構化數據(CSV,日志, XML, JSON)迅猛增長。數據倉庫主要以處理結構化的數據(關系型數據庫,例如數據表格、行與列)為主,無法很好地滿足需求。

換言之,數據倉庫,是把所有數據源的數據,按一開始制定的規則,進行了處理,變成了產品,缺乏靈活性。

而數據湖,是利用Hadoop等大數據技術的處理能力和成本優勢, 將所有數據源的數據,不做預處理,全部都存起來。


這就解決了前面提到的幾個問題:

1、數據湖中的數據接近原生,內容齊全,屬性完整。應用層在使用數據時,可以基于需求,進行靈活設計。

2、數據信息未被篩選,底層細節都在,可以盡可能還原業務(也是為了更好地分析)。

3、結構化、非結構化、半結構化,所有數據都能保存和處理,滿足互聯網時代發展的需要。

數據湖還解決了一個重要問題,那就是數據孤島。很顯然,企業內部各個業務系統的數據都放在一起了,當然也就沒有孤島了,可以開發橫跨多個系統的數據應用。

我們可以舉個買菜炒菜的例子。

數據倉庫,因為存儲成本高,所以,買了菜之后,會進行預處理,變成指定的炒菜素材,例如土豆塊、菜葉、肉絲等。炒菜時,廚師直接取用。如果廚師想要做一些特殊的菜,一些原生態的菜,就沒辦法了。如果廚師想要燒魚,也沒辦法。

數據湖,就是你擁有了一個超大且便宜的空間,可以保存你購買的所有食材。食材的品種非常豐富,且不需要做任何預處理。各個廚師可以根據自己的需要,在炒菜時自行處理。廚師擁有了更多的靈活度,菜品也更加豐富。


數據湖的出現,滿足了企業用戶存儲全域原始數據的需求。

2011年,CITO Research網站的CTO和作家丹·伍德斯(Dan Woods)也力推數據湖的概念。他指出:“如果我們把數據比作大自然的水,那么各個江川河流的水未經加工,源源不斷地匯聚到數據湖中。”

很多人也許會問,為什么叫“數據湖”?而不是“數據池”、“數據河”、“數據海”?

因為“數據池”太小,體現不出數據的大量。“數據河”是流動的,數據無法保存。“數據海”則是因為沒有邊界。數據湖是屬于企業的,需要邊界,需要注意隱私和安全。

數據湖的主要特征

我們再簡單地梳理一下數據湖的優點。

第一,數據的多樣性。

數據湖可以存儲多種類型的數據,包括結構化數據、半結構化數據和非結構化數據。這符合了物聯網(IoT)、社交媒體和移動互聯網的時代需求。

最近這幾年,AI特別火爆。數據是AI的三要素(算力、算法、數據)之一。數據湖有利于企業發展AI業務,例如機器學習、生成式人工智能等。

第二,處理的實時性。

傳統的數據倉庫,采用的是——寫時模式(Schema-On-Write)。數據加載到數據倉庫時,首先需要定義好它。

數據湖,采用的是——讀時模式(Schema-On-Read)。只需加載原始數據,然后,當準備使用數據時,再定義它。

這是兩種截然不同的數據處理方法。數據湖簡化了前期操作,數據準備的周期更短,可以靈活滿足更多不同上層業務的高效率分析訴求。


第三,容量更大。

數據湖具有海量的數據存儲能力。數據湖基于分布式存儲系統構建,能夠靈活擴展,可以輕松應對PB級甚至EB級的數據量。

第四,成本更低。

數據湖往往基于開源軟件和廉價硬件構建,而且部署在云環境中,成本大幅下降,減少了企業的投資。

第五,應用的多樣化。

前面說了,數據湖保留了數據的原始特征和細節,所以,為后續的靈活分析和挖掘提供了豐富素材。企業用戶可以進行批處理分析、實時流處理分析和交互式分析,滿足不同業務場景的需求。

█ 數據湖面對的挑戰

說完了優點,我們再來看看挑戰。

建設和使用數據湖,不是一件簡單的事情。很多企業盲目跟風建設數據湖,最終卻沒有達到效果。

想要擁抱數據湖,面對的挑戰主要來自兩個方面。

第一,是性能。

數據湖的數據量很大,數據格式也很雜。缺乏一致的數據結構和ACID(原子性、一致性、隔離性和持久性)事務支持,導致數據湖在滿足報告和分析需求時性能不佳。

第二,是數據治理。

數據治理是數據湖的最核心要素(沒有之一),指對企業中數據的可用性、完整性和安全性的全面管理,以提升數據的質量和可用性。

前面提到,我們可以將數據源的數據“倒入”數據湖,無需進行處理。但是,“不處理”并不代表“不治理”、“不管理”。

在介紹數據倉庫的時候,我們提到過元數據。元數據,就是管理數據的數據。元數據中包括了數據存儲位置、數據格式、數據模式、數據分布等信息。

數據湖擁有海量數據,管理元數據顯得更為重要。

數據湖會建立一個數據目錄。數據目錄是元數據的集合,可以理解為是一張“數據清單”。通過數據目錄,用戶可以搜索和發現數據湖中的數據,提高數據的可訪問性和可發現性。


具體來說,基于數據目錄,結合數據管理和搜索工具,上層計算引擎可以直接獲取數據的關鍵信息,進行數據處理。

數據目錄,還可以對數據湖中的數據進行訪問控制,控制的力度可以做到“庫表列行”等不同級別。

除了數據目錄之外,數據治理還需要關注數據質量和數據合規。

數據湖存儲的數據,具有不同的質量和精度,可能導致分析結果不準確、不可靠。因此,需要建立數據質量系統,確保數據的完整性、準確性、一致性以及標準化。

數據合規,很容易理解,就是數據存儲和使用必須符合法律法規,例如GDPR(通用數據保護條例)、HIPAA(健康保險便利和責任法案)等。 數據合規一旦出問題,可能導致數據泄露、法律訴訟或巨額罰款,損害企業的聲譽,也帶來經濟上的損失。

特別值得一提的是,如果數據湖沒有得到妥善的治理,就會變成龐大的“數據沼澤”,根本沒辦法發揮數據的價值,反而變成累贅。

數據湖的架構

前面說過,數據湖是一個框架和技術體系。它由多個互相協作的組件和產品組成的。

圍繞數據湖的技術組件和產品,一般來自四類廠商:

· 開源解決方案

· 云服務商(如亞馬遜AWS、微軟Azure、Google Cloud、阿里云、華為云等)

· 專業數據庫出身的廠商

· 一些初創企業或團隊

不同的公司,會開發不同的組件和產品,應用于不同的層級。少部分公司,能夠提供完整的全套解決方案,或者基于云服務的全托管方案。


出于成本的考慮,很多企業可能更傾向于使用開源產品。開源數據湖方案比較知名的分別是:Delta Lake(DataBricks公司)、Apache Iceberg、Apache Hudi和Apache Paimon。


圖片來自網絡

數據湖概念被提出來之后,云服務廠商特別激動,也特別熱情,吆喝得最賣力。 原因很簡單,數據湖想要實現海量數據的低成本存儲,一般會用到分布式存儲和云存儲服務。 而且,云服務廠商可以提供前面提到的全托管方案。


AWS的數據湖產品體系(圖片來自網絡)

不同的方案提供商,會提出不同的數據湖架構。 但是,基本上都包括四個主要層次:

數據攝取層(數據采集層):負責從各種數據源收集數據,并將其傳輸到數據湖中。

數據存儲層:以原始格式存儲大規模的數據。

數據管理層:對數據進行管理和組織,包括數據的分類、編目、索引等功能。還要負責數據的安全和合規。

數據訪問層(數據分析層):提供各種工具和框架,支持用戶對數據湖中的數據進行查詢、統計分析、機器學習等操作。

好了,看到這里,大家一定會發現,數據倉庫和數據湖有各自的優點和缺點。


那么,有沒有辦法,可以將兩者之間的優點相結合呢?

當然有的,那就是數據湖倉,也叫湖倉一體

下一期,我們就來詳細了解一下,到底什么是數據湖倉(湖倉一體)。這也是鮮棗課堂大數據專題的最后一期。敬請期待!

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
短評:別整天嚷嚷拋美債了!丟人!

短評:別整天嚷嚷拋美債了!丟人!

財經飛說不可
2025-04-14 18:18:09
風波再起?馬筱梅前夫發文回應被告細節 汪小菲一句話霸氣回懟謠言

風波再起?馬筱梅前夫發文回應被告細節 汪小菲一句話霸氣回懟謠言

小椰的奶奶
2025-04-28 00:06:22
“想不到他深情到這個地步”:一位丈夫絕筆信背后的愛與哀愁

“想不到他深情到這個地步”:一位丈夫絕筆信背后的愛與哀愁

南方都市報
2025-04-25 17:58:08
醫生出軌4人,致2人懷孕,目前已有身孕7個月,原配出身不簡單

醫生出軌4人,致2人懷孕,目前已有身孕7個月,原配出身不簡單

魔都姐姐雜談
2025-04-27 11:08:52
田華獲北影節終身成就獎,滿頭白發坐輪椅現身,陳佩斯跪地送獎杯

田華獲北影節終身成就獎,滿頭白發坐輪椅現身,陳佩斯跪地送獎杯

春序娛樂
2025-04-27 11:53:36
世界貿易組織:中國對美出口預計將下降77%!

世界貿易組織:中國對美出口預計將下降77%!

羅sir財話
2025-04-27 17:42:30
鎮遠市委書記下鄉,遭三名基層干部和兩名交警打罵,防暴隊出動

鎮遠市委書記下鄉,遭三名基層干部和兩名交警打罵,防暴隊出動

喬生桂
2024-02-09 22:43:06
美國突發!最高漲價377%!

美國突發!最高漲價377%!

中國基金報
2025-04-28 00:08:45
中國足球歸化新希望:這名巴西前鋒或成2030世界杯破局者

中國足球歸化新希望:這名巴西前鋒或成2030世界杯破局者

中山印象體育攝影師
2025-04-27 16:58:47
長城汽車首發4.0T V8發動機,踩碎列強車企最后的驕傲

長城汽車首發4.0T V8發動機,踩碎列強車企最后的驕傲

燃擎頻道
2025-04-25 14:03:33
被判10年的李天一,改名換姓出獄后,最惡心的一幕還是出現了

被判10年的李天一,改名換姓出獄后,最惡心的一幕還是出現了

小故事娛樂
2025-03-23 12:20:03
謝霆鋒第三場,倆兒子現身,孩他娘沒來,謝霆鋒場上喊媽,太逗了

謝霆鋒第三場,倆兒子現身,孩他娘沒來,謝霆鋒場上喊媽,太逗了

小娛樂悠悠
2025-04-27 09:06:00
新華社快訊:加拿大溫哥華有人駕車沖撞人群,造成多人死傷

新華社快訊:加拿大溫哥華有人駕車沖撞人群,造成多人死傷

新華社
2025-04-27 13:10:08
黃一鳴再曝關鍵證據!王思聰我的聊天記錄曝光,網友:這錘太實

黃一鳴再曝關鍵證據!王思聰我的聊天記錄曝光,網友:這錘太實

迪迪的娛樂故事
2025-04-26 08:08:30
前皇馬教練:C羅如果沒進球即使贏球也會失望,姆巴佩沒這種特質

前皇馬教練:C羅如果沒進球即使贏球也會失望,姆巴佩沒這種特質

直播吧
2025-04-27 22:30:16
人民法院無權凍結的20種賬戶(2025)

人民法院無權凍結的20種賬戶(2025)

微法官
2025-04-14 00:03:58
費內巴切主席:我們不會因外界雜音就換帥,穆里尼奧將會留任

費內巴切主席:我們不會因外界雜音就換帥,穆里尼奧將會留任

雷速體育
2025-04-27 23:14:04
送別!聞頻同志在西安逝世

送別!聞頻同志在西安逝世

91.6陜西交通廣播
2025-04-27 20:46:46
交通管制!堵堵堵!東莞交警發布最新提醒!

交通管制!堵堵堵!東莞交警發布最新提醒!

東莞紀實
2025-04-27 17:50:45
能原諒德甲嗎?漢堡遭遇3輪不勝,仍領先直接升級區3分

能原諒德甲嗎?漢堡遭遇3輪不勝,仍領先直接升級區3分

直播吧
2025-04-27 21:58:03
2025-04-28 02:12:49
鮮棗課堂 incentive-icons
鮮棗課堂
ICT知識科普。
850文章數 1247關注度
往期回顧 全部

科技要聞

充1秒跑2.5公里,寧德時代比亞迪華為激戰

頭條要聞

用馬斯克理念改造生產線 95后女生創業1年銷售額上億

頭條要聞

用馬斯克理念改造生產線 95后女生創業1年銷售額上億

體育要聞

我們來自北極圈,我們有全球最恐怖的主場!

娛樂要聞

華表獎獲獎名單!張譯二影帝惠英紅勇影后

財經要聞

2千億!核電開閘 國常會核準10臺新機組

汽車要聞

蔚來李斌的"十年磨一劍" 從看得見 到看不見

態度原創

藝術
家居
旅游
親子
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

家居要聞

明亮溫馨 質感且奢華

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

海洋球分類挑戰!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 旬阳县| 和林格尔县| 敦煌市| 河北省| 石阡县| 高尔夫| 新丰县| 平利县| 会泽县| 正蓝旗| 龙州县| 三穗县| 定结县| 阿瓦提县| 磴口县| 东辽县| 上栗县| 修武县| 双峰县| 施甸县| 龙口市| 郑州市| 新建县| 凤台县| 鸡西市| 平遥县| 高雄县| 宕昌县| 晴隆县| 宁远县| 开封县| 漾濞| 西乡县| 宣汉县| 永顺县| 怀柔区| 兴海县| 美姑县| 宝丰县| 山阴县| 酒泉市|