99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

大數據的3V、4V、7V,到底是什么意思?

0
分享至

大數據,顧名思義, 就是大量的數據。

更專業來說,大數據,是一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據軟件工具能力范圍的數據集合。


我們通常說:“量變引起質變”。大數據,就屬于這種情況。

當數據體量增加到一定程度時,相關技術、理念、思維等,都隨之發生質變,從而形成了一個新的領域,這就是大數據領域。

大數據,通過對海量數據的采集、分析和處理,尋找其中的特征和趨勢, 提煉更多的高價值信息,用于改善業務流程,或者輔助決策行為。

在大數據領域,我們經??吹揭恍╆P于3V、4V、7V的說法。這些V,到底是什么意思呢?

今天這篇文章,小棗君就簡單給大家介紹一下。

3V、4V、7V的來源

2001年,美國麥塔集團分析師道格·蘭尼(Doug Laney)在對大數據進行理論研究的時候,發現大數據具備三個特征。而這三個特征的英文單詞,恰好又以字母“V”開頭,即:

Volume(體量大)、Variety(多樣化)、Velocity(速度快)。

后來,“3V”這個特征理論,逐漸被業界所接受,成為描述大數據特征的標準。

再后來,在“3V”的基礎上,業界的一些專家們又陸續提出了“4V”、“5V”,甚至“7V”,包括:

Veracity(真實性)、Value(價值密度)、Variability(變異性)、Visualization(可視性)等。

所有這些V,就變成了對大數據特征的新定義。

接下來,我們就分別看看,這些“V”具體是什么意思。

No.1 :Volume(體量大)

大數據,到底有多大?

我們傳統PC和手機處理的數據,是GB/TB級別。例如,我們的硬盤,現在通常是1TB/2TB/4TB的容量。

TB、GB、MB、KB的關系,大家應該都很熟悉了:

1 KB = 1024 B (KB - kilobyte)

1 MB = 1024 KB (MB - megabyte)

1 GB = 1024 MB (GB - gigabyte)

1 TB = 1024 GB (TB - terabyte)

而大數據是什么級別呢?PB/EB級別。

1 PB = 1024 TB (PB - petabyte)

1 EB = 1024 PB (EB - exabyte)

只是看這幾個字母的話,貌似不是很直觀。我來舉個例子吧。

1TB,只需要一塊硬盤可以存儲。容量大約是20萬張照片或20萬首MP3音樂,或者是20萬部電子書。

1PB,需要大約2個機柜的存儲設備。容量大約是2億張照片或2億首MP3音樂。如果一個人不停地聽這些音樂,可以聽差不多兩千年。

1EB,需要大約2000個機柜的存儲設備。如果并排放這些機柜,可以連綿1.2公里那么長。如果擺放在機房里,需要21個標準籃球場那么大的機房,才能放得下。

阿里、百度、騰訊這樣的互聯網巨頭,數據量據說已經接近EB級。


數據中心

EB還不是最大的。目前全人類的數據量,是ZB級。

1 ZB = 1024 EB (ZB - zettabyte)

根據IDC的數據,在2020年,全球創建、捕獲、復制和消耗的數據總量約為64ZB。而到了2025年,全球數據總量可能會達到驚人的163ZB。如果建一個機房來存儲這些數據,那么,這個機房的面積將比196個鳥巢體育場還大。

人類社會的數據體量不僅大,增長速度也很快——每年增長50%。也就是說,每兩年就會增長一倍多。

數據的增長,為什么會如此之快?

說到這里,就要回顧一下人類社會數據產生的三個重要階段。

第一個階段,是1940-1990年。

計算機和數據庫被發明之后,數據管理的復雜度大大降低。各行各業開始產生了計算機數據,并記錄在數據庫中。這時的數據,以結構化數據為主(待會解釋什么是結構化數據)。數據的產生方式,是被動的。

第二個階段,是1990-2010年。

伴隨著互聯網的爆發,網絡內容開始迅速增長,增加了很多的專業輸出內容(PGC)。Web2.0出現后,人們開始使用博客、facebook、youtube這樣的社交網絡,輸出大量的用戶原創內容(UGC),從而主動產生了大量的數據。移動智能終端時代的到來,也加速了該階段數據的產生。

第三個階段,是2010年至今。

隨著物聯網的發展,各種各樣的感知層節點(例如遍布各個角落的傳感器、攝像頭)開始自動產生大量的數據。企業的數字化轉型,構建了大量的系統,沉淀和管理這些數據。人類的數據總量,再次躍升。


經過了“被動-主動-自動”這三個階段的發展,最終導致了人類數據總量的爆炸式膨脹。

值得一提的是,如今,隨著我們逐漸進入AI智能時代,很可能會迎來第四次數據暴增階段。以AIGC為代表的智能機器生產內容,正在急劇增加。

No.2 :Variety(多樣化)

多樣性主要體現在三個方面——數據來源多、數據類型多和數據之間關聯性強。

數據來源多:

如前面所說,數據來源于不同的應用系統和設備。

例如,企業所產生的營銷數據、業務系統數據、生產數據等,互聯網行業所產生的社交內容數據、訂單數據、用戶數據等,政府部門所產生的社會治理數據、地理數據、經濟數據等。

數據類型多:

數據又分為結構化數據、非結構化數據和半結構化數據。

結構化數據,是指可以用預先定義的數據模型表述,或者,可以存入關系型數據庫的數據。例如,一個班級所有人的年齡、一個超市所有商品的價格,這些都是結構化數據。


結構化數據

而網頁文章、郵件內容、圖像、音頻、視頻等,都屬于非結構化數據。

半結構化數據,介于結構化和非結構化數據之間。如XML、JSON等格式的數據,它們有一定的組織形式,但不如結構化數據那樣嚴格。

目前,非結構化數據的占比是最高的。例如,在互聯網領域里,非結構化數據的占比已經超過了80%。

數據之間關聯性強:

數據與數據之間,有一定的關聯性,而且頻繁交互。

例如,游客在旅游途中上傳的照片和日志,就與游客的位置、行程等信息有很強的關聯性。

No.3 :Velocity(速度快)

這個特性,指的是大數據的產生速度快、處理速度快、傳播速度快。從數據的生成到消耗,時間窗口非常小。

數據產生速度快,體現在生產生活中的方方面面。

我們還是用數字來說話:

就在剛剛過去的這一分鐘,數據世界里發生了什么?

Email:2000萬封被發出

Google:380萬次搜索請求被提交

Youtube:2100分鐘的視頻被上傳

Facebook:69.5萬條狀態被更新

12306:9000張車票被賣出

怎么樣?是不是瞬息萬變?

數據處理速度快,體現在大數據可以在實時分析和決策需求的推動下,通過實時處理、并行處理等方式,快速對所產生的數據進行處理。

這就要求大數據系統具備高并發、低延遲的能力。舉例來說,大數據所采用的流式處理技術,能夠在數據不斷產生的同時進行實時處理,確保系統能夠及時獲取并利用最新的信息。

數據傳播速度快,體現在大數據與以往的檔案、廣播、報紙等傳統數據載體不同。大數據的交換和傳播,是通過互聯網等方式實現的,遠比傳統媒介信息交換的傳播速度快。

No.4Veracity(真實性)

數據很多,但也要真實才行。

大數據的真實性,指的是數據的質量和可信度。

在大數據環境中,由于數據來源廣泛且多樣,就會導致容易出現錯誤、冗余和不一致的數據,進而影響到最終分析的準確性和可靠性。

確保大數據的真實性,需要采用數據清洗、元數據管理、數據治理等手段。


此外,隨著技術的發展,越來越多的技術工具和服務被開發出來,用于對大數據真實性的管理和優化。例如數據驗證工具、自動化的數據清理流程、先進的統計方法用于檢測異常值等。

No.5 :Value(價值密度)

大數據的數據量很大,但隨之帶來的,就是價值密度很低。數據中真正有價值的,只是其中的很少一部分。

例如通過監控視頻尋找犯罪分子的相貌,也許數十TB的視頻文件,真正有價值的,只有幾秒鐘。

例如,2014年美國波士頓爆炸案,現場調取了10TB的監控數據(包括移動基站的通訊記錄,附近商店、加油站、報攤的監控錄像以及志愿者提供的影像資料),最終找到了嫌疑犯的一張照片。這張照片的價值,毋庸置疑。


大數據中包含很多低價值的信息,而且,信息碎片化的情況嚴重。因此,需要通過深度分析和挖掘,才能發現有用的內容。

數據挖掘、機器學習和人工智能等技術,正在逐漸提升數據分析和挖掘的效率,幫助人們從低價值密度的數據中提取高價值的信息。

█ No.6 :Variability(變異性)

不要怕!這里的變異,并不是生化危機。

大數據的變異性,指的是數據在處理過程中可能發生變化的能力,也可以理解為數據的動態性、不確定性。

變異性包括幾個方面:

數據分布的不均勻性。

大數據集合可能包含來自不同來源、不同時間、不同地點的數據,這使得數據的分布呈現出不均勻性。不同的子集,可能具有不同的統計性質。在數據分析和建模時,需要考慮這個因素。

數據的動態性。

大數據往往是動態變化的,尤其是實時場景(例如股價)。變化速度,也從以前的秒級,變成了現在的毫秒級,甚至更短。這就要求大數據系統和技術必須能夠適應這個動態變化的特性。

數據質量的波動。

前面說了,大數據中可能包含大量的噪音、異常值和錯誤。這些負面因素,也可能隨時間變化,導致數據質量出現明顯波動。

環境因素的影響。

大數據的變異性,還可能受到環境因素的影響,如天氣、地理位置、社會事件等。對于一些特殊場景的大數據應用,需要考慮這些外部因素可能導致的變化。

█ No.7 :可視性(Visualization)

這個大家應該比較熟悉。我們現在在很多的政府部門和企業,都會看到數據大屏,其實也就是可視性的一種體現。


大數據的可視性,是指利用圖形化、圖像化的方式,對大數據進行呈現。這種方式,可以更直觀地展示數據的模式、趨勢和關系,快速把握數據的關鍵特征。

可視化,能夠幫助人們更好地理解和解釋復雜的數據集,提高對信息的洞察力,促使更明智的決策。

除了觀看之外,可視化也可以借助輔助工具,提供一些交互性功能。

例如, 用戶能夠自由選擇感興趣的數據子集、調整視圖參數,從而更靈活地進行數據探索。 這有助于用戶深入挖掘數據,找到其中的規律和異常。

最后的話

好啦,以上就是大數據的7V特性。

當然了,這些特性定義,除了前幾個以外,并沒有一個官方的認可。如果你愿意,也可以再想一個V,變成8V。

作為一種全新的思維方式和商業模式,大數據正在改變我們的工作和生活。 下一期,小棗君再和大家詳細聊聊,大數據到底有哪些應用場景,能發揮什么樣的作用和價值。

敬請關注!

—— The End ——

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
短評:別整天嚷嚷拋美債了!丟人!

短評:別整天嚷嚷拋美債了!丟人!

財經飛說不可
2025-04-14 18:18:09
風波再起?馬筱梅前夫發文回應被告細節 汪小菲一句話霸氣回懟謠言

風波再起?馬筱梅前夫發文回應被告細節 汪小菲一句話霸氣回懟謠言

小椰的奶奶
2025-04-28 00:06:22
“想不到他深情到這個地步”:一位丈夫絕筆信背后的愛與哀愁

“想不到他深情到這個地步”:一位丈夫絕筆信背后的愛與哀愁

南方都市報
2025-04-25 17:58:08
醫生出軌4人,致2人懷孕,目前已有身孕7個月,原配出身不簡單

醫生出軌4人,致2人懷孕,目前已有身孕7個月,原配出身不簡單

魔都姐姐雜談
2025-04-27 11:08:52
田華獲北影節終身成就獎,滿頭白發坐輪椅現身,陳佩斯跪地送獎杯

田華獲北影節終身成就獎,滿頭白發坐輪椅現身,陳佩斯跪地送獎杯

春序娛樂
2025-04-27 11:53:36
世界貿易組織:中國對美出口預計將下降77%!

世界貿易組織:中國對美出口預計將下降77%!

羅sir財話
2025-04-27 17:42:30
鎮遠市委書記下鄉,遭三名基層干部和兩名交警打罵,防暴隊出動

鎮遠市委書記下鄉,遭三名基層干部和兩名交警打罵,防暴隊出動

喬生桂
2024-02-09 22:43:06
美國突發!最高漲價377%!

美國突發!最高漲價377%!

中國基金報
2025-04-28 00:08:45
中國足球歸化新希望:這名巴西前鋒或成2030世界杯破局者

中國足球歸化新希望:這名巴西前鋒或成2030世界杯破局者

中山印象體育攝影師
2025-04-27 16:58:47
長城汽車首發4.0T V8發動機,踩碎列強車企最后的驕傲

長城汽車首發4.0T V8發動機,踩碎列強車企最后的驕傲

燃擎頻道
2025-04-25 14:03:33
被判10年的李天一,改名換姓出獄后,最惡心的一幕還是出現了

被判10年的李天一,改名換姓出獄后,最惡心的一幕還是出現了

小故事娛樂
2025-03-23 12:20:03
謝霆鋒第三場,倆兒子現身,孩他娘沒來,謝霆鋒場上喊媽,太逗了

謝霆鋒第三場,倆兒子現身,孩他娘沒來,謝霆鋒場上喊媽,太逗了

小娛樂悠悠
2025-04-27 09:06:00
新華社快訊:加拿大溫哥華有人駕車沖撞人群,造成多人死傷

新華社快訊:加拿大溫哥華有人駕車沖撞人群,造成多人死傷

新華社
2025-04-27 13:10:08
黃一鳴再曝關鍵證據!王思聰我的聊天記錄曝光,網友:這錘太實

黃一鳴再曝關鍵證據!王思聰我的聊天記錄曝光,網友:這錘太實

迪迪的娛樂故事
2025-04-26 08:08:30
前皇馬教練:C羅如果沒進球即使贏球也會失望,姆巴佩沒這種特質

前皇馬教練:C羅如果沒進球即使贏球也會失望,姆巴佩沒這種特質

直播吧
2025-04-27 22:30:16
人民法院無權凍結的20種賬戶(2025)

人民法院無權凍結的20種賬戶(2025)

微法官
2025-04-14 00:03:58
費內巴切主席:我們不會因外界雜音就換帥,穆里尼奧將會留任

費內巴切主席:我們不會因外界雜音就換帥,穆里尼奧將會留任

雷速體育
2025-04-27 23:14:04
送別!聞頻同志在西安逝世

送別!聞頻同志在西安逝世

91.6陜西交通廣播
2025-04-27 20:46:46
交通管制!堵堵堵!東莞交警發布最新提醒!

交通管制!堵堵堵!東莞交警發布最新提醒!

東莞紀實
2025-04-27 17:50:45
能原諒德甲嗎?漢堡遭遇3輪不勝,仍領先直接升級區3分

能原諒德甲嗎?漢堡遭遇3輪不勝,仍領先直接升級區3分

直播吧
2025-04-27 21:58:03
2025-04-28 02:12:49
鮮棗課堂 incentive-icons
鮮棗課堂
ICT知識科普。
850文章數 1247關注度
往期回顧 全部

科技要聞

充1秒跑2.5公里,寧德時代比亞迪華為激戰

頭條要聞

用馬斯克理念改造生產線 95后女生創業1年銷售額上億

頭條要聞

用馬斯克理念改造生產線 95后女生創業1年銷售額上億

體育要聞

我們來自北極圈,我們有全球最恐怖的主場!

娛樂要聞

華表獎獲獎名單!張譯二影帝惠英紅勇影后

財經要聞

2千億!核電開閘 國常會核準10臺新機組

汽車要聞

蔚來李斌的"十年磨一劍" 從看得見 到看不見

態度原創

本地
房產
教育
公開課
軍事航空

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

房產要聞

首開2小時熱銷超 200 套!天河芯紅盤憑什么交出樓市滿分答卷?

教育要聞

這類孩子一旦專注,一定一鳴驚人

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

哈馬斯同意釋放所有以方被扣押人員

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 渑池县| 镇沅| 安义县| 开鲁县| 宣威市| 金门县| 梧州市| 石家庄市| 荔浦县| 滦南县| 修水县| 汝南县| 清涧县| 岢岚县| 满城县| 泰和县| 阜宁县| 鹤岗市| 阜城县| 客服| 绥中县| 南丰县| 南陵县| 兴山县| 墨江| 化隆| 横山县| 天门市| 平武县| 甘孜县| 江山市| 明溪县| 泰来县| 乌兰县| 临夏市| 鄯善县| 汝南县| 榆社县| 英吉沙县| 郴州市| 开化县|