您聽說過大數據,對吧?我們可能都會回答“是”,大數據是我自認為已經理解的眾多主題之一,但直到我嘗試對它進行解釋時,才認識到我需要深入了解它。如果您像我一樣,那么這篇博客非常適合您。
問題:任何技術只在解決了一個(或多個)問題時才有用。那么大數據能解決哪些問題?
眾所周知,數據無處不在,而且數量眾多:不但有歷史數據,還有社交媒體應用生成的新數據,來自 Web 應用的單擊流數據,IoT 傳感器數據,等等。數據量比以往任何時候都要多,生成數據的速度也變得越來越快,而且數據格式也是多種多樣。
數據的業務價值在于我們能從數據中獲得的含義。從所有這些數據中獲取業務價值是一個重大問題。為什么?聽我細細道來。
數據量:
人們的聯系比以往更加緊密,這種相互聯系催生出越來越多的數據源,導致了比以往更大(且不斷增長)的數據量。數據量的增加要求計算能力也跟著不斷增加,這樣我們才能從數據中獲取價值(含義)。傳統計算方法無法處理目前積累的數據量!
數據速度:
由于互聯化和網絡技術進步,數據傳入企業的速度和方向不斷增加,所以數據傳入速度超出了我們能理解它的速度[2]。數據傳入速度越快,數據來源種類越多,我們就越難從數據中獲取價值(含義)。傳統計算方法無法應對以如今的速度傳入的數據!
數據種類:
更多數據來源意味著不同格式的數據種類更多:從傳統文檔和數據庫,到來自單擊流、GPS 位置數據、社交媒體應用和 IoT 的半結構化和非結構化數據。不同的數據格式意味著從數據中獲取價值(含義)變得更難,因為所有數據都必須以不同的方式來提取處理。傳統計算方法無法處理所有這些不同種類的數據!
大數據不是什么像文檔和數據庫這樣的傳統數據。誠然,全球有無數的文檔和數據庫,盡管這些來源對大數據有所貢獻,但它們本身不是大數據。如今收集的數據種類在不斷變化,這推動著大數據的發展。有些數據是結構化數據,比如傳統文檔和數據庫,但大部分數據是半結構化或非結構化數據。它們僅僅是“大量數據”的同義詞大數據遠不僅僅是“大量數據”。大量數據推動著大數據的發展,但單純地將數據量與術語“大數據”關聯起來是錯誤的。大數據的重點不在于數據
大數據的重點不在于數據[1],就像哲學的重點不在于措辭。大數據的重點在于能從數據中提取的價值,或者數據中包含的含義。不是一種技術-而是一個完整的技術生態系統。大數據是一種方式,它從多個不同數據源獲取原始數據,存儲數據以供分析程序使用,并使用原始數據通過全新方式從數據中獲取價值(含義)。我們所討論的是來自 CRM 和 Web 應用等傳統業務應用的數據,與來自越來越多的傳感器 (IoT) 以及 Facebook、Twitter 和 LinkedIn 等社交媒體的數據的組合。這意味著大數據不是某種單獨的技術,而是一個由數據的獲取、存儲和應用技術所組成的緊密協調的生態系統,這樣大數據才能發揮作用。一種趨勢
大數據是為了應對如今的應用程序生成的各類海量數據而自然演進出現的方法。當今企業所接收數據的數量、速度和種類意味著,能夠解決這些問題只能是一致并能持續演進的解決方案。換句話說,它是我們使用軟件和創建數據來推動大數據發展的方式。除非我們改變使用軟件(比如應用)、平臺(比如社交媒體)和核心基礎架構技術(比如互聯網)的方式,否則大數據就會存在。舉例說明:放棄 Snapchat?LinkedIn?Facebook?Twitter?不可能。
解決方案:
在我看來,大數據實際上有些用詞不當。正如我前面提到的,大數據的重點不在于數據,就像哲學的重點不在于措辭。大數據的重點在于從數據中獲取的含義。或許我們應將大數據稱為“大含義”(老實說,這不容易記住,但對我而言更容易理解)。大數據如何解決數據量、速度和種類的問題?
數據量:
首先,數據需要存儲在某處,因為沒有地方來存儲數據,就無法對數據進行分析。幸運的是,存儲比以往更經濟、更可靠,并且得益于云,也更容易獲得。
速度:
我們首先需要應對數據傳入的速度,24 x 7 x 365 全天候運行的自動化、智能系統有助于從數據中獲取模式(含義),這是通過手動分析無法檢測到的。機器學習技術的進步有助于解決速度問題。例如,可以訓練人工神經網絡來檢測模式,應用該知識來進行預測,甚至可以動態適應不斷變化的數據。
種類:
然后是數據傳入的方向(來源)的種類。僅在我們能看到已經發生的事件(歷史數據),并使用它們預測有用或有趣的未來趨勢時,數據中的模式才有益。但是,隨著數據源種類的不斷增加,理解數據的含義的復雜性也在不斷增加。人類無法應對這種負荷,這時就需要使用深度學習等技術。深度學習網絡能確定如何理解數據的各種輸入格式,將它們注入其他網絡來理解數據的含義。
結束語:
術語“大數據”實際上是指“從數據中獲取含義”,而“大”體現在數據比以往傳入更快、來源更多、格式更多樣化。我們或許應該稱之為“大含義”。因為大數據的真正重點是數據中的價值(含義)[3],而不是數據本身。大數據不是一項技術,而是一個生態系統,其中相互協調的技巧和技術能從當今世界產生的海量數據中獲取業務價值。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.