什么是數據?
簡單來說,數據是信息的一種載體。更嚴謹一點,我們也可以說,數據是客觀世界中被記錄、存儲的原始符號或信息。
在目前我們所處的時代,通常所說的數據,都是指計算機系統里的那些文本、圖片、音頻、視頻文件,那些二進制的0和1。
整個計算機系統,甚至整個數字世界,都是圍繞數據進行工作。CPU,計算數據。內存和硬盤,存儲數據。通信網絡,傳遞數據。
因此,在計算機科學中,數據被定義為:“所有能輸入計算機并被程序處理的符號的總稱”。
需要注意的是,數據本身是沒有意義的,是未經加工的“原材料”。經過處理和分析之后,數據才能轉化為有意義的信息。
也有人指出,信息是數據經過處理后的結果,是對數據的解釋和賦予意義的產物。這句話雖然有點抽象(燒腦),但準確地表達了數據和信息之間的關系。
█數據的特性
數據有很多特性。小棗君初步統計了一下,就有14個,分別是——
符號性:數據以符號形式存在,例如數字,以及剛才提到的文字、圖像、音頻、視頻等。
客觀性:數據反映了現實世界事物的屬性、狀態、關系等情況。它是客觀存在的,不隨主觀意志而改變。
量化性:數據通常以量化的形式存在,便于計數、測量和統計分析。
可比性:數據之間可以進行對比分析,通過比較可以揭示數據之間的關系和差異。
可傳遞性:數據可以通過各種方式進行傳輸,如電子文檔、紙質報告等,使得信息能夠在不同個體或組織間傳遞。
可存儲性:數據可以被存儲在數據庫、文件系統或其他存儲介質中,以便于未來的訪問和使用。
可處理性:數據可以通過計算、分析、加工等手段進行處理,以提取有用信息或轉化為知識。
多維度:數據可以從多個角度進行觀察和分析,如時間、空間、類別等多個維度。
多樣性:數據有多種多樣的類別和形式,能夠滿足不同領域和需求。
時效性:數據可能隨時間的推移而發生變化,某些數據在特定時間點之后可能失去價值或準確性。
可靠性:數據應該是可靠的,即數據的來源、收集方法和處理過程應該是可信的,以保證數據的準確性。
相關性:數據之間存在相關性,某些數據的變化可能會影響其他數據的表現。
可解釋性:數據應該能夠被解釋和理解,其背后的意義和代表的現實世界情況應該清晰。
限制性:數據可能受到隱私、法律、倫理等因素的限制,使用數據時需要遵守相關規范。
以上這么多的特性,在現實情況中,并不能都滿足。
例如,在追求數據時效性的同時,可能需要犧牲部分可存儲性。因為實時數據的收集和處理,需要更高的空間和成本。
同樣,為了提高數據的可靠性,可能需要投入更多的資源進行數據驗證和清洗,這可能會增加數據處理的復雜性和時間成本。
總之,能夠盡可能地滿足更多特性的數據,就會被認為是高質量的數據。數據的價值,也就更大。在實際應用中,我們需要根據具體場景和需求,權衡數據的各個特性,加以利用。
█數據的分類方式
剛才在說數據特性的時候,提到數據有多樣性的特點,也就是有多種形式和類別。
對數據有很多種分類方式。例如,現在最常用的,就是按結構進行分類,包括結構化數據、半結構化數據和非結構化數據。
結構化數據,是指可以用預先定義的數據模型表述,或者,可以存入關系型數據庫的數據。例如,一個班級所有人的年齡、一個超市所有商品的價格,這些都是結構化數據。
結構化數據
非結構化數據,指網頁文章、郵件內容、圖像、音頻、視頻等。
半結構化數據,介于結構化和非結構化數據之間。如XML、JSON等格式的數據,它們有一定的組織形式,但不如結構化數據那樣嚴格。
目前,非結構化數據的占比是最高的。例如,在互聯網領域里,非結構化數據的占比已經超過了80%。
根據數據的來源,也可以分類。
例如,企業所產生的營銷數據、業務系統數據、生產數據等,互聯網行業所產生的社交內容數據、訂單數據、用戶數據等,政府部門所產生的社會治理數據、地理數據、經濟數據,等等。
根據數據的性質,還可以分為定位數據(描述空間位置,如坐標)、定性數據(描述事物屬性,如“陰雨天氣”)、定量數據(反映數量特征,如長度、重量)、定時數據(記錄時間特征,如日期、時刻)等。
總之,每種分類方式都有其特定的應用場景和價值。
了解數據的分類,有助于我們更好地理解數據的本質,以及如何在不同場景下有效地管理和利用數據。
█數據的度量方式
前面我們也提到,數據具有量化性的特點。也就是說,數據是可以度量的。
我們通常度量數據的單位,大家應該比較熟悉,就是KB、MB、GB、TB等。
我們傳統PC和手機處理的數據,是GB/TB級別。例如,我們的硬盤,現在通常是1TB/2TB/4TB的容量。
在TB之上,還有PB、EB、ZB等。
TB、GB、MB、KB的關系,如下:
1 KB = 1024 B (KB - kilobyte)
1 MB = 1024 KB (MB - megabyte)
1 GB = 1024 MB (GB - gigabyte)
1 TB = 1024 GB (TB - terabyte)
1 PB = 1024 TB (PB - petabyte)
1 EB = 1024 PB (EB - exabyte)
1 ZB = 1024 EB (ZB - zettabyte)
只是看這幾個字母的話,貌似不是很直觀。我來舉個例子吧。
1TB,只需要一塊硬盤可以存儲。容量大約是20萬張照片或20萬首MP3音樂,或者是20萬部電子書。
1PB,需要大約2個機柜的存儲設備。容量大約是2億張照片或2億首MP3音樂。如果一個人不停地聽這些音樂,可以聽差不多兩千年。
1EB,需要大約2000個機柜的存儲設備。如果并排放這些機柜,可以連綿1.2公里那么長。如果擺放在機房里,需要21個標準籃球場那么大的機房,才能放得下。
阿里、百度、騰訊這樣的互聯網巨頭,數據量據說已經接近EB級。目前全人類的數據量,是ZB級。
數據中心
根據IDC的數據,在2020年,全球創建、捕獲、復制和消耗的數據總量約為64ZB。而到了2025年,全球數據總量可能會達到驚人的163ZB。如果建一個機房來存儲這些數據,那么,這個機房的面積將比196個鳥巢體育場還大。
█數據的產生階段
人類社會的數據體量不僅大,增長速度也很快——每年增長50%。也就是說,每兩年就會增長一倍多。
為什么會如此之快?
說到這里,就要回顧一下人類社會數據產生的三個重要階段。
第一個階段,是1940-1990年。
計算機和數據庫被發明之后,數據管理的復雜度大大降低。各行各業開始產生了計算機數據,并記錄在數據庫中。這時的數據,以結構化數據為主(待會解釋什么是結構化數據)。數據的產生方式,是被動的。
第二個階段,是1990-2010年。
伴隨著互聯網的爆發,網絡內容開始迅速增長,增加了很多的專業輸出內容(PGC)。Web2.0出現后,人們開始使用博客、facebook、youtube這樣的社交網絡,輸出大量的用戶原創內容(UGC),從而主動產生了大量的數據。移動智能終端時代的到來,也加速了該階段數據的產生。
第三個階段,是2010年至今。
隨著物聯網的發展,各種各樣的感知層節點(例如遍布各個角落的傳感器、攝像頭)開始自動產生大量的數據。企業的數字化轉型,構建了大量的系統,沉淀和管理這些數據。人類的數據總量,再次躍升。
經過了“被動-主動-自動”這三個階段的發展,最終導致了人類數據總量的爆炸式膨脹。
值得一提的是,如今,隨著我們逐漸進入AI智能時代,很可能會迎來第四次數據暴增階段。以AIGC為代表的智能機器生產內容,正在急劇增加。
█數據的作用和意義
數據是信息的載體。它的最基礎作用,就是記錄和表征。
例如,考勤數據,記錄了員工每天的上下班時間、請假、遲到、早退等信息。這些數據不僅幫助我們了解員工的出勤情況,還能進一步分析員工的工作效率、團隊協作以及可能存在的管理問題。
再例如,體檢數據,記錄了我們的身高、體重、血壓、血糖等各項生理指標。這些數據不僅有助于我們了解自身的健康狀況,還能及時發現潛在的健康問題,為預防和治療疾病提供重要依據。
除了個人工作和生活領域之外,在科學、商業和公共管理領域,都有對應的系統和數據。這個數據的體量更大,甚至達到了大數據的級別。
通過深入挖掘和分析海量的數據,企業和政府部門可以找到隱藏在數據背后的規律和趨勢,為未來的發展和決策提供有力的支持。
在科學領域,實驗數據、觀測數據、模擬數據等構成了科學研究的基礎。這些數據不僅幫助科學家驗證理論、發現新現象,還能推動科學技術的進步和創新。
例如,天文學中的天文觀測數據,記錄了星系的運動、恒星的誕生和消亡等宇宙現象,這些數據為理解宇宙的起源和演化提供了重要線索。
在商業領域,銷售數據、客戶數據、市場數據等是企業運營和決策的重要依據。通過分析這些數據,企業可以了解市場需求、優化產品設計、提升客戶滿意度,從而制定更為精準的市場策略和商業計劃。
例如,電商平臺通過分析用戶的購買歷史和瀏覽行為,可以為用戶推薦更為符合其需求的商品,提升用戶的購物體驗和平臺的銷售額。
在公共管理領域,政府數據、公共服務數據、社會調查數據等是政策制定和實施的基礎。這些數據不僅幫助政府了解社會現狀、預測發展趨勢,還能為政策評估和優化提供依據。
例如,通過分析交通流量數據,政府可以合理規劃交通路線、優化公共交通服務,從而緩解城市交通擁堵問題。
█最后的話
總而言之,數據在目前這個時代,已經變成了重要的無形資產,也被稱為“新石油”。
從個人生活到全球治理,數據都扮演著不可或缺的角色,已成為驅動效率提升、科學發現和社會進步的核心資源。
最近幾年愈演愈烈的AI浪潮,進一步推動了數據的價值提升。人工智能的三要素,其中一項,就是數據(另外兩個是算力和算法)。數據作為AI的“燃料”,其質量和數量直接決定了AI系統的性能和準確性。
未來,隨著數據規模的指數級增長和技術的持續突破,數據的價值將進一步釋放。
好啦,以上就是關于數據的基本常識。大家都搞明白了嘛?
想要了解更多關于數據的知識,可以看這里:
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.