99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

【小白掃盲】到底什么是數據(data)?

0
分享至

什么是數據?

簡單來說,數據是信息的一種載體。更嚴謹一點,我們也可以說,數據是客觀世界中被記錄、存儲的原始符號或信息。

在目前我們所處的時代,通常所說的數據,都是指計算機系統里的那些文本、圖片、音頻、視頻文件,那些二進制的0和1。


整個計算機系統,甚至整個數字世界,都是圍繞數據進行工作。CPU,計算數據。內存和硬盤,存儲數據。通信網絡,傳遞數據。

因此,在計算機科學中,數據被定義為:“所有能輸入計算機并被程序處理的符號的總稱”。

需要注意的是,數據本身是沒有意義的,是未經加工的“原材料”。經過處理和分析之后,數據才能轉化為有意義的信息。

也有人指出,信息是數據經過處理后的結果,是對數據的解釋和賦予意義的產物。這句話雖然有點抽象(燒腦),但準確地表達了數據和信息之間的關系。

數據的特性

數據有很多特性。小棗君初步統計了一下,就有14個,分別是——

符號性:數據以符號形式存在,例如數字,以及剛才提到的文字、圖像、音頻、視頻等。

客觀性:數據反映了現實世界事物的屬性、狀態、關系等情況。它是客觀存在的,不隨主觀意志而改變。

量化性:數據通常以量化的形式存在,便于計數、測量和統計分析。

可比性:數據之間可以進行對比分析,通過比較可以揭示數據之間的關系和差異。

可傳遞性:數據可以通過各種方式進行傳輸,如電子文檔、紙質報告等,使得信息能夠在不同個體或組織間傳遞。

可存儲性:數據可以被存儲在數據庫、文件系統或其他存儲介質中,以便于未來的訪問和使用。

可處理性:數據可以通過計算、分析、加工等手段進行處理,以提取有用信息或轉化為知識。

多維度:數據可以從多個角度進行觀察和分析,如時間、空間、類別等多個維度。

多樣性:數據有多種多樣的類別和形式,能夠滿足不同領域和需求。

時效性:數據可能隨時間的推移而發生變化,某些數據在特定時間點之后可能失去價值或準確性。

可靠性:數據應該是可靠的,即數據的來源、收集方法和處理過程應該是可信的,以保證數據的準確性。

相關性:數據之間存在相關性,某些數據的變化可能會影響其他數據的表現。

可解釋性:數據應該能夠被解釋和理解,其背后的意義和代表的現實世界情況應該清晰。

限制性:數據可能受到隱私、法律、倫理等因素的限制,使用數據時需要遵守相關規范。


以上這么多的特性,在現實情況中,并不能都滿足。

例如,在追求數據時效性的同時,可能需要犧牲部分可存儲性。因為實時數據的收集和處理,需要更高的空間和成本。

同樣,為了提高數據的可靠性,可能需要投入更多的資源進行數據驗證和清洗,這可能會增加數據處理的復雜性和時間成本。

總之,能夠盡可能地滿足更多特性的數據,就會被認為是高質量的數據。數據的價值,也就更大。在實際應用中,我們需要根據具體場景和需求,權衡數據的各個特性,加以利用。

數據的分類方式

剛才在說數據特性的時候,提到數據有多樣性的特點,也就是有多種形式和類別。

對數據有很多種分類方式。例如,現在最常用的,就是按結構進行分類,包括結構化數據、半結構化數據和非結構化數據。

結構化數據,是指可以用預先定義的數據模型表述,或者,可以存入關系型數據庫的數據。例如,一個班級所有人的年齡、一個超市所有商品的價格,這些都是結構化數據。

結構化數據

非結構化數據,指網頁文章、郵件內容、圖像、音頻、視頻等。

半結構化數據,介于結構化和非結構化數據之間。如XML、JSON等格式的數據,它們有一定的組織形式,但不如結構化數據那樣嚴格。

目前,非結構化數據的占比是最高的。例如,在互聯網領域里,非結構化數據的占比已經超過了80%。

根據數據的來源,也可以分類。

例如,企業所產生的營銷數據、業務系統數據、生產數據等,互聯網行業所產生的社交內容數據、訂單數據、用戶數據等,政府部門所產生的社會治理數據、地理數據、經濟數據,等等。


根據數據的性質,還可以分為定位數據(描述空間位置,如坐標)、定性數據(描述事物屬性,如“陰雨天氣”)、定量數據(反映數量特征,如長度、重量)、定時數據(記錄時間特征,如日期、時刻)等。

總之,每種分類方式都有其特定的應用場景和價值。

了解數據的分類,有助于我們更好地理解數據的本質,以及如何在不同場景下有效地管理和利用數據。

數據的度量方式

前面我們也提到,數據具有量化性的特點。也就是說,數據是可以度量的。

我們通常度量數據的單位,大家應該比較熟悉,就是KB、MB、GB、TB等。

我們傳統PC和手機處理的數據,是GB/TB級別。例如,我們的硬盤,現在通常是1TB/2TB/4TB的容量。

在TB之上,還有PB、EB、ZB等。

TB、GB、MB、KB的關系,如下:

1 KB = 1024 B (KB - kilobyte)

1 MB = 1024 KB (MB - megabyte)

1 GB = 1024 MB (GB - gigabyte)

1 TB = 1024 GB (TB - terabyte)

1 PB = 1024 TB (PB - petabyte)

1 EB = 1024 PB (EB - exabyte)

1 ZB = 1024 EB (ZB - zettabyte)

只是看這幾個字母的話,貌似不是很直觀。我來舉個例子吧。

1TB,只需要一塊硬盤可以存儲。容量大約是20萬張照片或20萬首MP3音樂,或者是20萬部電子書。


1PB,需要大約2個機柜的存儲設備。容量大約是2億張照片或2億首MP3音樂。如果一個人不停地聽這些音樂,可以聽差不多兩千年。

1EB,需要大約2000個機柜的存儲設備。如果并排放這些機柜,可以連綿1.2公里那么長。如果擺放在機房里,需要21個標準籃球場那么大的機房,才能放得下。

阿里、百度、騰訊這樣的互聯網巨頭,數據量據說已經接近EB級。目前全人類的數據量,是ZB級。


數據中心

根據IDC的數據,在2020年,全球創建、捕獲、復制和消耗的數據總量約為64ZB。而到了2025年,全球數據總量可能會達到驚人的163ZB。如果建一個機房來存儲這些數據,那么,這個機房的面積將比196個鳥巢體育場還大。

數據的產生階段

人類社會的數據體量不僅大,增長速度也很快——每年增長50%。也就是說,每兩年就會增長一倍多。

為什么會如此之快?

說到這里,就要回顧一下人類社會數據產生的三個重要階段。

第一個階段,是1940-1990年。

計算機和數據庫被發明之后,數據管理的復雜度大大降低。各行各業開始產生了計算機數據,并記錄在數據庫中。這時的數據,以結構化數據為主(待會解釋什么是結構化數據)。數據的產生方式,是被動的。

第二個階段,是1990-2010年。

伴隨著互聯網的爆發,網絡內容開始迅速增長,增加了很多的專業輸出內容(PGC)。Web2.0出現后,人們開始使用博客、facebook、youtube這樣的社交網絡,輸出大量的用戶原創內容(UGC),從而主動產生了大量的數據。移動智能終端時代的到來,也加速了該階段數據的產生。

第三個階段,是2010年至今。

隨著物聯網的發展,各種各樣的感知層節點(例如遍布各個角落的傳感器、攝像頭)開始自動產生大量的數據。企業的數字化轉型,構建了大量的系統,沉淀和管理這些數據。人類的數據總量,再次躍升。


經過了“被動-主動-自動”這三個階段的發展,最終導致了人類數據總量的爆炸式膨脹。

值得一提的是,如今,隨著我們逐漸進入AI智能時代,很可能會迎來第四次數據暴增階段。以AIGC為代表的智能機器生產內容,正在急劇增加。

數據的作用和意義

數據是信息的載體。它的最基礎作用,就是記錄和表征。

例如,考勤數據,記錄了員工每天的上下班時間、請假、遲到、早退等信息。這些數據不僅幫助我們了解員工的出勤情況,還能進一步分析員工的工作效率、團隊協作以及可能存在的管理問題。

再例如,體檢數據,記錄了我們的身高、體重、血壓、血糖等各項生理指標。這些數據不僅有助于我們了解自身的健康狀況,還能及時發現潛在的健康問題,為預防和治療疾病提供重要依據。


除了個人工作和生活領域之外,在科學、商業和公共管理領域,都有對應的系統和數據。這個數據的體量更大,甚至達到了大數據的級別。

通過深入挖掘和分析海量的數據,企業和政府部門可以找到隱藏在數據背后的規律和趨勢,為未來的發展和決策提供有力的支持。


科學領域,實驗數據、觀測數據、模擬數據等構成了科學研究的基礎。這些數據不僅幫助科學家驗證理論、發現新現象,還能推動科學技術的進步和創新。

例如,天文學中的天文觀測數據,記錄了星系的運動、恒星的誕生和消亡等宇宙現象,這些數據為理解宇宙的起源和演化提供了重要線索。


商業領域,銷售數據、客戶數據、市場數據等是企業運營和決策的重要依據。通過分析這些數據,企業可以了解市場需求、優化產品設計、提升客戶滿意度,從而制定更為精準的市場策略和商業計劃。

例如,電商平臺通過分析用戶的購買歷史和瀏覽行為,可以為用戶推薦更為符合其需求的商品,提升用戶的購物體驗和平臺的銷售額。


公共管理領域,政府數據、公共服務數據、社會調查數據等是政策制定和實施的基礎。這些數據不僅幫助政府了解社會現狀、預測發展趨勢,還能為政策評估和優化提供依據。

例如,通過分析交通流量數據,政府可以合理規劃交通路線、優化公共交通服務,從而緩解城市交通擁堵問題。


最后的話

總而言之,數據在目前這個時代,已經變成了重要的無形資產,也被稱為“新石油”。

從個人生活到全球治理,數據都扮演著不可或缺的角色,已成為驅動效率提升、科學發現和社會進步的核心資源。

最近幾年愈演愈烈的AI浪潮,進一步推動了數據的價值提升。人工智能的三要素,其中一項,就是數據(另外兩個是算力和算法)。數據作為AI的“燃料”,其質量和數量直接決定了AI系統的性能和準確性。

未來,隨著數據規模的指數級增長和技術的持續突破,數據的價值將進一步釋放。

好啦,以上就是關于數據的基本常識。大家都搞明白了嘛?

想要了解更多關于數據的知識,可以看這里:

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
短評:別整天嚷嚷拋美債了!丟人!

短評:別整天嚷嚷拋美債了!丟人!

財經飛說不可
2025-04-14 18:18:09
風波再起?馬筱梅前夫發文回應被告細節 汪小菲一句話霸氣回懟謠言

風波再起?馬筱梅前夫發文回應被告細節 汪小菲一句話霸氣回懟謠言

小椰的奶奶
2025-04-28 00:06:22
“想不到他深情到這個地步”:一位丈夫絕筆信背后的愛與哀愁

“想不到他深情到這個地步”:一位丈夫絕筆信背后的愛與哀愁

南方都市報
2025-04-25 17:58:08
醫生出軌4人,致2人懷孕,目前已有身孕7個月,原配出身不簡單

醫生出軌4人,致2人懷孕,目前已有身孕7個月,原配出身不簡單

魔都姐姐雜談
2025-04-27 11:08:52
田華獲北影節終身成就獎,滿頭白發坐輪椅現身,陳佩斯跪地送獎杯

田華獲北影節終身成就獎,滿頭白發坐輪椅現身,陳佩斯跪地送獎杯

春序娛樂
2025-04-27 11:53:36
世界貿易組織:中國對美出口預計將下降77%!

世界貿易組織:中國對美出口預計將下降77%!

羅sir財話
2025-04-27 17:42:30
鎮遠市委書記下鄉,遭三名基層干部和兩名交警打罵,防暴隊出動

鎮遠市委書記下鄉,遭三名基層干部和兩名交警打罵,防暴隊出動

喬生桂
2024-02-09 22:43:06
美國突發!最高漲價377%!

美國突發!最高漲價377%!

中國基金報
2025-04-28 00:08:45
中國足球歸化新希望:這名巴西前鋒或成2030世界杯破局者

中國足球歸化新希望:這名巴西前鋒或成2030世界杯破局者

中山印象體育攝影師
2025-04-27 16:58:47
長城汽車首發4.0T V8發動機,踩碎列強車企最后的驕傲

長城汽車首發4.0T V8發動機,踩碎列強車企最后的驕傲

燃擎頻道
2025-04-25 14:03:33
被判10年的李天一,改名換姓出獄后,最惡心的一幕還是出現了

被判10年的李天一,改名換姓出獄后,最惡心的一幕還是出現了

小故事娛樂
2025-03-23 12:20:03
謝霆鋒第三場,倆兒子現身,孩他娘沒來,謝霆鋒場上喊媽,太逗了

謝霆鋒第三場,倆兒子現身,孩他娘沒來,謝霆鋒場上喊媽,太逗了

小娛樂悠悠
2025-04-27 09:06:00
新華社快訊:加拿大溫哥華有人駕車沖撞人群,造成多人死傷

新華社快訊:加拿大溫哥華有人駕車沖撞人群,造成多人死傷

新華社
2025-04-27 13:10:08
黃一鳴再曝關鍵證據!王思聰我的聊天記錄曝光,網友:這錘太實

黃一鳴再曝關鍵證據!王思聰我的聊天記錄曝光,網友:這錘太實

迪迪的娛樂故事
2025-04-26 08:08:30
前皇馬教練:C羅如果沒進球即使贏球也會失望,姆巴佩沒這種特質

前皇馬教練:C羅如果沒進球即使贏球也會失望,姆巴佩沒這種特質

直播吧
2025-04-27 22:30:16
人民法院無權凍結的20種賬戶(2025)

人民法院無權凍結的20種賬戶(2025)

微法官
2025-04-14 00:03:58
費內巴切主席:我們不會因外界雜音就換帥,穆里尼奧將會留任

費內巴切主席:我們不會因外界雜音就換帥,穆里尼奧將會留任

雷速體育
2025-04-27 23:14:04
送別!聞頻同志在西安逝世

送別!聞頻同志在西安逝世

91.6陜西交通廣播
2025-04-27 20:46:46
交通管制!堵堵堵!東莞交警發布最新提醒!

交通管制!堵堵堵!東莞交警發布最新提醒!

東莞紀實
2025-04-27 17:50:45
能原諒德甲嗎?漢堡遭遇3輪不勝,仍領先直接升級區3分

能原諒德甲嗎?漢堡遭遇3輪不勝,仍領先直接升級區3分

直播吧
2025-04-27 21:58:03
2025-04-28 02:12:49
鮮棗課堂 incentive-icons
鮮棗課堂
ICT知識科普。
850文章數 1247關注度
往期回顧 全部

科技要聞

充1秒跑2.5公里,寧德時代比亞迪華為激戰

頭條要聞

用馬斯克理念改造生產線 95后女生創業1年銷售額上億

頭條要聞

用馬斯克理念改造生產線 95后女生創業1年銷售額上億

體育要聞

我們來自北極圈,我們有全球最恐怖的主場!

娛樂要聞

華表獎獲獎名單!張譯二影帝惠英紅勇影后

財經要聞

2千億!核電開閘 國常會核準10臺新機組

汽車要聞

蔚來李斌的"十年磨一劍" 從看得見 到看不見

態度原創

藝術
健康
手機
旅游
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

唇皰疹和口腔潰瘍是"同伙"嗎?

手機要聞

華為 Mate XT 非凡大師推送 HarmonyOS 5 花粉 Beta 版

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 隆德县| 兴宁市| 白朗县| 兴国县| 田林县| 合江县| 萍乡市| 长泰县| 黄浦区| 响水县| 余姚市| 广丰县| 信阳市| 高唐县| 三穗县| 施甸县| 葫芦岛市| 扎兰屯市| 佛山市| 嵊州市| 盱眙县| 灵石县| 玉树县| 武汉市| 宁乡县| 名山县| 无棣县| 巍山| 临颍县| 喀什市| 集贤县| 上栗县| 苏尼特左旗| 福泉市| 砀山县| 印江| 延寿县| 遂川县| 罗平县| 闸北区| 高要市|