在大部分科技領域里,基本都是美國引領,中國跟隨。在數字化、智能化領域,這個規律也適用。
但在數據領域,有一件事情,如果中國做成了,那將走出一條不同于歐美的路。這件事情,就是數據要素化改革。
在AI發展的敘事中,幾乎所有焦點都曾集中在技術演進的前臺:模型有多大?參數有多少?推理速度多快?誰率先實現了千億級參數、萬億級語料、類人對話?
但今天,我們已來到一個新的臨界點:所有領先的大模型都已經“能說會寫”,卻在“深度認知”上開始撞墻。
為什么?問題并不出在算法本身,而在算法背后“認知能力的供給體系”——即:數據從哪里來?是否可信?能否被持續調度和泛化利用?
這不僅僅是一個技術工程問題,還是一個制度設計問題。
模型的智能邊界,已不再只由參數量決定。
隨著模型訓練的邊際收益遞減,AI能力的差異,正在從“模型結構”轉向“數據治理”——誰擁有可控、可信、可協同的數據生態,誰就能訓練出更穩健、更具場景理解力、更少幻覺的大模型。
但我們也越來越清晰地看到一個全球性難題:公共語料已被挖掘殆盡,私域數據則深鎖于孤島,數據的流通和使用,正被制度壁壘深度卡脖子。
在這個背景下,決定大模型未來性能上限的,不再只是GPU數量,也不只是Prompt優化技巧,還是——一個國家或組織是否具備系統性的“數據制度能力”。
某種程度上,“數據制度紅利”,成為全球AI競爭的新變量。這是AI發展史上的一次范式躍遷:從“誰能訓練更強模型”,走向“誰能構建更優的數據制度”。
而這場競逐中,一個極具戰略性的變量正在浮出水面:中國的數據要素化改革。
這項改革,曾被視為產業數字化的一部分,或是數據資產定價、數據交易的國內探索。但今天,它的意義遠超于此——它正在提供一個完全不同于西方的數據治理路徑、主權框架與協同模式,成為全球AI生態中被低估、卻最具制度穿透力的變量之一。
接下來,我們將從全球視角出發,透視大模型所面臨的數據資源瓶頸,解析中國“數據要素化”背后的制度邏輯,并探討其在全球智能體系中可能帶來的規則重塑與價值重構。
全球大模型走到“數據主權”的十字路口
大模型的發展,正在逼近其“語料臨界點”。
從GPT-3到GPT-4,再到各類開源模型的百花齊放,背后支撐的,是過去二十年間互聯網所積累下來的海量公開語料。但今天,高質量的公開文本資源幾乎已經被用盡。據OpenAI、Anthropic等多方研究預測,全球范圍內適合用于訓練的“公開語料紅利”將在2到3年內完全枯竭。
這意味著,大模型的“喂養邊界”已觸手可及。
下一步競爭,不是拼語料總量,而是拼“誰能合法使用私域數據”。
當開放數據資源即將見頂,模型要繼續提升認知能力,就必須深入到更多結構化與非結構化的“私域數據”中:
行業數據(醫療記錄、制造日志、金融交易、客服語音)
企業數據(用戶行為、設備狀態、內部知識庫)
跨境數據(供應鏈履約記錄、IoT互聯數據、國際業務流)
這些數據極具價值,卻高度敏感、結構復雜、邊界模糊,不是“爬取”就能合法使用的。
大模型時代的智能鴻溝,不再取決于誰“爬得快”,而是取決于誰“調得動”——誰能構建可信的數據使用規則,誰就能訓練出真正具備場景能力與業務洞察力的模型。
然而,全球數據治理,正陷入三大結構性瓶頸:
1. 權屬不清:誰擁有數據使用權?用戶?平臺?采集者?服務提供商?
面對龐大的數據資產,各國尚未形成統一確權機制,法律界定模糊,模型調用“處處踩雷”。
2. 價值難衡:數據作為商品缺乏定價模型,作為要素缺乏收益分配機制
用戶愿意授權模型使用數據嗎?企業愿意開放數據協作嗎?沒有可預期的“激勵結構”,數據不會自發流動。
3. 治理割裂:每個國家、每個行業都有自己的監管口徑,難以協同
歐盟GDPR強調數據主權,美國強調數據自由流動,亞洲國家政策多元,跨境模型的訓練與調用陷入灰區地帶。
算法越來越強,數據卻“關在門里”,這是一幅矛盾圖景:模型能寫詩、能畫畫、能規劃財報,卻因為缺乏合法數據支撐,頻繁出現幻覺、偏見、事實錯誤;
這不是模型的錯,而是數據的世界正在變得碎片化、封閉化、治理化。某種程度上,可以說“AI的下一個難題,不是生成什么,而是‘如何合法地知道’。”
因此,全球大模型的發展,正在從“技術突圍”進入到“制度突圍”的新階段。接下來,我們將聚焦中國數據要素化改革路徑,深入分析它如何在這一全球博弈格局中,提供出一套具有制度原創性與實踐落地性的答案。
“數據要素化”不是經濟術語
而是制度體系設計
過去幾年,“數據要素”這個詞頻繁出現在政策文件、研究報告和市場展望中,似乎成了數字經濟的關鍵詞匯之一。但真正理解它的深意,必須先跳出“資產化”與“定價權”的窄視角。
數據要素化的真正意義,不是“把數據賣掉”,而是“為智能社會構建一套可確權、可流通、可協同的數據制度體系”。
這不是產業層的改革,而是一次制度性架構重塑。
“數據要素化”,本質是重建信任機制與協作規則。
在大模型時代,數據不再是被動存儲的資產,而是構成“認知引擎”的能量源。它的流通、調用、聚合、壓縮、泛化,決定了模型的智能邊界。
但沒有制度保障的數據流動,是不可持續的。只有構建一套“可以使用、可以追責、可以再組織”的體系,數據才可能以可信方式融入智能系統。
這正是中國“數據要素化”改革的核心使命。
它不是簡單地給數據“貼個價格”,而是通過制度性安排,將數據從資源狀態,轉變為可組織、可授權、可治理的智能系統第一性要素。
目前,三個關鍵制度躍遷,正在中國落地:
1. 從“資源所有”到“使用權確權”
傳統數據治理強調采集者/持有者的所有權,而要素化邏輯關注的是:“誰可以在什么場景下合法使用這些數據,誰可以獲取價值回報”。
這促生了“數據三權分置”的法律結構探索——將數據所有權、使用權、經營權進行分離管理,讓“被使用”本身成為合法動作。
2. 從“系統孤島”到“可信交換協議 + 監管中臺”
各地正在試點建立支持數據跨平臺調用的數據交易所、聯盟鏈平臺和“監管沙箱”機制,使數據在不同系統、不同機構間流通時,有身份、有履歷、有規則、有邊界。
這背后強調的,是一種“可溯源 + 可審計 + 可調度”的信任架構——為AI提供真實、合法、透明的數據基礎。
3. 從“單點整合”到“跨域協同機制”
“數據孤島”不是靠收歸一統消除的,而是靠協議機制與中臺系統建立數據聯邦。
典型機制如“數據中介組織”“數據托管節點”“異地聯合建模平臺”,已在醫療、金融、交通等多個行業落地實踐。
讓我們來看一些樣本:
政務領域|上海城市大腦、粵港澳政務協同平臺:實現跨部門、跨地區的政務數據標準對齊與共用,以制度托底實現智能服務能力。
行業場景|醫療/金融數據中臺:通過行業數據聯盟推動數據供給側改革,在監管參與下構建“可信半公共平臺”,支撐多模型、多任務、多機構AI應用落地。
基礎設施|數據交易所與數據確權鏈:北上廣深已建立多個數據交易機構,深圳、雄安等地推進“數據三權分置+聯盟鏈確權”機制,為“可信調度 + 合理定價”打下基礎。
換句話說,中國要做的,不只是“把數據商品化”,而是通過制度架構,讓數據成為可以被智能系統真正調用的“可信語義資源”。
這不是對市場邏輯的微調,而是對未來智能文明基礎設施的主動定義。
下一節,我們將把目光投向全球,對比中美數據治理范式,揭示中國路徑如何提供另一種數字主權與智能系統共生的可能性。
數據主權、信任協議
與全球認知秩序的再平衡
當大模型成為國家競爭力的代表性技術之一,圍繞AI的競賽早已不僅停留在技術層面,而是逐步上升為制度范式之爭。在這場深層次博弈中,數據制度的選擇方式,正決定一個國家未來AI能力的邊界——不僅是能不能訓練模型,更是能不能可信、合法、穩定地讓模型運行起來。
>中國模式的優勢,不是數據總量,而是制度組織力
外界普遍認為中國在大模型領域的最大優勢是“數據規模”,但這只是表象。
真正具有戰略意義的,是中國正在構建一種“在可控邊界內實現可信協作”的制度能力。
在“數據確權+數據流通+監管中臺”的組合機制下,中國正在試圖回答一個智能時代最核心的問題:“如何讓數據既能高效參與AI訓練與運行,又能兼顧安全、合規、信任?”
這一制度體系,不再單純依賴個人授權或平臺自律,而是通過立法、標準、平臺、交易規則等多層機制,實現數據權益、風險與使用效率的平衡。
>全球影響:制度競爭成為AI時代的新博弈場
隨著AI模型逐步走向跨境部署、跨域協同,原有的數據治理邏輯正在面臨挑戰:
模型可以“走出去”,但數據不能“帶出去”;
算法可以全球部署,但訓練過程可能觸碰不同法律雷區;
智能系統的泛化能力受限于數據邊界與授權障礙;
這就提出了三大關鍵問題:
1. 是否可能建立一套“跨國AI數據協作協議”?
類似WTO、碳排協定的數據治理框架,推動形成國際標準。
2. 制度是否可以成為算法信用的來源?
模型可信不再由技術驗證,而由其數據治理路徑提供信任基礎。
3. 誰將主導下一代AI價值體系的底層協議與運行規則?
是沿用硅谷的“技術自由主義”,還是構建一種“治理增強型數字秩序”?
在這三道關鍵博弈題面前,中國的數據制度路徑正在以某種“全球變量”的姿態浮現。它不是為了封閉,而是試圖為AI運行建立一種“邊界明確、行為合規、價值清晰”的基礎秩序。
數據不是金礦
是文明操作系統
人類社會歷經資源時代、工業時代、信息時代,每一次范式躍遷,最終都由一種全新的“底層生產組織邏輯”所驅動。而今天,AI 時代的底座正在顯現:除了GPU、大模型本身,還包括誰掌握了數據制度。
在這個智能系統崛起的關鍵節點,數據不再是“等著被使用的原材料”,而成為認知系統的邊界線、演化能力的載體、社會信任的接口協議。它決定了:模型訓練是否可持續;智能系統能否泛化適配;算法行為是否可解釋、可審計、可托付。
這意味著,數據制度不只是技術創新的配角,而是數字文明的“憲法級組件”。
中國的數據要素改革,要做的就是試圖構建一種“制度性紅利”。中國通過確權機制、可信流通協議、跨域中臺與交易網絡,力圖打造一套“數據驅動但制度可控”的生態結構——不僅為本國模型提供合法、高質量、可追責的語義支撐,也在為全球AI生態提供另一種智能社會構建范式。
這是對“算法-資本-平臺”敘事的系統性補充,是一種以制度設計替代無限擴張的路徑創新。
在未來的全球智能競爭中,誰能率先構建“可信數據秩序”,誰就擁有輸出AI治理標準、主導國際規則設定的底氣。
未來的AI強國,不僅是模型最強、GPU最多的國家,還是最早定義“數據制度”的國家。
當所有模型的能力趨近時,決定系統上限的,將不再只是算力和算法,還是我們愿意以怎樣的方式組織數據、管理知識、重構信任。
能否構建起來一套能真正釋放出數據價值的機制體系,那將是一場關于智能文明底層架構的較量。但實事求是的說,這條路我們能走多遠,還不好說。但總要有人去走進無人區,哪怕跌跌撞撞,也要勇敢前行。
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.