本文來自微信公眾號:首義科創母基金,作者:金能,編輯:Shanyunliu,題圖來自:AI生成
想象一下,在世界廚藝錦標賽上,你和一批有夢想的年輕人在一個破舊的毛坯灶臺上,炒出來了驚艷全球的爆款創新菜。而你的對手,在五星級酒店里帶領數十人的豪華團隊,用著全球最貴的廚具和最多的食材,卻在比賽中惜敗于你,引發全球轟動。這不是爽文短劇,這是正在發生的熱點。而你,就是低調積累許久的“一代食神”——DeepSeek。
年初 DeepSeek App 橫空出世,其創新性的架構設計和工程化落地使得模型性能在極低的成本下也能達到全球頂尖水平,加上用戶體驗良好的思維鏈展示和模型開源的方式,在春節期間用戶量迅速增長。
在引發全球關注的同時,全球資本對中國科技資產的重新評估與 AI 投資的底層邏輯也悄然發生轉變。尤其是在大模型領域,過去巨額投入卻屢次推遲的ChatGPT5和本就步入下半場的國內六小龍,將直面 DeepSeek這匹黑馬的強勁沖擊。中國AI企業在DeepSeek突破了“算力禁運”之后,正面臨高質量數據稀缺的挑戰,尤其是高質量、低成本、多種類、多模態的數據,將成為未來 AI 產業發展的核心關鍵。
一、DeepSeek 之前:被算力算法“智子”圍困的中國 AI
主流的AI大模型訓練方式主要是基于 Transformer進行下一個 Token 的預測。即從互聯網為主要渠道來吸收數千億級的海量數據,并用進行類似均值的匹配,對匹配結果偏差比較大的,也就是通常說的“大模型幻覺”(詳見上篇《AI 幻覺的一體兩面》),進行人工打分/直接指導打標簽,以此來提升模型的準確性。
眾所周知,AI 大模型核心三要素即數據、算法和算力。數據對應的是“食材”,算力對應的是“廚具”,算法則是“廚藝”。從全球范圍來看,當前算力的硬件性能已接近瓶頸,其迭代速度遠不及大模型的日益增長的訓練需求和能耗壓力。
而可供預訓練的現實數據也逐漸見頂,2024 年 11 月份 OpenAI 前首席科學家 Ilya 在公開場合表示簡單地增加數據和計算能力來擴大當前模型規模的時代已經結束。隨著大語言模型逐漸往多模態模型上發展,算力和數據的挑戰則會進一步加劇。
目前,算力方面我國面臨美國的“芯片禁令”的封鎖,使得國內 AI 公司沒法使用高端好用的廚具,就像別人用高壓鍋燉雞湯一刻鐘,我們只能用柴火灶一直加柴熬兩小時。在此背景下,我國發展人工智能只能從算法和數據兩個方面做得更好,才有機會突圍。
在算法方面,過去普遍觀點是由于投入方面不對等,致使我國和OpenAI為代表的美國頭部AI大模型公司有著至少1~2年的差距。根據CB Insights 發布的數據,2024年中國AI初創企業籌集的資金僅占美國AI初創企業的 7%。豐厚的資金儲備意味能高薪招“全球絕頂聰明人”形成在研發創新上的碾壓,進一步鞏固算法優勢。在DeepSeekV3之前,我國人工智能領域所面臨的情況不可謂不嚴峻。
二、高質量的可用數據,是企業應用AI最突出的挑戰
在 DeepSeekV3和R1推出之后,頂尖的模型效果和用戶體驗,加上其開源的特性,大大緩解了我國在算法和算力上的困境,但數據方面的挑戰依然存在。
數據是食材,食材的品質、豐富度及新鮮度都決定了最終菜品的口感和品質上限。對于大模型而言,高質量數據能夠保障模型推理回答的準確性。而多模態多種類的數據,能提升模型的泛化性和推理能力,尤其是在機器人的大腦(VLA 等)上。此外,還需要進行聯網搜索并定期更新數據集,來確保模型回復結果的時效性和準確性。
就可用數據量上,國內和國外有著天然差距。據W3Techs調研前一百萬互聯網網站使用的語言文字百分比,其中英文占比為59.3%,而中文只有 1.3%。相比于美國的頭部AI公司,國內可供訓練的公開中文數據不夠多,標準化程度也不夠高。
從結果來看,數據已是目前企業應用 AI 最突出的挑戰。根據IDC和浪潮信息發布的研究顯示,目前企業在應用人工智能中所面臨挑戰最大的是缺乏高質量可用數據,占比高達66%。在此之后才是成本高、技術成熟度、人才缺乏等新興領域通用挑戰。
另一方面,數據采集與處理是目前國內企業在生成式 AI 應用時的主要支出方向,尤其是對于工作流程繁瑣、決策鏈路較長、業務類型眾多的公司而言,其業務數據需要經過層層篩選、處理和業務理解后,才能成為標準化的高質量數據,再用于模型的訓練和推理。
圖片來源:百度百科
三、像 DeepSeek 那樣訓練數據,要怎么做?
或許你不用像DeepSeek那樣去訓練數據,但了解他的訓練法則依然很有參考價值。
在DeepSeek之前,阿里的通義千問系列是全球主流的開源語言模型。去年圣誕后DeepSeekV3發布當天,我們對已有的信息作梳理分析:DeepSeek則采用了創新性的架構(MLA+MoE),并解決了很多細微的工程化落地難題,使得其在使用極低成本的情況下,成為當時最強的開源基礎模型。
對于DeepSeek的關鍵,百度百科上的結果則是更為簡短直接,即使用數據蒸餾技術,得到更為精煉、有用的數據。
為了更深入理解具體核心機制,援引“極客學長”的結論:“總結來說,DeepSeek-R1-Zero 模型(以下簡稱“R1-ZERO”)的訓練方式就像教小孩學走路,不直接告訴它正確答案,而是讓它自己嘗試,根據結果的好壞(比如答案是否正確)來調整自己的行為。這種方法不需要預先標注好的數據,完全靠 AI 自己摸索,沒有輸入任何帶標記的數據,這也是為什么這個版本的名字帶 Zero 的原因,表示零樣本輸入。”
圖片來源:公眾號“我就是極客學長”
R1-Zero模型表現非常驚艷,在數學和編程方面的能力已經達到OpenAI-o1-0912的水平。但也存在明顯的缺陷——生成的答案可讀性差,經常出現中英文混雜。針對這個問題,DeepSeek團隊采取了一系列的優化措施。
首先,用數千條人工處理的高質量COT數據(比如詳細的解題步驟),通過監督微調(SFT)的方式讓它“冷啟動”,再用強化學習進一步訓練,使得生成的答案更清晰,語言也更統一。簡而言之,即研究人員給了R1-Zero 模型一些優質例題,教它規范的解題格式,再用強化學習訓練,使其解題又快又準,格式工整。此時得到一個Checkpoint,并將該Checkpoint 稱之為DeepSeek-R1-One(以下簡稱“R1-One”)。
然后,再用訓練R1-Zero的方式,用R1-One 生成一批高質量的COT數據(長思維鏈數據),同時再結合專業領域數據和人為反饋數據等,再以 DeepSeek-V3為基礎模型進行強化學習,得到最終的DeepSeek-R1。
可以發現,DeepSeek除了在算法層面進行了一系列的創新和優化,其核心步驟中的數據都是自行人工處理或撰寫的。如同投資人朱嘯虎在轉變對大模型態度時所說,DeepSeek這次唯一沒有公開的就是模型預訓練數據。
圖片來源:BOSS直聘
此外值得注意的是,在爆火后DeepSeek開啟了數據百曉生的實習生招聘,崗位要求不高但薪資豐厚,已經遠超一般的數據外包公司全職人員水平,從側面體現出其對高質量數據的重視程度。值得注意的是,該崗位優先考慮小語種專業,這或許是為了更好地進軍全球市場所做的鋪墊和準備。
四、具身智能、自動駕駛領域,同樣面臨數據挑戰
在近期的演講及訪談中,上海交大博導、穹徹智能聯合創始人盧策吾教授指出:當下,具身智能的研究路線正處于瓶頸期,具身智能面臨的兩大核心挑戰之一是數據規模存在“太平洋缺口”。工業級應用對具身智能設定了嚴格的紅線標準,為達到這一標準,所需的數據量堪稱海量。然而,數據采集模式難以有效填補這一巨大的數據缺口。
圖片來源:NOEMATRIX
當前數據采集面臨著一系列棘手問題:遙控操作需要購置價格昂貴的機器人設備及相關配套技術,并且操作人員需要經過專業培訓。這些因素導致成本高昂,從而限制了數據采集的規模。
為突破具身智能大模型的 Scaling Law 約束,實現數據采集的規模化并降低數據獲取成本,需要找到一種既能保證數據真實性,又不影響人們日常工作的數據采集方法。
在自動駕駛領域,隨著 2024 年開始智駕領域走向端到端時代,數據的重要性空前提升。
端到端技術的核心在于通過大量數據訓練模型,使其能夠識別和預測各種駕駛場景。高質量數據的輸入,直接決定了模型輸出的準確性和可靠性。這些數據不僅需要涵蓋各種道路條件、天氣變化和交通情況,還要確保其標注的準確性和多樣性。
傳統模塊化算法需要改變控制策略時,可以找到代碼中具體的幾行參數修改,之后測試 1%的案例即可,而端到端的算法中,小的改動需要重新對自動駕駛算法進行訓練,難度可想而知。
因此,海量的、多樣化的、優質的數據不可或缺,同時自動化、高水平的數據處理體系亦至關重要。根據業內專家意見,華為在智駕方面的一半投入用在了數據采集和處理上。毫不夸張地說,端到端時代,數據會占據自動駕駛開發中 80%以上的研發成本。
從數據維度看,海量且優質的數據正成為自動駕駛行業的“稀缺品”。自動駕駛采用的BEV感知方案,需要達到1億幀以上的訓練數據才能滿足車規要求,否則泛化性、準確率和召回率就難以保障。
以特斯拉為例,馬斯克曾表示,特斯拉FSD測試里程需要達到60億英里,才能滿足全球監管機構的要求,這也是自動駕駛系統實現質變的一個重要節點。2024年5月,在解決了算力瓶頸之后,馬斯克表示更大的難點在于對長尾數據的收集,其獲取難度和成本對比通用數據則是指數級激增。業內目前普遍觀點是,長尾數據只能通過仿真或數據生成的方式來解決。
五、獲取高質量數據的“三板斧”:標注、采集、生成
標注、采集和生成,是目前獲取高質量數據的三種方式。
數據標注,主要分為人工標注和機器人標注。發展至今,實際應用中以人機協同標注為主,即企業開發的自動化標注平臺,先對入庫數據進行預標注,節省人力的同時保證一定的準確度。再由專業或有經驗的人員對機器預標注的數據進行進一步的鑒別和處理,進一步提升數據質量和準確度。隨著技術和業務的發展,未來有望出現自動化標注程度和準確性均較高的平臺或軟件,在大模型產業鏈中人力參與最重要的環節降本增效。
數據采集,目前數據采集主要通過人工、設備或者爬蟲等方式進行采集。數據采集通常面向除語料、圖片和視頻外更多樣的數據,所應用領域也更加廣泛,除了人形機器人領域所廣泛應用的動捕采集還是自動駕駛領域廣泛應用的實車采集,還包括 AI4S 和機器視覺領域主要應用的設備參數采集和實景三維采集等。
目前數據采集是上述前沿科技領域的必備關鍵環節,其成本也是高居不下。因此,上述行業內也催生出高質量高效率進行數據采集、加工處理和挖掘分析的痛點訴求。隨之孕育而生的就是數據生成。
數據生成主要是通過數據擴張、預測或限定條件下的隨機生成等方式進行,目前處于發展早期,其中獲得廣泛關注的是世界模型。世界模型的目的是生成可編輯、有物理特性的高質量虛擬場景,完成對現實世界的復刻或虛擬世界的構建,從而在里面進行數據的處理和模型的訓練,在數據獲取成本和多樣性上具有發展前景。
但值得注意的是,世界模型是通過算法來實現的,在數據精度上難以匹敵的高精密儀器設備的實景或實物采集,并不能完全替代數據采集,但可以實現非常有效的互補。
六、筑牢“高質量數據地基”,政府正加速行動
今年以來,為解決人工智能產業中的數據痛點,多地政府加速推動高質量數據建設。
2月19日,國家數據局在北京召開高質量數據集建設工作啟動會。這不僅彰顯了國家對數據要素的高度重視,也預示著我國數據產業發展將邁入新階段。
2月18日,《武漢市促進人工智能產業發展若干政策措施》的發布會上明確將聚焦工業制造、醫療健康、科研創新等12個行業領域,推進公共數據、企業數據與個人數據分類分級開發利用,建設不少于20個高質量數據集。
3月18日,武漢市數據局發布支持高質量數據集建設和數據產品利用的公開征求意見稿,對相關單個標的予以最高 200 萬元的支持。
3月3日,深圳市工信局于發布《深圳市加快打造人工智能先鋒城市行動計劃(2025—2026年)》,明確加快構建高價值垂類數據集和具身智能數據集。其中明確指出,將形成3PB中文語料數據,并在寶安、龍華兩個區建設具身智能數據采集基地,形成多模態訓練的開源數據集。
我們能看到,近年來由大疆、DeepSeek、“六小龍”所展現的中國科技創新變革并非局部的突發事件,而是舉國推動科創時代下,人才紅利疊加完備產業鏈形成堅實基礎,并由科研型企業家實現范式創新,完成從量變到質變的結果呈現。
還有很多尚在量變積累的優秀創業者和研發團隊在日夜兼程,政府也在積極推動基礎設施建設給創新提供土壤,歷史反復應驗,曾種過的種子都會開花結果,只是需要時間和機緣罷了。
參考資料:
1、新浪財經,《外媒:DeepSeek受關注 登頂140國應用商店榜首》
2、上觀新聞,《創新紀錄!DeepSeek成史上最快突破3000萬日活APP》
3、IDC、浪潮信息,《2025年中國人工智能計算力發展評估報告》
4、極客學長,《DeepSeek R1 破圈的核心技術解讀,你不能不知道的 AI 干貨!》
5、無相君,《中美大模型的差距,究竟在哪兒?》
6、張小珺,《朱嘯虎現實主義故事1周年連載:“DeepSeek快讓我相信AGI了”》
7、穹徹智能,《2025 全球開發者先鋒大會:具身智能語料工程啟動,“生產伴隨” 引領未來》
8、極智GeeTech,《無數據不智能,數據閉環重塑高階智駕未來》
9、復旦大學 張奇教授,《生成式AI大會(上海站)2024》公開演講
10. 國金證券,《AI行業關鍵時刻:瓶頸與機遇并存》
本文來自微信公眾號:首義科創母基金,作者:金能
本內容為作者獨立觀點,不代表虎嗅立場。未經允許不得轉載,授權事宜請聯系 hezuo@huxiu.com
本文來自虎嗅,原文鏈接:https://www.huxiu.com/article/4159694.html?f=wyxwapp
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.