網易首頁 > 網易號 > 正文申請入駐

AI訓練數據耗盡，這家數據標注公司為何暴漲？丨氪金·硬科技

2025-04-01 16:01:08　來源: 36氪

北京舉報

分享至

作者 |耿宸斐

編輯 |宋婉心

“數據標注”是伴隨AI進程誕生的重要的產業鏈一環。尤其在大模型問世后，數據標注行業規模極速擴張，但隨著大模型迭代，作為勞動密集型行業，數據標注又不斷被市場重估。

美股市場的頭部數據標注公司Innodata是這一過程的一個典型縮影。

近一年以來，Innodata股價漲幅高達432%。最新財報顯示，2024全年Innodata營收同比大漲96.44%，且8家大客戶中，有5家來自美股七巨頭。

不過穩健的基本面擋不住市場預期的調整。DeepSeek發布后，市場對用于訓練的公開數據的需求開始產生懷疑，Innodata股價因此產生波動，尤其在三月，公司股價下跌了超30%。

對于這家公司，目前市場聲音分歧較大。

看空者認為在過去十年中，Innodata僅盈利了兩次，因此股價飆升是沒有道理的，而看多者則認為，因為大模型現在的情況已經不同，Innodata已將業務模式轉向了大模型的數據清理。

01 價值重估

數據標注行業的第一次高光時刻，是來自自動駕駛的發展。在大模型出現之前，德勤報告顯示，2022年自動駕駛領域的標注需求占整個AI下游應用的38%。

而大模型對數據標注的需求提升到了另一個量級。

“如果不是大模型出現，就算是干成自動駕駛行業數據標注龍頭的Scale AI，在2023年之前，其年收入也就1億至2億美金。而到了2024年，Scale AI全年的ARR預計在12-14億美金，比2022年翻了7倍左右。”有投資者表示。

大模型行業的Scaling Law理論認為，模型性能與模型參數量、訓練數據量和計算資源相關。以GPT-4為例，其參數量從GPT-3的約1750億提升至約1.8萬億，而訓練數據集的規模也從GPT-3的幾千億Token擴大到13萬億Token。

業務集中在數據工程領域的Innodata，吃到了大模型賣鏟人的大量紅利。

最新財報顯示，Innodata的最大客戶授予該公司價值約2400萬美元的額外合同，使來自該客戶的總年化運營收入達到約1.35億美元。

除了該最大客戶之外，來自Innodata的另外七家大型科技公司客戶的收入，在第四季度環比增長了159%。

從近期業績看，Innodata的收入增長明顯加速。2024年一至四季度，該公司營收的同比增速分別為40.7%、65.6%、135.6%和126.6%。而且Innodata預計，2025年公司收入增長將超過40%。

不過，如今大模型行業擴張期過去之后，數據標注行業的矛盾已經開始浮現——即將耗盡的數據難以支撐模型迭代與與大模型落地等所帶來的訓練需求。

Epoch AI的研究估計，自2020年以來，用于訓練大語言模型的數據增長了100倍，且AI訓練數據集的規模每年翻倍。然而，互聯網可用內容每年的增長卻不足10%。到2028年，AI訓練數據很可能耗盡。

事實上，數據不足所造成的發展瓶頸已經是行業中的普遍現象。去年11月，The Information爆料稱，OpenAI下一代旗艦模型Orion改進大幅放緩，一個主要原因正是高質量訓練數據的短缺。

行業共識是，目前通用數據的供給已接近飽和，垂類數據將是未來AI模型差異化的關鍵。

02 DeepSeek淘汰數據標注？

作為美股市場上僅有的AI數據標注標的，Innodata的“AI含量”至今仍飽受質疑。

早在2019年，Innodata就宣稱自己開始實施人工智能和機器學習流程，并將自己劃為一家人工智能公司。但去年2月， Wolfpack Research發布的一份報告稱，Innodata是在拿AI炒作股價，其核心業務仍是依靠海外廉價勞動力進行基礎數據標注，而非自主研發的AI技術。

報告引用前員工說法，稱公司為硅谷客戶提供的服務本質是“鍵盤勞動”。

“Innodata的商業模式上就是基于人力外包的數據標注，賺一份血汗錢。和同業的差異只是他們干得最久，做得最大。”有投資者評價，“技術只能讓數據標注更快，要讓數據標注更好，現在只能靠人。”

據智研咨詢報告，盡管已經有數據標注公司開發了相應的半自動化工具，但從標注比例來看，機器標注和人工標注的比例約為3:7。

Innodata的財報數據也側面印證了這一現實。僅在2024年第二季度，Innodata就花費了360萬美元的招聘代理費，這表明公司仍舊非常依賴人力。

業內人士告訴36氪，這主要是由于數據標注的復雜性和多樣性，以及不同領域的數據標注要求不同。此外，自動化標注技術在現階段還存在一定的局限性，如對某些類型的數據的識別準確率不高、對復雜場景的處理能力有限等。

但DeepSeek一定程度上改寫了數據需求的邏輯。

技術層面來看，簡單而言，DeepSeek采用的強化學習（RL）技術，讓大模型不再需要被不斷喂養模型外的新數據，只用模型內已存在的數據即可進行自我訓練。

這一方面降低了大模型廠商對數據量的需求，另一方面，全聯并購工會信用管理委員會專家安光勇認為，企業出于開源節流的考慮，有可能會傾向于低成本合成數據。這也會在一定程度上沖擊Innodata等數據標注企業。

關于DeepSeek沖擊的質疑，財報電話會上，Innodata管理層表示，他們相信，預訓練數據和微調數據對AGI發展而言是無法替代的。

在他們看來，DeepSeek依賴以現有模型數據訓練新模型，會極大地壓縮數據，最終導致模型崩潰。

從市場質疑聲音來看，Innodata可持續增長的不確定性來源于兩點，一是數據標注需求是否持續增長，二是標注工作是否持續低自動化。

針對前者，科技部國家科技專家周迪告訴36氪，合成數據的適用邊界在于它更適合于生成新的、用于訓練模型的數據，而人工標注則更適合對已有數據進行深入的理解和解讀。

盡管合成數據可以提供更加一致和可控的數據，但在情感分析和文本生成等需要深度語義理解的領域，人工標注數據仍具有不可替代性。

另有投資者分析指出，隨著DeepSeek帶來的模型部署和運行的成本大幅降低，會有越來越多應用層的公司部署自己的大模型，這也會帶來額外的數據標注的需求。所以DeepSeek的出現對Innodata至少不會是一個利空。

但針對后者，這一問題淪為了“雞生蛋還是蛋生雞”的悖論。當市場投資者們質疑Innodata“AI含量”低時，一個可能性很大的未來是，數據標注工作的AI化會首先革掉數據標注公司自己的命。

關注獲取更多資訊

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Llama 4在測試集上訓練？內部員工、官方下場澄清，LeCun轉發

機器之心Pro 2025-04-08 14:31:04
0 跟貼 0
類R1強化學習遷移到視覺定位!Vision-R1將圖文大模型性能提升50％

機器之心Pro 2025-04-08 14:43:47
1 跟貼 1

Llama 4五大疑點曝光，逐層扒皮！全球AI進步停滯，NYU教授稱Scaling徹底結束

新智元 2025-04-08 16:47:56
2 跟貼 2

斯坦福456頁AI報告劃重點：中美AI競爭格局變了！

智東西 2025-04-08 22:06:43
9 跟貼 9
AI生成的數據，竟成為一枚射向自己的子彈？

鈦媒體APP 2024-12-02 19:59:38
0 跟貼 0

2025年斯坦福HAI報告：中美AI模型差距驟縮至0.3%，推理成本暴降280倍

華爾街見聞官方 2025-04-08 21:35:51
2 跟貼 2

從高光到塌房，Meta Llama 4 遭遇驚魂72小時

雷科技 2025-04-08 22:19:22
0 跟貼 0
機器人領域ImageNet，Pieter Abbeel領銜國內外高校共建RoboVerse

機器之心Pro 2025-04-08 18:26:42
0 跟貼 0

微軟AI模型MatterGen能根據需求生成新材料

量子位 2025-01-21 18:07:40
30 跟貼 30
AI語音迎來「特斯拉時刻」，一條工作流「吃掉」全球百億市場

36氪 2025-04-08 19:17:47
1 跟貼 1
谷歌發布145頁人工智能安全報告：可能在2030年出現“永久毀滅人類”的人工智能

齊魯壹點 2025-04-08 10:56:15
301 跟貼 301
現場探訪2025年健博會：“AI中醫”受追捧 AI如何賦能藥企成行業焦點

每日經濟新聞 2025-04-08 23:20:09
0 跟貼 0
聚焦產業變革，超聚變TechX探索AI應用新趨勢

經濟觀察報 2025-04-08 22:13:06
1 跟貼 1
賈靜雯被文娛城美食亂了心神找不到邏輯

娛樂戰斗姬 2025-04-04 18:52:10
4 跟貼 4
國家隊入場A股亮劍，平準基金護盤穩國運

璐哥看透徹 2025-04-08 20:43:20
4 跟貼 4
美股血崩甩鍋DeepSeek，蔡正元：應該再狠一點，中國還是太客氣了

蛙哇雷達 2025-04-08 06:35:00
0 跟貼 0
無數據不智能，數據閉環重塑高階智駕未來

鈦媒體APP 2024-10-11 10:25:11
1 跟貼 1
不錯不錯比那些拿AK突突的有邏輯得多

老公愛剪輯 2025-04-06 09:39:58
2 跟貼 2
川普的“組合拳”：數據造假與關稅戰雙管齊下，中國迎戰！

AI次世代 2025-04-06 08:37:48
16 跟貼 16
上海一地多家商鋪招牌集中更換男子：幾千家同時換

征垣之路 2025-04-08 09:39:43
9978 跟貼 9978
特朗普最新回應美股崩盤：有時你必須“吃藥”來解決問題！

財聯社 2025-04-07 12:13:21
1 跟貼 1
美方威脅進一步對華加征50%關稅商務部回應

財聯社 2025-04-08 08:57:08
5444 跟貼 5444
11分鐘組裝一臺奔馳發動機，比模型發動機組裝難度大，一般人難搞

納多綜娛 2025-04-08 15:18:25
0 跟貼 0
驚嘆！旋轉鋸木技術讓我大開眼界，輕松去皮真方便

不知見聞社Iris 2025-04-07 09:22:32
1 跟貼 1
中國衛星揭秘B-21真實航程，五角大樓數據遭曝光

時光會帶走回憶 2025-04-07 01:18:07
1 跟貼 1
笑岔氣了！郭德綱：有一個行業，那里有很多有技術的女人

騎著蝸牛追導彈85 2025-04-08 19:18:20
0 跟貼 0
貓偶遇挑事狗子，舉動一看就是練家子，有點子技術在身上

公干的搞笑社 2025-04-08 18:37:46
0 跟貼 0
滑板居然還能這樣玩，男子穿過模型墻，下秒實力驚呆眾人！

新點生活 2025-04-08 14:56:35
0 跟貼 0
師傅水下破碎技術絕佳，令人贊嘆的沉井作業展示！

奇遇葉辰 2025-04-07 09:09:13
3 跟貼 3
醫療新突破！麗江市人民醫院DeepSeek醫療大模型落地，AI問診成現實

麗江讀本 2025-04-08 18:12:32
0 跟貼 0
“推遲關稅90天”消息致市場巨震白宮辟謠后美股重拾跌勢

每日經濟新聞 2025-04-08 00:57:25
6 跟貼 6
東風31數據被多次泄露，一張美元牽出叛徒，最終判處死刑大快人心

經典人物記錄 2025-04-07 06:05:22
0 跟貼 0
廣東贏球是靠裁判嗎？2+2和3-1又是怎么回事？數據告訴你！

CC聊體育 2025-04-06 10:06:36
1 跟貼 1
3.5CC發動機模型，0.5匹馬力，沒想到組裝后可以正常運行

納多綜娛 2025-04-08 15:21:48
0 跟貼 0
中國005航母：顛覆性技術或改寫海戰規則

領略非凡 2025-04-07 03:01:53
0 跟貼 0
荒謬至極！美國對“企鵝島”征稅，專家：“對等關稅”存邏輯漏洞

鳳凰衛視 2025-04-07 15:13:26
0 跟貼 0
美國罷工潮VS關稅戰：誰在割裂社會？三大底層邏輯揭秘

多多愛探索 2025-04-08 05:20:18
0 跟貼 0
歐美股市全線暴跌，美股總市值一周蒸發超45萬億元

每日經濟新聞 2025-04-06 14:47:47
0 跟貼 0
庫里體能訓練底層邏輯解析，極度扎實放心抄作業

Drew體能碩士 2025-04-04 20:50:09
0 跟貼 0
雖然瘋了，但邏輯清晰啊

大力哥影視局 2025-04-08 10:13:41
1 跟貼 1

36氪

讓一部分人先看到未來

147760文章數 2844768關注度

往期回顧全部

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

健康

本地

時尚

家居

公開課

公開課

李玫瑾：為什么性格比能力更重要？

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
中國最大沙漠中唯一的城市，周邊300公里被黃沙覆蓋
李彥宏：百度離破產30天

手機 / 數碼

房產 / 家居

AI訓練數據耗盡，這家數據標注公司為何暴漲？丨氪金·硬科技

iPhone在美會賣2萬元上嗎？在中國會漲價嗎

25歲"世紀嬰兒"千千去世鑒定結果已出 母親發聲

25歲"世紀嬰兒"千千去世鑒定結果已出 母親發聲

100%當選狀元，但弗拉格不想進NBA？

尷尬！甲亢哥想聯動大張偉，卻被迫錄節目

"中國版平準基金"橫空出世 央行表態

一季度車企銷量：下沉與上行，覺醒與迷惘

態度原創

在中國，到底哪些人在吃“偉哥”？

云游中國｜更好濰坊，更好的家

別再披頭散發了！今春流行“奶奶發飾”，好看巨顯臉小

現代風格 年輕簡約

25歲"世紀嬰兒"千千去世鑒定結果已出母親發聲

25歲"世紀嬰兒"千千去世鑒定結果已出母親發聲

"中國版平準基金"橫空出世央行表態

現代風格年輕簡約