99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI訓練數據耗盡,這家數據標注公司為何暴漲?丨氪金·硬科技

0
分享至

作者 |耿宸斐

編輯 |宋婉心

“數據標注”是伴隨AI進程誕生的重要的產業鏈一環。尤其在大模型問世后,數據標注行業規模極速擴張,但隨著大模型迭代,作為勞動密集型行業,數據標注又不斷被市場重估。

美股市場的頭部數據標注公司Innodata是這一過程的一個典型縮影。

近一年以來,Innodata股價漲幅高達432%。最新財報顯示,2024全年Innodata營收同比大漲96.44%,且8家大客戶中,有5家來自美股七巨頭。

不過穩健的基本面擋不住市場預期的調整。DeepSeek發布后,市場對用于訓練的公開數據的需求開始產生懷疑,Innodata股價因此產生波動,尤其在三月,公司股價下跌了超30%。

對于這家公司,目前市場聲音分歧較大。

看空者認為在過去十年中,Innodata僅盈利了兩次,因此股價飆升是沒有道理的,而看多者則認為,因為大模型現在的情況已經不同,Innodata已將業務模式轉向了大模型的數據清理。

01 價值重估

數據標注行業的第一次高光時刻,是來自自動駕駛的發展。在大模型出現之前,德勤報告顯示,2022年自動駕駛領域的標注需求占整個AI下游應用的38%。

而大模型對數據標注的需求提升到了另一個量級。

“如果不是大模型出現,就算是干成自動駕駛行業數據標注龍頭的Scale AI,在2023年之前,其年收入也就1億至2億美金。而到了2024年,Scale AI全年的ARR預計在12-14億美金,比2022年翻了7倍左右。”有投資者表示。

大模型行業的Scaling Law理論認為,模型性能與模型參數量、訓練數據量和計算資源相關。以GPT-4為例,其參數量從GPT-3的約1750億提升至約1.8萬億,而訓練數據集的規模也從GPT-3的幾千億Token擴大到13萬億Token。

業務集中在數據工程領域的Innodata,吃到了大模型賣鏟人的大量紅利。

最新財報顯示,Innodata的最大客戶授予該公司價值約2400萬美元的額外合同,使來自該客戶的總年化運營收入達到約1.35億美元。

除了該最大客戶之外,來自Innodata的另外七家大型科技公司客戶的收入,在第四季度環比增長了159%。

從近期業績看,Innodata的收入增長明顯加速。2024年一至四季度,該公司營收的同比增速分別為40.7%、65.6%、135.6%和126.6%。而且Innodata預計,2025年公司收入增長將超過40%。

不過,如今大模型行業擴張期過去之后,數據標注行業的矛盾已經開始浮現——即將耗盡的數據難以支撐模型迭代與與大模型落地等所帶來的訓練需求。

Epoch AI的研究估計,自2020年以來,用于訓練大語言模型的數據增長了100倍,且AI訓練數據集的規模每年翻倍。然而,互聯網可用內容每年的增長卻不足10%。到2028年,AI訓練數據很可能耗盡。

事實上,數據不足所造成的發展瓶頸已經是行業中的普遍現象。去年11月,The Information爆料稱,OpenAI下一代旗艦模型Orion改進大幅放緩,一個主要原因正是高質量訓練數據的短缺。

行業共識是,目前通用數據的供給已接近飽和,垂類數據將是未來AI模型差異化的關鍵。

02 DeepSeek淘汰數據標注?

作為美股市場上僅有的AI數據標注標的,Innodata的“AI含量”至今仍飽受質疑。

早在2019年,Innodata就宣稱自己開始實施人工智能和機器學習流程,并將自己劃為一家人工智能公司。但去年2月, Wolfpack Research發布的一份報告稱,Innodata是在拿AI炒作股價,其核心業務仍是依靠海外廉價勞動力進行基礎數據標注,而非自主研發的AI技術。

報告引用前員工說法,稱公司為硅谷客戶提供的服務本質是“鍵盤勞動”。

“Innodata的商業模式上就是基于人力外包的數據標注,賺一份血汗錢。和同業的差異只是他們干得最久,做得最大。”有投資者評價,“技術只能讓數據標注更快,要讓數據標注更好,現在只能靠人。

據智研咨詢報告,盡管已經有數據標注公司開發了相應的半自動化工具,但從標注比例來看,機器標注和人工標注的比例約為3:7。

Innodata的財報數據也側面印證了這一現實。僅在2024年第二季度,Innodata就花費了360萬美元的招聘代理費,這表明公司仍舊非常依賴人力。

業內人士告訴36氪,這主要是由于數據標注的復雜性和多樣性,以及不同領域的數據標注要求不同。此外,自動化標注技術在現階段還存在一定的局限性,如對某些類型的數據的識別準確率不高、對復雜場景的處理能力有限等。

但DeepSeek一定程度上改寫了數據需求的邏輯。

技術層面來看,簡單而言,DeepSeek采用的強化學習(RL)技術,讓大模型不再需要被不斷喂養模型外的新數據,只用模型內已存在的數據即可進行自我訓練。

這一方面降低了大模型廠商對數據量的需求,另一方面,全聯并購工會信用管理委員會專家安光勇認為,企業出于開源節流的考慮,有可能會傾向于低成本合成數據。這也會在一定程度上沖擊Innodata等數據標注企業。

關于DeepSeek沖擊的質疑,財報電話會上,Innodata管理層表示,他們相信,預訓練數據和微調數據對AGI發展而言是無法替代的。

在他們看來,DeepSeek依賴以現有模型數據訓練新模型,會極大地壓縮數據,最終導致模型崩潰。

從市場質疑聲音來看,Innodata可持續增長的不確定性來源于兩點,一是數據標注需求是否持續增長,二是標注工作是否持續低自動化。

針對前者,科技部國家科技專家周迪告訴36氪,合成數據的適用邊界在于它更適合于生成新的、用于訓練模型的數據,而人工標注則更適合對已有數據進行深入的理解和解讀。

盡管合成數據可以提供更加一致和可控的數據,但在情感分析和文本生成等需要深度語義理解的領域,人工標注數據仍具有不可替代性。

另有投資者分析指出,隨著DeepSeek帶來的模型部署和運行的成本大幅降低,會有越來越多應用層的公司部署自己的大模型,這也會帶來額外的數據標注的需求。所以DeepSeek的出現對Innodata至少不會是一個利空。

但針對后者,這一問題淪為了“雞生蛋還是蛋生雞”的悖論。當市場投資者們質疑Innodata“AI含量”低時,一個可能性很大的未來是,數據標注工作的AI化會首先革掉數據標注公司自己的命。

關注獲取更多資訊

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普瘋了?中方亮劍72小時后,拿第一個“跪美”的越南開刀

特朗普瘋了?中方亮劍72小時后,拿第一個“跪美”的越南開刀

火星方陣
2025-04-08 22:59:49
出現轉機!S媽回應網友讓她多關心大S倆孩子,她發了一張表情包

出現轉機!S媽回應網友讓她多關心大S倆孩子,她發了一張表情包

老鵜愛說事
2025-04-08 08:55:02
拒絕1.4億年薪!皇馬巨星未來突變!轉投曼城,聯手瓜帥沖金球獎

拒絕1.4億年薪!皇馬巨星未來突變!轉投曼城,聯手瓜帥沖金球獎

阿泰希特
2025-04-08 11:36:23
養生專家:男人只要老伴一死,不出100天就想再娶,源于內心躁動

養生專家:男人只要老伴一死,不出100天就想再娶,源于內心躁動

詩詞中國
2025-04-08 17:02:06
不打了!曝24-25賽季退出CBA!中國頭號得分后衛……

不打了!曝24-25賽季退出CBA!中國頭號得分后衛……

籃球實戰寶典
2025-04-08 14:49:53
廣州一家三口被撞飛后續!系親弟所為,知情人曝更多,下手太殘忍

廣州一家三口被撞飛后續!系親弟所為,知情人曝更多,下手太殘忍

新語愛八卦
2025-04-08 20:01:36
絕平上籃+加時三分絕殺!哈維33+11成上海救世主 全場沸騰狂吶喊

絕平上籃+加時三分絕殺!哈維33+11成上海救世主 全場沸騰狂吶喊

顏小白的籃球夢
2025-04-08 22:12:49
王光美上大學時的一張珍貴照片,照片中的她穿A版裙子,腳上著一雙馬丁涼鞋,又美又時尚

王光美上大學時的一張珍貴照片,照片中的她穿A版裙子,腳上著一雙馬丁涼鞋,又美又時尚

黎庶文史
2025-04-07 23:50:12
朝鮮在俄羅斯傷亡有多大?再次援助,金正恩為啥猶豫?10個冷知識

朝鮮在俄羅斯傷亡有多大?再次援助,金正恩為啥猶豫?10個冷知識

暖心的小屋
2025-04-05 09:33:07
日本卡脖子第278天,武漢一家小公司造出了比日本更耐用的光刻膠

日本卡脖子第278天,武漢一家小公司造出了比日本更耐用的光刻膠

現代春秋
2025-04-07 20:29:53
莫蘭德4犯,洛夫頓4犯!廣東超巨沖裁判比數錢動作,杜鋒當場大罵

莫蘭德4犯,洛夫頓4犯!廣東超巨沖裁判比數錢動作,杜鋒當場大罵

嘴炮體壇
2025-04-08 21:02:31
萬斯稱中國農民“鄉巴佬”,我們該怎么回懟他?請給出你的金句

萬斯稱中國農民“鄉巴佬”,我們該怎么回懟他?請給出你的金句

剛哥說法365
2025-04-08 19:40:41
李溪芮,胸不大,但人家腿好看啊……

李溪芮,胸不大,但人家腿好看啊……

印象逍遙子
2025-04-08 10:29:20
很土但很有用,煮水一喝,虛火沒了潰瘍消了,睡眠質量也好了!

很土但很有用,煮水一喝,虛火沒了潰瘍消了,睡眠質量也好了!

蘇瑤的美食
2025-04-07 16:50:00
大暴雨來襲!明起降雨+降溫,周末還能“拜山”嗎?祛濕養生湯煲起來→

大暴雨來襲!明起降雨+降溫,周末還能“拜山”嗎?祛濕養生湯煲起來→

第一粵語
2025-04-08 20:29:16
姚晨這是把老公熬成爹的節奏,她自己倒是越來越年輕漂亮了!

姚晨這是把老公熬成爹的節奏,她自己倒是越來越年輕漂亮了!

阿廢冷眼觀察所
2025-04-07 15:40:29
每體:C羅有意收購瓦倫西亞,前提是球隊本賽季保級成功

每體:C羅有意收購瓦倫西亞,前提是球隊本賽季保級成功

懂球帝
2025-04-08 17:13:18
網傳某新能源汽車銷售人員邀約客戶清明節提車!引發客戶雷霆發怒

網傳某新能源汽車銷售人員邀約客戶清明節提車!引發客戶雷霆發怒

火山詩話
2025-04-07 08:40:01
深圳公寓也暴跌了

深圳公寓也暴跌了

小蔡觀房
2025-04-07 17:53:42
庫里防守遭遇與歷史巨星比較,他真的是超級巨星嗎?

庫里防守遭遇與歷史巨星比較,他真的是超級巨星嗎?

阿雄侃籃球
2025-04-08 23:40:03
2025-04-09 00:20:50
36氪 incentive-icons
36氪
讓一部分人先看到未來
147760文章數 2844768關注度
往期回顧 全部

科技要聞

iPhone在美會賣2萬元上嗎?在中國會漲價嗎

頭條要聞

25歲"世紀嬰兒"千千去世鑒定結果已出 母親發聲

頭條要聞

25歲"世紀嬰兒"千千去世鑒定結果已出 母親發聲

體育要聞

100%當選狀元,但弗拉格不想進NBA?

娛樂要聞

尷尬!甲亢哥想聯動大張偉,卻被迫錄節目

財經要聞

"中國版平準基金"橫空出世 央行表態

汽車要聞

一季度車企銷量:下沉與上行,覺醒與迷惘

態度原創

健康
本地
時尚
家居
公開課

在中國,到底哪些人在吃“偉哥”?

本地新聞

云游中國|更好濰坊,更好的家

別再披頭散發了!今春流行“奶奶發飾”,好看巨顯臉小

家居要聞

現代風格 年輕簡約

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 河池市| 阿图什市| 门源| 靖边县| 开鲁县| 丹棱县| 秦皇岛市| 三原县| 康平县| 阿克苏市| 江城| 长兴县| 湖州市| 柳林县| 天气| 鄂温| 宽甸| 周至县| 天镇县| 洛川县| 桐梓县| 绥阳县| 富平县| 蓝山县| 南涧| 育儿| 蒲城县| 朔州市| 刚察县| 滦南县| 锡林郭勒盟| 东城区| 许昌市| 太仆寺旗| 名山县| 凤凰县| 新平| 遂溪县| 许昌市| 乐都县| 鄂托克旗|