99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

AI訓練數(shù)據耗盡,這家數(shù)據標注公司為何暴漲?丨氪金·硬科技

0
分享至


作者 |耿宸斐

編輯|宋婉心

封面來源|視覺中國

“數(shù)據標注”是伴隨AI進程誕生的重要的產業(yè)鏈一環(huán)。尤其在大模型問世后,數(shù)據標注行業(yè)規(guī)模極速擴張,但隨著大模型迭代,作為勞動密集型行業(yè),數(shù)據標注又不斷被市場重估。

美股市場的頭部數(shù)據標注公司Innodata是這一過程的一個典型縮影。

近一年以來,Innodata股價漲幅高達432%。最新財報顯示,2024全年Innodata營收同比大漲96.44%,且8家大客戶中,有5家來自美股七巨頭。

不過穩(wěn)健的基本面擋不住市場預期的調整。DeepSeek發(fā)布后,市場對用于訓練的公開數(shù)據的需求開始產生懷疑,Innodata股價因此產生波動,尤其在三月,公司股價下跌了超30%。

對于這家公司,目前市場聲音分歧較大。

看空者認為在過去十年中,Innodata僅盈利了兩次,因此股價飆升是沒有道理的,而看多者則認為,因為大模型現(xiàn)在的情況已經不同,Innodata已將業(yè)務模式轉向了大模型的數(shù)據清理。


價值重估

數(shù)據標注行業(yè)的第一次高光時刻,是來自自動駕駛的發(fā)展。在大模型出現(xiàn)之前,德勤報告顯示,2022年自動駕駛領域的標注需求占整個AI下游應用的38%。

而大模型對數(shù)據標注的需求提升到了另一個量級。

“如果不是大模型出現(xiàn),就算是干成自動駕駛行業(yè)數(shù)據標注龍頭的Scale AI,在2023年之前,其年收入也就1億至2億美金。而到了2024年,Scale AI全年的ARR預計在12-14億美金,比2022年翻了7倍左右。”有投資者表示。

大模型行業(yè)的Scaling Law理論認為,模型性能與模型參數(shù)量、訓練數(shù)據量和計算資源相關。以GPT-4為例,其參數(shù)量從GPT-3的約1750億提升至約1.8萬億,而訓練數(shù)據集的規(guī)模也從GPT-3的幾千億Token擴大到13萬億Token。

業(yè)務集中在數(shù)據工程領域的Innodata,吃到了大模型賣鏟人的大量紅利。

最新財報顯示,Innodata的最大客戶授予該公司價值約2400萬美元的額外合同,使來自該客戶的總年化運營收入達到約1.35億美元。

除了該最大客戶之外,來自Innodata的另外七家大型科技公司客戶的收入,在第四季度環(huán)比增長了159%。

從近期業(yè)績看,Innodata的收入增長明顯加速。2024年一至四季度,該公司營收的同比增速分別為40.7%、65.6%、135.6%和126.6%。而且Innodata預計,2025年公司收入增長將超過40%。

不過,如今大模型行業(yè)擴張期過去之后,數(shù)據標注行業(yè)的矛盾已經開始浮現(xiàn)——即將耗盡的數(shù)據難以支撐模型迭代與與大模型落地等所帶來的訓練需求。

Epoch AI的研究估計,自2020年以來,用于訓練大語言模型的數(shù)據增長了100倍,且AI訓練數(shù)據集的規(guī)模每年翻倍。然而,互聯(lián)網可用內容每年的增長卻不足10%。到2028年,AI訓練數(shù)據很可能耗盡。

事實上,數(shù)據不足所造成的發(fā)展瓶頸已經是行業(yè)中的普遍現(xiàn)象。去年11月,The Information爆料稱,OpenAI下一代旗艦模型Orion改進大幅放緩,一個主要原因正是高質量訓練數(shù)據的短缺。

行業(yè)共識是,目前通用數(shù)據的供給已接近飽和,垂類數(shù)據將是未來AI模型差異化的關鍵。


DeepSeek淘汰數(shù)據標注?

作為美股市場上僅有的AI數(shù)據標注標的,Innodata的“AI含量”至今仍飽受質疑。

早在2019年,Innodata就宣稱自己開始實施人工智能和機器學習流程,并將自己劃為一家人工智能公司。但去年2月, Wolfpack Research發(fā)布的一份報告稱,Innodata是在拿AI炒作股價,其核心業(yè)務仍是依靠海外廉價勞動力進行基礎數(shù)據標注,而非自主研發(fā)的AI技術。

報告引用前員工說法,稱公司為硅谷客戶提供的服務本質是“鍵盤勞動”。

“Innodata的商業(yè)模式上就是基于人力外包的數(shù)據標注,賺一份血汗錢。和同業(yè)的差異只是他們干得最久,做得最大。”有投資者評價,“技術只能讓數(shù)據標注更快,要讓數(shù)據標注更好,現(xiàn)在只能靠人。

據智研咨詢報告,盡管已經有數(shù)據標注公司開發(fā)了相應的半自動化工具,但從標注比例來看,機器標注和人工標注的比例約為3:7。

Innodata的財報數(shù)據也側面印證了這一現(xiàn)實。僅在2024年第二季度,Innodata就花費了360萬美元的招聘代理費,這表明公司仍舊非常依賴人力。

業(yè)內人士告訴36氪,這主要是由于數(shù)據標注的復雜性和多樣性,以及不同領域的數(shù)據標注要求不同。此外,自動化標注技術在現(xiàn)階段還存在一定的局限性,如對某些類型的數(shù)據的識別準確率不高、對復雜場景的處理能力有限等。

但DeepSeek一定程度上改寫了數(shù)據需求的邏輯。

技術層面來看,簡單而言,DeepSeek采用的強化學習(RL)技術,讓大模型不再需要被不斷喂養(yǎng)模型外的新數(shù)據,只用模型內已存在的數(shù)據即可進行自我訓練。

這一方面降低了大模型廠商對數(shù)據量的需求,另一方面,全聯(lián)并購工會信用管理委員會專家安光勇認為,企業(yè)出于開源節(jié)流的考慮,有可能會傾向于低成本合成數(shù)據。這也會在一定程度上沖擊Innodata等數(shù)據標注企業(yè)。

關于DeepSeek沖擊的質疑,財報電話會上,Innodata管理層表示,他們相信,預訓練數(shù)據和微調數(shù)據對AGI發(fā)展而言是無法替代的。

在他們看來,DeepSeek依賴以現(xiàn)有模型數(shù)據訓練新模型,會極大地壓縮數(shù)據,最終導致模型崩潰。

從市場質疑聲音來看,Innodata可持續(xù)增長的不確定性來源于兩點,一是數(shù)據標注需求是否持續(xù)增長,二是標注工作是否持續(xù)低自動化。

針對前者,科技部國家科技專家周迪告訴36氪,合成數(shù)據的適用邊界在于它更適合于生成新的、用于訓練模型的數(shù)據,而人工標注則更適合對已有數(shù)據進行深入的理解和解讀。

盡管合成數(shù)據可以提供更加一致和可控的數(shù)據,但在情感分析和文本生成等需要深度語義理解的領域,人工標注數(shù)據仍具有不可替代性。

另有投資者分析指出,隨著DeepSeek帶來的模型部署和運行的成本大幅降低,會有越來越多應用層的公司部署自己的大模型,這也會帶來額外的數(shù)據標注的需求。所以DeepSeek的出現(xiàn)對Innodata至少不會是一個利空。

但針對后者,這一問題淪為了“雞生蛋還是蛋生雞”的悖論。當市場投資者們質疑Innodata“AI含量”低時,一個可能性很大的未來是,數(shù)據標注工作的AI化會首先革掉數(shù)據標注公司自己的命。



點擊圖片即可閱讀

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
李嫣現(xiàn)身謝霆鋒演唱會,還染了黃頭發(fā)超時尚,現(xiàn)場不停給繼父拍照

李嫣現(xiàn)身謝霆鋒演唱會,還染了黃頭發(fā)超時尚,現(xiàn)場不停給繼父拍照

點點細語
2025-04-26 10:30:48
美聯(lián)社報道:美現(xiàn)任國防部長為方便使用Signal軟件 不惜翻墻偷外網

美聯(lián)社報道:美現(xiàn)任國防部長為方便使用Signal軟件 不惜翻墻偷外網

蘭妮搞笑分享
2025-04-26 15:15:00
賈平凹 :人老了,躺在病床上才明白,廢掉身體最快速的方式,不是抽煙、喝酒、打麻將,而是這2件事

賈平凹 :人老了,躺在病床上才明白,廢掉身體最快速的方式,不是抽煙、喝酒、打麻將,而是這2件事

感覺會火
2025-02-18 12:12:18
57歲鄒兆龍在云南,路邊攤吃面無人識,餓到狼吞虎咽,青筋直冒

57歲鄒兆龍在云南,路邊攤吃面無人識,餓到狼吞虎咽,青筋直冒

楊哥歷史
2025-04-24 09:19:07
紹伊古:莫斯科保留使用核武器的權利

紹伊古:莫斯科保留使用核武器的權利

財聯(lián)社
2025-04-24 14:28:23
發(fā)工資了,山東省某省直機關(公檢法)公務員工資待遇分享

發(fā)工資了,山東省某省直機關(公檢法)公務員工資待遇分享

職為您說
2025-04-26 12:15:20
蔡正元被戴電子腳銬!臺灣民進黨出手太狠了,他稱戰(zhàn)斗到死亡!

蔡正元被戴電子腳銬!臺灣民進黨出手太狠了,他稱戰(zhàn)斗到死亡!

素衣讀史
2025-04-26 14:30:02
俄本土最后一戰(zhàn),烏軍死守高地拒絕投降,俄3噸級炸彈炸平山頭

俄本土最后一戰(zhàn),烏軍死守高地拒絕投降,俄3噸級炸彈炸平山頭

龍炎校尉
2025-04-25 11:28:17
特朗普體面服軟,90國想不到,中方第1個獲降稅待遇,美安排特殊

特朗普體面服軟,90國想不到,中方第1個獲降稅待遇,美安排特殊

吳欣純Deborah
2025-04-25 16:31:07
海港,出招了!

海港,出招了!

新民晚報
2025-04-26 09:45:41
國務院同意,在福建一市設立!

國務院同意,在福建一市設立!

共青團福建省委
2025-04-26 09:55:14
小特倫特:很榮幸追平雷-阿倫紀錄 我從小就是他的球迷

小特倫特:很榮幸追平雷-阿倫紀錄 我從小就是他的球迷

北青網-北京青年報
2025-04-26 16:20:02
遼寧男女一夜情,“男子尺寸過大導致女子死亡”事件,真相曝光~

遼寧男女一夜情,“男子尺寸過大導致女子死亡”事件,真相曝光~

書畫藝術收藏
2025-03-15 19:15:05
去了一趟朝鮮才知道,網上流傳的都是假的,這些才是真實的朝鮮

去了一趟朝鮮才知道,網上流傳的都是假的,這些才是真實的朝鮮

冬天來旅游
2025-04-19 01:37:52
謝霆鋒香港演唱會第二場,謝賢到場觀看,3個彩蛋甜蜜告白王菲

謝霆鋒香港演唱會第二場,謝賢到場觀看,3個彩蛋甜蜜告白王菲

情感大頭說說
2025-04-26 10:02:18
這一次,公開示愛王菲的謝霆鋒,真是沒有給前妻張柏芝留一點體面

這一次,公開示愛王菲的謝霆鋒,真是沒有給前妻張柏芝留一點體面

博覽歷史
2025-04-26 15:13:48
副廳級市長傅晟,另有任用

副廳級市長傅晟,另有任用

魯中晨報
2025-04-26 13:48:04
每天放屁數(shù)十次,27歲女生確診癌癥!醫(yī)生提醒:有種屁千萬別忽視

每天放屁數(shù)十次,27歲女生確診癌癥!醫(yī)生提醒:有種屁千萬別忽視

詩詞中國
2025-04-26 14:43:29
北大一女博士說破股市:一輩子死記一個指標就夠了,掙千萬家財

北大一女博士說破股市:一輩子死記一個指標就夠了,掙千萬家財

新浪財經
2025-04-18 17:49:11
深圳殉情男子遺書稱想與妻子合葬 岳母:連女兒的牙刷他都不舍得丟 想不到他深情到這個地步

深圳殉情男子遺書稱想與妻子合葬 岳母:連女兒的牙刷他都不舍得丟 想不到他深情到這個地步

閃電新聞
2025-04-26 10:42:31
2025-04-26 16:31:00
36氪財經 incentive-icons
36氪財經
尋找下一支十倍股。
597文章數(shù) 146關注度
往期回顧 全部

科技要聞

李斌:對蔚來公司四季度盈利非常有信心

頭條要聞

男子炒股11年賺6000萬:初始本金150萬 曾1天虧1100萬

頭條要聞

男子炒股11年賺6000萬:初始本金150萬 曾1天虧1100萬

體育要聞

去更大的舞臺追夢 專訪中國男籃國手楊瀚森

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續(xù)航100公里 探訪華為兆瓦超充站

態(tài)度原創(chuàng)

藝術
健康
教育
公開課
軍事航空

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

唇皰疹和口腔潰瘍是"同伙"嗎?

教育要聞

“紅領巾”探秘“航空藍”

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

印巴交火 從“斷水”到“反制”

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 宁津县| 肃南| 晴隆县| 镇江市| 蓬安县| 库车县| 达日县| 神池县| 资源县| 易门县| 巴马| 扶余县| 慈溪市| 开阳县| 普兰店市| 民权县| 安新县| 唐山市| 杨浦区| 虹口区| 镇雄县| 光山县| 新民市| 怀来县| 三亚市| 湛江市| 横峰县| 抚顺县| 遵义市| 青冈县| 昌黎县| 德州市| 综艺| 察雅县| 宾阳县| 乌兰浩特市| 边坝县| 通化县| 舟曲县| 孝感市| 新巴尔虎右旗|