近日,據科技新聞網站 Wired 援引消息人士的話報道,英偉達以九位數美元的價格收購了一家合成數據初創公司 Gretel。
(來源:Wired)
消息人士稱,此次收購價格超過了 Gretel 最近一次 3.2 億美元的估值(由此可知交易金額在 3.2-10 億美元之間),不過具體的收購條款尚未公開。
與此同時,Gretel 公司的約 80 名員工將被并入英偉達,而該公司的技術將成為英偉達基于云的生成式 AI 服務套件的一部分,為開發者提供支持。
對于此次的收購交易,英偉達和 Gretel 公司的發言人均未做出回應。
基于模型微調生成合成數據
Gretel 公司成立于 2019 年,總部位于美國加利福尼亞州圣地亞哥,由 Ali Golshan、John Myers、Laszlo Bock 和 Alex Watson 聯合創立,其中 Ali Golshan 擔任公司 CEO。
據 Pitchbook 統計數據顯示,在被英偉達收購之前,Gretel 已經獲得了超過6,700 萬美元的投資,投資機構包括 Moonshots Capital、Greylock、Anthos Capital 等。
作為一家合成數據開發商,Gretel 為開發者提供了合成數據平臺及 API,旨在幫助那些希望構建生成式 AI 模型但缺乏足夠訓練數據或對使用真實人物數據存在隱私顧慮的開發者。
(來源:Gretel)
技術層面,Gretel 采用對開源模型(比如 LLaMA、Stable Diffusion 等)進行針對性微調的技術路線,通過添加隱私保護層和差異化功能模塊,生成滿足特定行業需求的合成數據。比如,通過調整模型參數生成金融、醫療等領域的匿名化數據,解決敏感信息泄露風險。
其核心技術包含差分隱私、數據匿名化等模塊,可在生成數據時自動剝離敏感信息,滿足 HIPAA、GDPR 等法規要求。比如,在醫療數據生成中通過混淆患者身份信息生成可用于模型訓練的非敏感數據集。
需要注意的是,Gretel 的技術路線并不依賴自研前沿模型,而是通過微調現有模型并疊加專有技術(比如訪問權限控制、動態數據脫敏等)并將這些模型打包出售,進而降低技術開發成本,能夠快速適配行業需求。
Gretel 支持生成文本、表格、圖像等多種數據形式,并通過統計方法或生成式 AI 模擬真實數據特征,確保合成數據在質量與分布上與真實數據高度接近。
與此同時,Gretel 也提供 API 接口,讓開發者自定義數據生成規則(比如模擬極端場景、調整數據分布等),提升生成數據的實用性和多樣性。
通過收購補齊“AI 全?!鄙鷳B的數據層
AI 發展的三大要素是算力、算法和數據。大模型性能表現不斷刷新全球認知的背后,除了算法的演進、算力的提升,數據(尤其是高質量數據)始終是繞不開的話題。很大程度上,沒有海量數據的“投喂”就不會有大模型的出色表現。
然而,真實世界數據正在逐漸枯竭。正如 OpenAI 聯合創始人兼前首席科學家 Ilya Sutskever 此前所指出的,“算力在增長,但數據卻沒有增長,因為我們只有一個互聯網。數據就好比化石燃料,而燃料終將耗盡。”
就在目前正在舉辦的英偉達 GTC 2025 開發者大會上,聯合創始人兼 CEO 黃仁勛在主題演講中也提到,行業在快速且成本有效地擴大 AI 規模方面所面臨的挑戰?!笆紫龋瑪祿栴},即從哪里以及如何創建必要的數據來訓練 AI 模型;其次,模型架構;最后,擴展法則?!彼f道。
(來源:英偉達)
合成數據,已被視為緩解 AI 行業數據稀缺問題的關鍵方案。
所謂合成數據(Synthetic Data),即由計算機生成的數據,可以通過模型和算法創建,用于補充或替代自現實世界中采集的真實數據。
借助合成數據,可以讓構建 AI 模型所需的數據生成過程更加可擴展、勞動密集度更低,并且對于較小或資源較少的 AI 開發者來說更加易于獲取。理論層面,合成數據可以創造近乎無限的 AI 訓練數據來源。除此之外,隱私保護也是合成數據的一大優勢,這對于醫療、銀行以及政府機構等行業非常適用。
比如,在自動駕駛領域,合成數據可模擬復雜路況、極端天氣等長尾場景,加速自動駕駛算法的迭代,減少實地測試成本。
再比如,一家醫院希望構建一個用于追蹤某種類型癌癥的 AI 模型,但只有來自 1,000 名患者的少量數據集,那么就可以使用合成數據來補充數據集、消除偏差,并對真實人類的數據進行匿名化處理,從而實現更好的隱私保護。
看到這里,那英偉達為什么要收購這樣一家公司呢?簡單總結一句話就是:補齊自家“AI 全棧”生態的數據層。
Gretel 專注于為開發者提供合成數據平臺及 API,通過微調開源模型并添加隱私保護功能,解決 AI 訓練中真實數據不足或隱私敏感性問題。收購 Gretel 后有望補足英偉達在合成數據生成領域的布局,與其已有工具形成協同,完善從硬件到軟件、數據系統的“AI 全?!鄙鷳B鏈。
通過整合 Gretel 的合成數據技術,英偉達可直接為開發者提供高質量訓練數據,緩解大模型對真實數據的依賴,尤其適用于隱私敏感領域(比如金融、醫療等),解決生成式 AI 數據瓶頸,并增強開發者服務能力。
要知道,英偉達近年來為開發者提供不少合成數據工具。比如,在 2022 年推出的合成數據工具 Omniverse Replicator,此次通過收購 Gretel,結合其技術平臺能強化從 2D 到 3D、從單一模態到多模態的完整數據生成體系。
除此之外,Gretel 的 API 接口和微調能力可無縫接入英偉達的生成式 AI 服務套件,幫助開發者快速構建行業定制化模型,進而降低 AI 開發門檻。
隨著真實世界數據日漸枯竭,大型科技公司也都在轉向合成數據,包括 Meta、OpenAI、Anthropic 以及微軟等巨頭早已開始使用合成數據來訓練 AI 模型。
比如,Meta 使用合成數據訓練其先進的大語言模型 Llama 3,其中不少數據是由前一代模型 Llama 2 生成的;微軟的 Phi-3 小語言模型部分基于合成數據進行訓練。
隨著 Meta、微軟等巨頭紛紛加速布局合成數據,英偉達通過收購 Gretel 進一步鞏固技術優勢,可為硬件(比如 H100/H200 GPU)和軟件生態提供差異化競爭力。
參考資料:
1.https://www.wired.com/story/nvidia-gretel-acquisition-synthetic-training-data/
2.https://gretel.ai/
3.https://gretel.ai/blog
4.https://gretel.ai/navigator
5.https://gretel.ai/tabular-fine-tuning
6.https://gretel.ai/solutions/safe-data-sharing
7.https://gretel.ai/solutions/improve-ml-robustness
8.https://gretel.ai/solutions/power-generative-ai
運營/排版:何晨龍
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.