99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

“喂”給人工智能的真實數(shù)據(jù)終將耗盡,合成數(shù)據(jù)能否讓AI模型精確可靠?

0
分享至


圖片來源:物理學(xué)家組織網(wǎng)

人工智能(AI)初創(chuàng)公司xAI創(chuàng)始人埃隆·馬斯克近日表示:“在AI訓(xùn)練中,我們現(xiàn)在基本上耗盡了人類知識的累積總和。”之前研究也表明,人類生成的真實數(shù)據(jù)將在2到8年內(nèi)消耗殆盡。鑒于真實數(shù)據(jù)日益稀缺,為滿足AI的“胃口”,科技行業(yè)正轉(zhuǎn)向使用合成數(shù)據(jù)。

澳大利亞“對話”網(wǎng)站在本月稍早時間報道中指出,合成數(shù)據(jù)具有諸多優(yōu)勢,但過度依賴合成數(shù)據(jù)也可能削弱AI的精確性和可靠性。

合成數(shù)據(jù)應(yīng)運而生

以往,科技公司主要依賴真實數(shù)據(jù)來構(gòu)建、訓(xùn)練和改進AI模型。真實數(shù)據(jù)是指由人類創(chuàng)建的文本、視頻和圖像。它們通過調(diào)查、實驗、觀察或挖掘網(wǎng)站和社交媒體等途徑被收集而來。

真實數(shù)據(jù)因蘊含真實事件以及其場景和背景而極具價值,但其并非盡善盡美。它可能摻雜拼寫錯誤、不一致或無關(guān)的內(nèi)容,甚至潛藏嚴重偏見,導(dǎo)致生成式AI模型在某些情況下創(chuàng)建的圖像僅展示男性或白人形象。

但真實數(shù)據(jù)日益匱乏,因為人類生成數(shù)據(jù)的速度趕不上AI不斷增長的需求。

美國開放人工智能研究中心聯(lián)合創(chuàng)始人伊利亞·蘇茨克維爾在去年12月舉行的機器學(xué)習(xí)會議上聲稱,AI行業(yè)已觸及他所稱的“數(shù)據(jù)峰值”,AI的訓(xùn)練數(shù)據(jù)如同化石燃料一樣面臨著耗盡的危機。此外,有研究預(yù)測,到2026年,ChatGPT等大型語言模型的訓(xùn)練將耗盡互聯(lián)網(wǎng)上所有可用文本數(shù)據(jù),屆時將沒有新的真實數(shù)據(jù)可供使用。

為給AI提供充足的“養(yǎng)分”,一種由算法生成的、模仿真實世界情況的數(shù)據(jù)——合成數(shù)據(jù)應(yīng)運而生。合成數(shù)據(jù)是在數(shù)字世界中創(chuàng)造的,而非從現(xiàn)實世界收集或測量而來。它可以作為真實世界數(shù)據(jù)的替代品,來訓(xùn)練、測試、驗證AI模型。

從理論上來說,合成數(shù)據(jù)為訓(xùn)練AI模型提供了一種經(jīng)濟高效且快捷的解決方案。它有效解決了AI訓(xùn)練使用真實數(shù)據(jù)時飽受詬病的隱私問題和道德問題,尤其是涉及個人健康數(shù)據(jù)等敏感信息時。更重要的是,與真實數(shù)據(jù)不同,合成數(shù)據(jù)在理論上可以無限供應(yīng)。

研究機構(gòu)高德納公司估計,2024年AI及分析項目使用的數(shù)據(jù)中,約60%是合成數(shù)據(jù)。到2030年,AI模型使用的絕大部分數(shù)據(jù)將是由AI生成的合成數(shù)據(jù)。

科技公司來者不拒

事實上,微軟、元宇宙平臺公司,以及Anthropic等眾多科技頭部企業(yè)和初創(chuàng)企業(yè),已經(jīng)開始廣泛使用合成數(shù)據(jù)來訓(xùn)練其AI模型。

例如,微軟在1月8日開源的AI模型“Phi-4”,便是合成數(shù)據(jù)攜手真實數(shù)據(jù)訓(xùn)練的;谷歌的“Gemma”模型也采用了類似方法。Anthropic公司也利用部分合成數(shù)據(jù),開發(fā)出其性能最優(yōu)異的AI系統(tǒng)之一“Claude 3.5 Sonnet”。蘋果自研AI系統(tǒng)Apple Intelligence,在預(yù)訓(xùn)練階段,也大量使用了合成數(shù)據(jù)。

隨著科技公司對合成數(shù)據(jù)的需求與日俱增,生產(chǎn)合成數(shù)據(jù)的工具也接踵而至。

英偉達公司發(fā)布的3D仿真數(shù)據(jù)生成引擎Omniverse Replicator,能夠生成合成數(shù)據(jù),用于自動駕駛汽車和機器人訓(xùn)練。去年6月,英偉達開源了Nemotron-4340b系列模型,開發(fā)者可使用該模型生成合成數(shù)據(jù),用于訓(xùn)練大型語言模型,以應(yīng)用于醫(yī)療保健、金融、制造、零售等行業(yè)。在醫(yī)療、金融等專業(yè)領(lǐng)域,該模型能夠根據(jù)特定需求生成高質(zhì)量的合成數(shù)據(jù),幫助構(gòu)建更為精準的行業(yè)專屬模型。微軟推出的開源合成數(shù)據(jù)工具Synthetic Data Showcase則旨在通過生成合成數(shù)據(jù)和用戶界面,實現(xiàn)隱私保護的數(shù)據(jù)共享和分析。亞馬遜云科技推出的Amazon SageMaker Ground Truth也能為用戶生成數(shù)十萬張自動標記的合成圖像。

此外,去年12月,元宇宙平臺公司推出開源大模型Llama 3.3,更是大幅降低了生成合成數(shù)據(jù)的成本。

過度依賴風(fēng)險難測

盡管合成數(shù)據(jù)暫時解決了AI訓(xùn)練的燃眉之急,但它也并非盡善盡美。

一個關(guān)鍵問題在于:當AI模型過于依賴合成數(shù)據(jù)時,它們可能會“崩潰”。它們會產(chǎn)生更多“幻覺”,編造看似合理可信但實際上并不存在的信息。而且,AI模型的質(zhì)量和性能也會飛速下降,甚至無法使用。例如,某個AI模型生成的數(shù)據(jù)出現(xiàn)了一些拼寫錯誤,利用這些充滿了錯誤的數(shù)據(jù)訓(xùn)練其他模型,這些AI模型必定會“以訛傳訛”,導(dǎo)致更大的錯誤。

此外,合成數(shù)據(jù)也存在過于簡單化的風(fēng)險。它可能缺乏真實數(shù)據(jù)集蘊含的細節(jié)和多樣性,這可能導(dǎo)致在其上訓(xùn)練的AI模型的輸出也過于簡單,缺乏實用性。

為解決這些問題,國際標準化組織需要著手創(chuàng)建強大的系統(tǒng),來跟蹤和驗證AI訓(xùn)練數(shù)據(jù)。此外,AI系統(tǒng)可以配備元數(shù)據(jù)追蹤功能,讓用戶或系統(tǒng)能對合成數(shù)據(jù)進行溯源。人類也需要在AI模型的整個訓(xùn)練過程中對合成數(shù)據(jù)進行監(jiān)督,以確保其高質(zhì)量且符合道德標準。

AI的未來在很大程度上取決于數(shù)據(jù)的質(zhì)量,合成數(shù)據(jù)將在克服數(shù)據(jù)短缺方面發(fā)揮越來越重要的作用。對合成數(shù)據(jù)的使用,人們必須保持謹慎態(tài)度,盡量減少錯誤,確保其作為真實數(shù)據(jù)的可靠補充,從而保障AI系統(tǒng)的準確性和可信度。

來源: 科技日報 記者 劉霞


全國衛(wèi)生產(chǎn)業(yè)企業(yè)管理協(xié)會轉(zhuǎn)化醫(yī)學(xué)產(chǎn)業(yè)分會(以下簡稱分會)是全國衛(wèi)生產(chǎn)業(yè)企業(yè)管理協(xié)會(以下簡稱總會)的分支機構(gòu)。全國衛(wèi)生產(chǎn)業(yè)企業(yè)管理協(xié)會是由原國家衛(wèi)生部申報,國家民政部登記批準,1992年10月成立。由從事衛(wèi)生健康企事業(yè)單位和科研、管理等人員自愿結(jié)成的全國性、行業(yè)性、非營利性,具有獨立法人資格的國家一級社會團體。登記管理機關(guān)是國家民政部,黨建領(lǐng)導(dǎo)機關(guān)是中央和國家機關(guān)工作委員會,業(yè)務(wù)指導(dǎo)單位是國家衛(wèi)生健康委員會。協(xié)會宗旨:堅持“護佑健康、發(fā)展產(chǎn)業(yè)、誠信創(chuàng)新、服務(wù)社會”,推進衛(wèi)生健康事業(yè)、產(chǎn)業(yè)企業(yè)發(fā)展,為國家經(jīng)濟建設(shè)和人民健康服務(wù)。CCTMIS(全國衛(wèi)生產(chǎn)業(yè)企業(yè)管理協(xié)會轉(zhuǎn)化醫(yī)學(xué)產(chǎn)業(yè)分會)致力打造一個“產(chǎn)學(xué)研醫(yī)、協(xié)同創(chuàng)新”的平臺,目前協(xié)會有超過4000個會員,其中超過半數(shù)為臨床專家型醫(yī)生!

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
歐文祝賀獨行俠取勝:今晚干得漂亮,無論如何我們要團結(jié)一致

歐文祝賀獨行俠取勝:今晚干得漂亮,無論如何我們要團結(jié)一致

懂球帝
2025-04-17 14:47:30
網(wǎng)紅小貓“悟空”去世后續(xù):意外殞命,未做絕育,主人發(fā)聲遭網(wǎng)暴

網(wǎng)紅小貓“悟空”去世后續(xù):意外殞命,未做絕育,主人發(fā)聲遭網(wǎng)暴

南南說娛
2025-04-16 18:25:22
CBA又要開罰單了?山西頂風(fēng)作案恐遭處罰:球迷辱罵聲貫徹全場?

CBA又要開罰單了?山西頂風(fēng)作案恐遭處罰:球迷辱罵聲貫徹全場?

籃球快餐車
2025-04-17 00:25:19
夫妻最不合的屬相,在一起爭吵不斷,互相不順眼

夫妻最不合的屬相,在一起爭吵不斷,互相不順眼

顧一宸
2025-04-11 21:58:59
溫情時刻!28歲浙江外援布彭扎離世,申花球迷在第28分鐘亮燈悼念

溫情時刻!28歲浙江外援布彭扎離世,申花球迷在第28分鐘亮燈悼念

直播吧
2025-04-16 22:05:45
官宣退出,劉曉宇發(fā)聲,深夜送醫(yī),退役或和最美女友辦婚禮

官宣退出,劉曉宇發(fā)聲,深夜送醫(yī),退役或和最美女友辦婚禮

東球弟
2025-04-17 12:56:53
60票對25票,美參議院表決出爐,中美若爆發(fā)沖突,結(jié)局難逃8個字

60票對25票,美參議院表決出爐,中美若爆發(fā)沖突,結(jié)局難逃8個字

獵火照狼山
2025-04-14 13:45:08
摩托車將在華消亡!一紙禁令惹千萬摩友震怒!中國為啥全面禁摩?

摩托車將在華消亡!一紙禁令惹千萬摩友震怒!中國為啥全面禁摩?

河山銳新聞
2025-04-17 10:36:23
廣東廉江一家3口被殺,媽媽很漂亮,兇手身份被扒,知情人曝內(nèi)情

廣東廉江一家3口被殺,媽媽很漂亮,兇手身份被扒,知情人曝內(nèi)情

阿纂看事
2025-04-17 08:18:20
案例:一校花被16名老漢接濟長大,細節(jié)曝光后,禽獸真的存在

案例:一校花被16名老漢接濟長大,細節(jié)曝光后,禽獸真的存在

清茶淺談
2025-01-15 10:53:22
關(guān)稅壓力下 臺積電亞利桑那工廠訂單不斷 4nm制程價格將上調(diào)30%

關(guān)稅壓力下 臺積電亞利桑那工廠訂單不斷 4nm制程價格將上調(diào)30%

cnBeta.COM
2025-04-16 19:43:18
掘金主帥:如果萊昂納德沒受傷,他將是歷史最佳球員之一

掘金主帥:如果萊昂納德沒受傷,他將是歷史最佳球員之一

懂球帝
2025-04-17 10:40:25
DeepSeek建議:成為強者的8個核心法則,有兩個就很厲害

DeepSeek建議:成為強者的8個核心法則,有兩個就很厲害

洞見
2025-04-16 22:23:18
淘寶沖上美國App下載榜第二

淘寶沖上美國App下載榜第二

界面新聞
2025-04-16 11:53:34
特斯拉宣布停售!美國車全線崩潰,這就是關(guān)稅的藝術(shù)?

特斯拉宣布停售!美國車全線崩潰,這就是關(guān)稅的藝術(shù)?

51qc我要汽車網(wǎng)
2025-04-16 20:32:21
雷雨+37℃,熟悉的配方!廣東今年首輪高溫天氣即將登場→

雷雨+37℃,熟悉的配方!廣東今年首輪高溫天氣即將登場→

魯中晨報
2025-04-17 08:59:01
別買也別喝,嚴重可致死,已有多家店鋪被查封,家里有的趕緊扔

別買也別喝,嚴重可致死,已有多家店鋪被查封,家里有的趕緊扔

博學(xué)老K雜談
2025-03-31 13:30:03
打響第一槍!“臺獨”李延賀被抓,竟然還是大陸人

打響第一槍!“臺獨”李延賀被抓,竟然還是大陸人

靚仔情感
2025-04-11 15:04:51
46歲上海大哥腎衰竭,經(jīng)常跑步愛喝茶,醫(yī)生嘆息:無知害了他

46歲上海大哥腎衰竭,經(jīng)常跑步愛喝茶,醫(yī)生嘆息:無知害了他

每日一首古詩詞
2025-03-22 07:13:57
“80后”胡勇出任上海靜安區(qū)副區(qū)長

“80后”胡勇出任上海靜安區(qū)副區(qū)長

澎湃新聞
2025-04-17 13:20:26
2025-04-17 15:11:00
全國衛(wèi)管協(xié)會轉(zhuǎn)化醫(yī)學(xué)產(chǎn)業(yè)分會 incentive-icons
全國衛(wèi)管協(xié)會轉(zhuǎn)化醫(yī)學(xué)產(chǎn)業(yè)分會
轉(zhuǎn)化醫(yī)學(xué)分會平臺
12419文章數(shù) 16692關(guān)注度
往期回顧 全部

科技要聞

余承東大講安全,絕口不提智駕"替你開車"

頭條要聞

多地現(xiàn)"1元秒殺10個雞蛋"騙局:有老人為此花了幾萬

頭條要聞

多地現(xiàn)"1元秒殺10個雞蛋"騙局:有老人為此花了幾萬

體育要聞

楊瀚森參加NBA選秀 與詹姆斯同一家經(jīng)紀公司

娛樂要聞

丁真官宣“新身份”謝霆鋒眼光有多絕

財經(jīng)要聞

特朗普吹牛 美國海關(guān)“打臉”

汽車要聞

一躍跳過障礙/秒切防御姿態(tài) 看懂嵐圖"開掛"絕技

態(tài)度原創(chuàng)

藝術(shù)
游戲
親子
家居
教育

藝術(shù)要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

朱開被IG老板開團,堅稱從未被開除!遭網(wǎng)友懟臉:先跟Meiko道歉

親子要聞

老公這老毛病又犯了,趕集看見美女,眼珠子都快掉出來了

家居要聞

現(xiàn)代極簡 舒適與美觀并存

教育要聞

絕對不能隱瞞父母的四件事!關(guān)乎孩子的安全!

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 洛浦县| 姜堰市| 香格里拉县| 正蓝旗| 碌曲县| 荥经县| 怀柔区| 留坝县| 高碑店市| 六盘水市| 洮南市| 铅山县| 师宗县| 津南区| 菏泽市| 保康县| 佛学| 新密市| 冕宁县| 迁安市| 萍乡市| 红安县| 河源市| 四会市| 修文县| 札达县| 宣恩县| 吐鲁番市| 柞水县| 萨嘎县| 澎湖县| 灵寿县| 大城县| 安西县| 定结县| 井研县| 民权县| 故城县| 庆云县| 沁水县| 陆河县|