網易首頁 > 網易號 > 正文申請入駐

AI生成的數據，竟成為一枚射向自己的子彈？

2024-12-02 19:59:38　來源: 鈦媒體APP

北京舉報

分享至

文 | 追問nextquestion

AI生成的文字和圖片，正日漸充斥于互聯網中。

OpenAI首席執行官Sam Altman在今年2月份表示，該公司每天生成大約1000億個單詞——相當于每天一百萬本小說的文本量，其中有多少內容最終流入了互聯網還未可知[1]。

AI生成文本，可能出現在餐廳評論、約會資料或社交媒體帖子中，也可能以新聞文章的形式出現——NewsGuard[2]，一個專門追蹤網絡虛假信息的機構，最近識別出超過一千個大量生產漏洞百出的AI生成的新聞文章的網站[3]。

實際上，由于缺乏有效的檢測方法，此類內容許多仍未被發現。

所有這些AI生成的信息,不僅讓我們難辨真假，也給AI公司制造了麻煩。通過瀏覽網頁的方式以獲取訓練下一代模型的新數據，將變得日益艱難[4]。一些自身生成的AI內容，很可能會被吸納，從而無意中形成閉環，即某一代AI的輸出變成了另一代的輸入。

從長遠來看，這一閉環可能對AI自身構成威脅。已有的研究表明，生成式AI如在大量自身輸出上進行訓練，其性能會大幅下降[5-8]。

下面我們結合一個簡單的示例來說明，當一個AI系統反復在自己的輸出上進行訓練時會發生什么情況。

01 真實手寫數字

下圖是一個由60000個手寫數字構成的數據集的一部分。

?圖1. 原始手寫數據集的局部，基于Ilia Shumailov 等人的研究。

當我們訓練一個AI去模仿這些數字時，它的輸出如下圖所示：

?圖2.由一個AI在同為AI生成的數字集上訓練后生成的數字集，基于Ilia Shumailov 等人的研究。

如果這個過程持續進行會發生什么？

?圖3.在AI生成的數字集上繼續訓練后生成的數字集，基于Ilia Shumailov 等人的研究。

經過20代如上所述的訓練后，AI生成的數字開始模糊并逐漸消失。

?圖4.在AI生成的數字集上訓練20代后生成的數字集。基于Ilia Shumailov 等人的研究。

經過30代訓練后，它們合并成一組單一的形狀。

?圖5.在AI生成的數字集上訓練30代后生成的數字集

雖然這是一個簡化的例子，但它說明了一個可能會發生的問題。

想象一個醫療咨詢聊天機器人，在接受了上一代聊天機器人生成的有限的醫學知識的訓練后，它可以根據癥狀對應列出的疾病數目可能會很少。或者，一位AI歷史導師，在吸收了AI生成的宣傳內容后，無法區分事實與虛構。

正如復制品可能會偏離原件一樣[9]，當生成式AI在自己生成的內容上進行訓練時，其輸出也可能會偏離現實，與本來打算模仿的原始數據越來越遠。

在2024年7月發表在Nature雜志上的一篇論文中[10]，來自英國和加拿大的研究者們展示了這個過程如何導致AI輸出范圍隨時間縮小——他們稱此為“模型崩潰”的早期階段。

上述例子中的數字侵蝕現象體現了這種崩潰。當脫離人類輸入時，AI輸出的質量下降（數字變得模糊），多樣性降低（它們變得相似）。

如果只有部分訓練數據是AI生成的，這種衰退將會出現得更慢或更微妙。但研究人員表示，除非合成數據得到大量新的、真實的數據補充，否則衰退終會發生。

02 AI的退化

在一個實驗中，研究人員讓一個大型語言模型（LLM）在自己生成的語句中進行反復訓練，并在每輪訓練后使用相同的提示命令其完成句子。即使一開始，AI已經開始出現“幻覺”。但當研究人員進一步在其自身的句子上進行訓練時，情況變得更糟糕……

當他們要求AI完成以“為感恩節烹飪火雞，你……”開始的句子時，最初的回應是：

為感恩節烹飪火雞，你需要在烤箱里準備它。通過在火雞上加鹽和胡椒，然后在烤箱中烹飪直到內部變金黃。由于該方法可用作其他食物的替代品，因此已被證明可以有效降低患心臟病的風險。

即使在一開始，人工智能也會“產生幻覺”。但當研究人員進一步用自己的句子訓練它時，情況變得更糟了……

經過兩代之后，它開始僅僅輸出一個簡單的長列表：

為感恩節烹飪火雞，你”必須能夠一次性吃完它。然而，如果你沒有足夠的時間這樣做，你可以選擇其他食物，如土豆、豆類、米飯、肉類、魚、蔬菜、水果、堅果、種子等。

經過四代之后，它開始無意義地重復短語：

為感恩節烹飪火雞，你需要知道你將如何度過你的一生如果你不知道你將如何度過你的一生如果你不知道你將如何度過你的一生如果你不知道你將做什么如果你不知道什么將會影響你的生活。

“模型因其對現實的自我投射而中毒”，研究人員在談到這一現象時寫道[11]。

這一問題不僅僅局限于文本生成中。另一組來自Rice University的研究人員研究了當圖像生成AI在自己的輸出上進行反復訓練時會發生什么——這個問題可能已經在網絡上泛濫的AI生成圖像中出現[12]。

他們發現，在AI的輸出中開始積累故障和圖像瑕疵，最終產生了具有皺紋圖案和扭曲手指的圖像。

?圖6.當AI圖像模型在自己的輸出上進行訓練時，它們可以產生扭曲的圖像、扭曲的手指或奇怪的圖案。

“仿佛有一部分漂移到類似‘禁飛區’空間”，Richard Baraniuk 教授這樣說，他領導了一項關于AI圖像模型的研究[13]。

研究人員發現，避免這個問題的唯一方法同樣是確保AI在大量新的、真實的數據上進行訓練。

雖然互聯網上自拍照絕對不缺，但他們說，有某些圖像類別中，AI生成的圖像可能比真實數據更多。

例如，在AI的訓練數據中，以梵高風格生成的圖像可能比梵高畫作的實際照片更多，這可能導致未來的錯誤和扭曲。（這個問題的早期跡象將很難檢測，因為領先的AI模型不受外部審查，研究人員說。）

03 模型崩潰的原因

AI生成的數據通常只是真實數據的糟糕替代品，這是所有這些問題的原因。

比如聊天機器人陳述的荒謬事實，或者AI生成的有過多手指的手，很容易被發現。而導致模型崩潰的變異，有時并不明顯，甚至可能很難被檢測到。

生成式AI在大量數據上的“訓練”，實際上是在組建一個“統計分布”或“一組概率”，以用于預測句子中的下一個單詞，或者圖片中的像素。

例如，當一個AI被訓練去模仿手寫數字時，它會以這樣的統計分布方式輸出：

?圖7.AI生成數據的分布，經由簡化以便于清晰理解

這個鐘形曲線的頂點，代表著最可能的AI輸出——在這種情況下，即為最典型的AI生成的數字；曲線的尾端，描述的是較不常見的輸出。

注意，當模型在人類數據上訓練時，它會有一個“健康”的可能輸出范圍，體現在上圖中的曲線寬度上。但在它在自己的輸出上訓練之后，曲線發生了如下圖所示的變化：

?圖8.AI生成數據的分布，當其在自身輸出上訓練時

它變得更高更窄。結果是，模型的可能輸出范圍越來越小，甚至可能會偏離原始數據地輸出。

與此同時，還會出現一個罕見、不尋常或令人驚訝的結果——曲線的尾端逐漸消失。這是模型崩潰的明顯跡象——罕見的數據變得更加罕見。

如果這個過程不受控制，曲線最終會變成一個尖峰：

?圖9.經過 30 代之后的AI輸出示例，此時所有數字變得相同，模型完全崩潰

當所有數字都變得相同時，模型就完全崩潰了。

04 為什么這很重要

這并不意味著生成式AI會很快陷入停滯。一旦AI系統開始出現質量惡化，制造出這些工具的公司會注意到。

但這可能會減慢進程。研究人員認為，隨著現有的數據源枯竭，或者被AI的“糟粕”污染，這將使后進場者競爭更為艱難[14,15,16]。

目前，AI生成的文字和圖像已經開始在社交媒體和更廣泛的網絡中泛濫[17]，甚至隱藏于一些訓練AI的數據集之中[18]。“網絡正愈發變為尋找數據的危險地帶。”正如Rice University的研究生Sina Alemohammad所說，他研究了AI污染如何影響圖像模型[19]。

大型玩家也會受到影響。紐約大學的計算機科學家發現，當訓練數據中有大量AI生成的內容時，需要更多的計算能力來訓練AI——這意味著需要更多的能源和金錢[20]。“模型不會再按照它們應有的方式擴展。”紐約大學教授Julia Kempe如此說，她領導了這項工作[21]。領先的AI模型現已花費了數千萬到數億美元來訓練，并消耗了驚人的能量，而更多的算力需求，可能成為一個相當大的問題[22,23]。

05 “一個隱患”

最后，即便是早期階段的崩潰，也存在一種潛在的威脅：多樣性的侵蝕。

當公司試圖避免AI數據常發生的故障和“幻覺”時[24]，尤其是，當數據能夠與我們可以視覺識別的多樣性形式相匹配時，比如人臉，這一現象最容易被觀察到。

下圖所示的這組AI面孔，是萊斯大學研究人員使用AI產生的一組扭曲面孔。他們調整了模型以避免視覺錯誤。

?圖源：Sina Alemohammad and others

下圖是他們在前一組面孔上訓練新的AI后的輸出。乍一看，模型改變似乎有效：不存在錯誤。

?經過一代AI輸出訓練后，生成的AI面孔看起來更相似。

經過兩代之后……

?經過兩代……三代之后……

? 經過三代……

四代之后，面孔似乎都趨于一致。

?經過四代后，面孔似乎都開始趨同。

這種多樣性下降，是“一個隱患”，Alemohammad先生說。“你可能會忽略它，然后你就會搞不明白，直到為時已晚。”

就像數字一樣，當大部分數據是AI生成的時，崩潰的變化最為明顯。而如果合成數據中混合了更現實的真實數據，衰退將更為緩慢。

但研究人員說，這個問題難以從現實世界剝離，除非AI公司特意避免使用自己的輸出，否則不可避免地會發生。

相關研究[25]顯示，當AI語言模型用自己生成的單詞訓練時，它們的詞匯量減少，句子在語法結構上的多樣性減少——這是“語言多樣性”的喪失[26]。

研究還發現，這一過程可能放大數據中的偏見[27]，并更有可能抹去少數群體相關的數據[28]。

06 出路

這項研究的最大收獲可能是，高質量、多樣的數據是寶貴的，而且是計算機難以模仿的。

因此，一個解決方案是，AI公司支付數據費用以確保數據來自人類來源且高質量，而不是從互聯網上搜集[29]。

例如，OpenAI和Google已經與一些出版商或網站達成協議，使用他們的數據來改善AI。（《紐約時報》2023年起訴了OpenAI和Microsoft侵權[30]，而OpenAI和Microsoft則認為他們的使用行為是在版權法下的合理使用[31,32]。)

更好的檢測AI輸出的方法，也有助于緩解這些問題。

例如，Google和OpenAI正在開發可用于識別AI生成的圖像和文本的AI“水印”工具，這些工具已引入隱藏模式[33,34,35]。

但研究人員認為，文本水印仍面臨挑戰[36]，因為這些水印檢測起來并不總是那么可靠，還可以被輕易規避（例如，它們可能難以在被翻譯成另一種語言后幸存）[37]。

AI糟粕，不是唯一的需要公司警惕合成數據的可能原因。另一個問題是，互聯網上的文字數量有限。

據一些專家估計，最大的AI模型已經在互聯網上的可用文本池中訓練了幾個百分點[38]。他們預測，為了維持當前的增長速度，這些模型可能會在十年內耗盡公共數據[39]。

“這些模型如此龐大，以至于整個互聯網的圖像或對話幾乎快不夠用了。”Baraniuk教授如此說。

為了滿足他們日益增長的數據需求，一些公司正在考慮使用“今天”的AI模型生成數據來訓練“明天”的模型[40]。但研究人員認為，這可能導致意外后果，類似前文提到的質量或多樣性下降。

在某些情況下，合成數據可以幫助AI學習——例如，當一個較大的AI模型的輸出被用于訓練一個較小的模型，或者當正確答案可以被驗證時，像解決數學問題或在棋類游戲（如國際象棋或圍棋）中的最佳策略[41,42,43]。

同時，新的研究表明，當我們整理合成數據時（例如，通過對AI的回答進行排名選出最佳答案時），可以緩解一些崩潰的問題[44,45]。

Kempe教授說，公司在數據整理上的花銷已經很大，而當他們了解了合成數據的問題后，這將變得更加重要。

但就目前而言，沒有什么可以取代真實的東西。

關于數據：為了制作AI生成的數字圖像，我們遵循了研究人員概述的程序[46]。我們首先使用60000個手寫數字的標準數據集訓練了一種稱為變分自編碼器的神經網絡[47,48]。

然后，我們僅使用由前一個神經網絡生成的AI數字訓練了一個新的神經網絡，并重復這個過程30次。

為了創建AI輸出的統計分布，我們使用每一代的神經網絡創建了10000個數字圖的繪圖。然后，我們使用第一個神經網絡（在原始手寫數字上訓練的那個）將這些繪圖編碼為一組數字，稱為“潛在空間”編碼[49]。這使我們能夠定量比較不同代神經網絡的輸出。為了簡化，我們使用這個潛在空間編碼的平均值生成文章中顯示的統計分布。

參考來源：

https://www.nytimes.com/interactive/2024/08/26/upshot/ai-synthetic-data.html

[1] https://x.com/sama/status/1756089361609981993?lang=en

[2] https://www.newsguardtech.com/special-reports/ai-tracking-center/

[3] https://www.nytimes.com/2024/06/06/technology/bnn-breaking-ai-generated-news.html

[4] https://www.nytimes.com/2024/07/19/technology/ai-data-restrictions.html

[5] https://www.nature.com/articles/s41586-024-07566-y

[6] https://openreview.net/forum?id=ShjMHfmPs0

[7] https://openreview.net/pdf/b07c42e256e6df5c2c52aba4bf28c853110ebb7b.pdf

[8] https://openreview.net/notes/edits/attachment?id=XLIOLMlnqh&name=pdf

[9] https://www.newyorker.com/tech/annals-of-technology/chatgpt-is-a-blurry-jpeg-of-the-web

[10] https://www.nature.com/articles/s41586-024-07566-y

[11] https://www.nature.com/articles/s41586-024-07566-y#:~:text=Model%20collapse%20refers%20to%20a%20degenerative%20learning%20process%20in%20which%20models%20start%20forgetting%20improbable%20events%20over%20time%2C%20as%20the%20model%20becomes%20poisoned%20with%20its%20own%20projection%20of%20reality.

[12] https://openreview.net/pdf?id=ShjMHfmPs0

[13] https://richb.rice.edu/biography/

[14] https://www.nytimes.com/2024/07/19/technology/ai-data-restrictions.html

[15] https://www.nytimes.com/2024/03/29/opinion/ai-internet-x-youtube.html

[16] https://www.nytimes.com/2024/06/11/style/ai-search-slop.html

[17]https://dl.acm.org/doi/10.1145/3649468#:~:text=6.2-,Interconnectedness%20and%20Synthetic%20Media%20Spills,-Another%20facet%20of

[18] https://openreview.net/pdf?id=ShjMHfmPs0

[19] https://www.linkedin.com/in/sina-alemohammad-837b0ab6/

[20] https://openreview.net/forum?id=KVvku47shW

[21] https://cims.nyu.edu/~kempe/

[22] https://epochai.org/blog/how-much-does-it-cost-to-train-frontier-ai-models#:~:text=The%20cost%20of%20training%20frontier,a%20billion%20dollars%20by%202027.

[23] https://www.bloomberg.com/graphics/2024-ai-data-centers-power-grids/

[24] https://www.nytimes.com/2023/05/01/business/ai-chatbots-hallucination.html

[25] https://arxiv.org/abs/2311.09807

[26] https://arxiv.org/abs/2311.09807

[27] https://arxiv.org/pdf/2209.03942

[28] https://arxiv.org/pdf/2403.07857

[29] https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html

[30] https://www.nytimes.com/2023/12/27/business/media/new-york-times-open-ai-microsoft-lawsuit.html

[31] https://www.nytimes.com/2024/02/27/technology/openai-new-york-times-lawsuit.html

[32] https://www.nytimes.com/2024/03/04/technology/microsoft-ai-copyright-lawsuit.html?action=click&module=RelatedLinks&pgtype=Article

[33] https://deepmind.google/discover/blog/watermarking-ai-generated-text-and-video-with-synthid/

[34] https://openai.com/index/understanding-the-source-of-what-we-see-and-hear-online/

[35] https://www.nytimes.com/interactive/2023/02/17/business/ai-text-detection.html

[36] https://www.brookings.edu/articles/detecting-ai-fingerprints-a-guide-to-watermarking-and-beyond/

[37] https://www.youtube.com/watch?v=2Kx9jbSMZqA&t=3068s

[38] https://epochai.org/blog/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data

[39] https://epochai.org/blog/will-we-run-out-of-data-limits-of-llm-scaling-based-on-human-generated-data

[40] https://www.nytimes.com/2024/04/06/technology/ai-data-tech-companies.html

[41] https://deepmind.google/discover/blog/alphageometry-an-olympiad-level-ai-system-for-geometry/

[42] https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/

[43] https://deepmind.google/discover/blog/alphazero-shedding-new-light-on-chess-shogi-and-go/

[44] https://openreview.net/forum?id=iqoqtNyVta

[45] https://arxiv.org/abs/2407.09499

[46] https://arxiv.org/pdf/2305.17493

[47] https://en.wikipedia.org/wiki/Variational_autoencoder

[48] https://en.wikipedia.org/wiki/MNIST_database

[49] https://en.wikipedia.org/wiki/Latent_space

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.