Ilya錯了，預訓練沒結束！LeCun等反擊，「小模型時代」讓奧特曼預言成真

2024-12-19 18:24:09　來源: 人工智能研究

貴州舉報

分享至

來源：新智元

【導讀】Ilya「預訓練結束了」言論一出，圈內嘩然。谷歌大佬Logan Klipatrick和LeCun站出來反對說：預訓練還沒結束！Scaling Law真的崩了嗎？Epoch AI發(fā)布報告稱，我們已經(jīng)進入「小模型」周期，但下一代依然會更大。

最近，Ilya在NeurIPS 2024中宣布：預訓練結束了！瞬間一石激起千層浪。

在他看來，數(shù)據(jù)如同化石燃料般難以再生，因此訓練模型需要的海量數(shù)據(jù)即將枯竭。

作為前OpenAI首席科學家，Ilya的這番話，有可能影響之后數(shù)十年的AI發(fā)展方向。

不過，預訓練真的結束了嗎？

最近，幾位圈內大佬，就公開站出來質疑和反對Ilya了。

谷歌大佬Logan Kilpatrick是這樣內涵Ilya的：認為預訓練結束，恐怕是因為你缺乏想象力。

前Meta具身智能團隊的高級總監(jiān)Dhruv Batra也站出來共同表示：Ilya錯了！

在他看來，人類的數(shù)據(jù)還沒有用完。

我們只是用完了人類書寫的文本而已，但我們擁有的視頻數(shù)量，依然遠超我們的處理能力，目前只是尚未解決視覺領域的預訓練問題罷了。

的確，要知道，網(wǎng)絡上的文本公共數(shù)據(jù)，畢竟只是冰山一角而已。

我們除了文本，還能對音頻、視頻、圖像進行預訓練，甚至可以把視覺、嗅覺、觸覺、平衡和傳感器這些人類進化出來的功能賦予機器。

而如果模型真的可以學習的話，那數(shù)據(jù)或許確實是無所不在。

左右滑動查看

有人則充分放分想象：如果預訓練能和生物相連，那它的確永遠不會結束。

Scaling Law和預訓練到底有沒有撞墻？

種種事件表明，我們已經(jīng)站在了一個發(fā)展路線的分水嶺。

Ilya、LeCun甚至奧特曼，都已經(jīng)感覺到：目前的發(fā)展路線不能再延續(xù)下去了，我們亟需探索新的出路。

早期，Ilya曾是暴力Scaling的早期倡導者之一，認為通過增加數(shù)據(jù)和算力來「scale up」，能顯著改善模型性能。

但現(xiàn)在，Ilya已經(jīng)承認自己曾經(jīng)的想法錯了，并透露SSI正在研究一種全新的替代方法，來擴展預訓練。

最近，Epoch AI研究員的一篇長文，更是直觀地展示了這個「矛盾」的現(xiàn)象。

從2017年Transformer架構誕生到GPT-4發(fā)布，SOTA模型的規(guī)模一直在變大，但增幅在變小。

從GPT-1到GPT-3，用了2年時間，模型參數(shù)量從1.17億增加到1750億，增加了1000倍
從GPT-3到GPT-4，用了2年9個月，模型參數(shù)量從1750億增加到1.8萬億，增加了10倍

而到了2023年，這一趨勢直接發(fā)生了逆轉。

據(jù)估計，當前SOTA模型的參數(shù)可能要比GPT-4的1.8萬億小一個數(shù)量級！

GPT-4o大約為2000億參數(shù)
Claude 3.5 Sonnet約為4000億參數(shù)

但有趣的是，下一代模型的規(guī)模，可能又會重新超過GPT-4。

當今SOTA模型最大只有約4000億參數(shù)

盡管許多實驗室沒有公開模型架構，Epoch AI的研究員依然從蛛絲馬跡中發(fā)現(xiàn)了線索。

首先是開源模型的證據(jù)。根據(jù)Artificial Analysis的模型質量指數(shù)，當前最佳的開源模型是Mistral Large 2和Llama 3.3，分別擁有1230億和700億參數(shù)。

這些稠密模型，架構與GPT-3相似，但參數(shù)更少。它們總體的基準表現(xiàn)超過了GPT-4和Claude 3 Opus，且由于參數(shù)更少，它們的推理成本和速度也更優(yōu)。

對于閉源模型，盡管我們通常無法得知參數(shù)詳情，但可以根據(jù)推理速度和收費推測它們的大小。

僅考慮短上下文請求，OpenAI提供的2024年11月版本GPT-4o，每個用戶每秒100-150個輸出token，收費每百萬輸出token 10美元；而GPT-4 Turbo每秒最多大約55個輸出token，費用是每百萬輸出token 30美元。

顯然，GPT-4o比GPT-4 Turbo更便宜且更快，因此它的參數(shù)可能比GPT-4小得多。

另外，我們還可以使用推理經(jīng)濟學的理論模型，來預測GPT-4在H200上進行推理的成本。

假設使用H200進行推理的機會成本為每小時3美元，下面的圖顯示了不同價格點下，GPT-4及其假設縮小版的生成速度。

總體來說，為了讓模型每秒生成100個以上的token并且能夠流暢服務，模型需要比GPT-4小得多。

根據(jù)上圖，假設OpenAI的價格加成大約是GPU成本的八分之一，GPT-4o的參數(shù)量可能在2000億左右，雖然這個估計可能有2倍的誤差。

有證據(jù)表明，Anthropic的Claude 3.5 Sonnet可能比GPT-4o更大。Sonnet每秒生成約60個token，每百萬輸出token收費15美元。這速度在優(yōu)化設置下接近原版GPT-4的收支平衡點。

不過，考慮到Anthropic API可能加價不少，Sonnet參數(shù)規(guī)模仍顯著小于GPT-4，估計在4000億左右。

總體來看，當前前沿模型的參數(shù)大多在4000億左右，像Llama 3.1 405B和Claude 3.5 Sonnet可能是最大的。

雖然對于閉源模型的參數(shù)估計有很大的不確定性，但我們仍然可以推測，從GPT-4和Claude 3 Opus到如今最強的模型，規(guī)?？s小的幅度可能接近一個數(shù)量級。

為什么會這樣？

針對這一現(xiàn)象，Epoch AI認為有四個主要原因：

1. AI需求爆發(fā)，模型不得不瘦身

自ChatGPT和GPT-4發(fā)布以來，AI產品需求激增，服務商面臨的推理請求大大超出預期。

此前，從2020年到2023年3月，模型訓練的目標是最小化訓練計算量，即在固定的能力水平下，花費盡可能少的計算資源完成訓練。Kaplan和Chinchilla的Scaling Law建議，隨著訓練計算量的增加，模型規(guī)模也應擴大。

隨著推理成本占據(jù)支出的大頭，傳統(tǒng)法則的適用性受到了挑戰(zhàn)。相比scaling模型規(guī)模，在更多訓練數(shù)據(jù)（token）上訓練較小的模型反而更劃算，因為較小的模型在推理階段的計算需求較低，能夠以更低的成本服務用戶。

比如，從Llama 2 70B到Llama 3 70B，雖然模型參數(shù)規(guī)模沒有顯著增加，但模型的性能卻顯著提升。

這是因為通過過度訓練（在更多數(shù)據(jù)上訓練較小的模型），可以讓模型在保持小規(guī)模的同時，表現(xiàn)得更強大。

2. 蒸餾，讓小模型更能打

實驗室還采用了「蒸餾」方法，從而讓更小的模型表現(xiàn)得更強大。

蒸餾指的是讓小模型模仿已經(jīng)訓練好的大模型的性能。

蒸餾方法有很多種，其中一種簡單的方法是使用大模型生成高質量的合成數(shù)據(jù)集來訓練小模型，而更復雜的方法則需要訪問大模型的內部信息（如隱藏狀態(tài)和logprobs）。

Epoch AI認為，GPT-4o和Claude 3.5 Sonnet很可能是從更大的模型蒸餾得到的。

3. Scaling Law的轉變

Kaplan Scaling Law（2020）建議，模型的參數(shù)量與訓練用的token數(shù)量（即數(shù)據(jù)量）應保持較高的比例。簡單來說，當你增加訓練數(shù)據(jù)時，應該相應增加模型的規(guī)模（參數(shù)量）

而Chinchilla Scaling Law（2022）則偏向于更多訓練數(shù)據(jù)和更少的參數(shù)。模型不必越來越大，關鍵在于訓練數(shù)據(jù)的規(guī)模和多樣性。

這個轉變導致了訓練方式的改變：模型變得更小，但訓練數(shù)據(jù)更多。

從Kaplan到Chinchilla的轉變，并非因為推理需求的增加，而是我們對如何有效scaling預訓練的理解發(fā)生了變化。

4. 推理更快，模型更小

隨著推理方法的改進，模型生成token的效率和低延遲變得更加重要。

過去，判斷一個模型「足夠快」的標準是看它的生成速度是否接近人類的閱讀速度。

然而，當模型在生成每個輸出token時需要先推理出多個token時（比如每個輸出token對應10個推理token），提升生成效率就變得更關鍵。

這推動了實驗室，像OpenAI，專注于優(yōu)化推理過程，使得模型在處理復雜推理任務時能夠更高效運行，也因此促使它們縮小模型的規(guī)模。

5. 用AI喂AI，成本更低

越來越多的實驗室開始采用合成數(shù)據(jù)作為訓練數(shù)據(jù)來源，這也是促使模型變小的原因之一。

合成數(shù)據(jù)為訓練計算scaling提供了一種新的途徑，超越了傳統(tǒng)的增加模型參數(shù)量和訓練數(shù)據(jù)集大小的方法（即，超越預訓練計算scaling）。

我們可以生成將來用于訓練的token，而不是從互聯(lián)網(wǎng)上抓取它們，就像AlphaGo通過自我對弈生成訓練數(shù)據(jù)一樣。

這樣，我們可以保持Chinchilla Scaling Law下計算最優(yōu)的token與參數(shù)比例，但通過生成數(shù)據(jù)時為每個token投入更多計算，從而增加訓練計算量而不增加模型大小。

奧特曼：參數(shù)規(guī)模競賽即將終結？

2023年4月，OpenAI發(fā)布了當時最強的，同時也是第一款未公開參量的模型GPT-4。

之后不久，CEO奧特曼曾預言了模型參數(shù)競賽的終結：圍繞模型參數(shù)量的競賽，就像歷史上對更高處理器主頻的追求，是一個死胡同。

那么，前沿模型的規(guī)模會不會越變越小呢？

簡短的答案是——可能不會。但也很難說是否應該期待它們在短期內變得比GPT-4更大。

從Kaplan到Chinchilla的轉變是一次性的，因此我們沒有理由期待它繼續(xù)讓模型變小。

GPT-4發(fā)布后的推理需求增長也可能快于未來推理支出的增長速度。且合成數(shù)據(jù)和scaling計算并非每個實驗室都在采納——即使有高質量的訓練數(shù)據(jù)，對于非常小的模型而言，能夠取得的成就可能非常有限。

此外，硬件的進步可能會促使更大的模型變得更優(yōu)，因為在相同預算下，大模型通常表現(xiàn)更好。

較小的模型在推理時可能表現(xiàn)更差，尤其在長上下文和復雜任務上。

未來的模型（如GPT-5或Claude 4）可能會恢復或稍微超過GPT-4的規(guī)模，之后是否繼續(xù)縮小規(guī)模難以預料。

理論上，當前硬件足以支持比GPT-4大50倍、約100萬億參數(shù)的模型，可能以每百萬輸出token 3000美元、每秒10-20個token的速度提供服務。

但正如Karpathy所說，相比于如今這種只能根據(jù)prompt去解決博士級別問題的AI，一個能夠真正作為「實習生」入職的AI更為實用。

參考資料：

https://epoch.ai/gradient-updates/frontier-language-models-have-become-much-smaller

https://x.com/OfficialLoganK/status/1868002617311596552

https://x.com/DhruvBatraDB/status/1868009853324865762

https://x.com/karpathy/status/1868061331355840704

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

人工智能研究

分享深度學習、CV、NLP

259文章數(shù) 125關注度

往期回顧全部

態(tài)度原創(chuàng)

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

時尚

教育

旅游

藝術

公開課

白巖松談人口老齡化：社會要降低老年人門檻
為什么人類有不同的膚色？
全球十大恐怖禁區(qū)有哪些？
李彥宏：百度離破產30天

手機 / 數(shù)碼

房產 / 家居

Ilya錯了，預訓練沒結束！LeCun等反擊，「小模型時代」讓奧特曼預言成真

百度心響實測：“能用版Manus”開了個好頭

馬斯克和美財長激烈爭吵細節(jié)披露：胸口相抵 狂飆臟話

馬斯克和美財長激烈爭吵細節(jié)披露：胸口相抵 狂飆臟話

去更大的舞臺追夢 專訪中國男籃國手楊瀚森

金掃帚獎出爐，包貝爾意外獲“影帝”

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

充電5分鐘續(xù)航100公里 探訪華為兆瓦超充站

態(tài)度原創(chuàng)

她美得好邪乎，讓人又怕又愛

數(shù)學培優(yōu)題目，怎么求xy的最大值？

熱聞|清明假期將至，熱門目的地有哪些?

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

Ilya錯了，預訓練沒結束！LeCun等反擊，「小模型時代」讓奧特曼預言成真

馬斯克和美財長激烈爭吵細節(jié)披露：胸口相抵狂飆臟話

馬斯克和美財長激烈爭吵細節(jié)披露：胸口相抵狂飆臟話

去更大的舞臺追夢專訪中國男籃國手楊瀚森

金掃帚獎出爐，包貝爾意外獲“影帝”

充電5分鐘續(xù)航100公里探訪華為兆瓦超充站

她美得好邪乎，讓人又怕又愛

數(shù)學培優(yōu)題目，怎么求xy的最大值？

熱聞|清明假期將至，熱門目的地有哪些?