99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Ilya錯了,預訓練沒結束!LeCun等反擊,「小模型時代」讓奧特曼預言成真

0
分享至

來源:新智元

【導讀】Ilya「預訓練結束了」言論一出,圈內嘩然。谷歌大佬Logan Klipatrick和LeCun站出來反對說:預訓練還沒結束!Scaling Law真的崩了嗎?Epoch AI發(fā)布報告稱,我們已經(jīng)進入「小模型」周期,但下一代依然會更大。

最近,Ilya在NeurIPS 2024中宣布:預訓練結束了!瞬間一石激起千層浪。

在他看來,數(shù)據(jù)如同化石燃料般難以再生,因此訓練模型需要的海量數(shù)據(jù)即將枯竭。


作為前OpenAI首席科學家,Ilya的這番話,有可能影響之后數(shù)十年的AI發(fā)展方向。

不過,預訓練真的結束了嗎?

最近,幾位圈內大佬,就公開站出來質疑和反對Ilya了。

谷歌大佬Logan Kilpatrick是這樣內涵Ilya的:認為預訓練結束,恐怕是因為你缺乏想象力。


前Meta具身智能團隊的高級總監(jiān)Dhruv Batra也站出來共同表示:Ilya錯了!

在他看來,人類的數(shù)據(jù)還沒有用完。

我們只是用完了人類書寫的文本而已,但我們擁有的視頻數(shù)量,依然遠超我們的處理能力,目前只是尚未解決視覺領域的預訓練問題罷了。


的確,要知道,網(wǎng)絡上的文本公共數(shù)據(jù),畢竟只是冰山一角而已。

我們除了文本,還能對音頻、視頻、圖像進行預訓練,甚至可以把視覺、嗅覺、觸覺、平衡和傳感器這些人類進化出來的功能賦予機器。

而如果模型真的可以學習的話,那數(shù)據(jù)或許確實是無所不在。




左右滑動查看

有人則充分放分想象:如果預訓練能和生物相連,那它的確永遠不會結束。


Scaling Law和預訓練到底有沒有撞墻?

種種事件表明,我們已經(jīng)站在了一個發(fā)展路線的分水嶺。

Ilya、LeCun甚至奧特曼,都已經(jīng)感覺到:目前的發(fā)展路線不能再延續(xù)下去了,我們亟需探索新的出路。

早期,Ilya曾是暴力Scaling的早期倡導者之一,認為通過增加數(shù)據(jù)和算力來「scale up」,能顯著改善模型性能。

但現(xiàn)在,Ilya已經(jīng)承認自己曾經(jīng)的想法錯了,并透露SSI正在研究一種全新的替代方法,來擴展預訓練。



最近,Epoch AI研究員的一篇長文,更是直觀地展示了這個「矛盾」的現(xiàn)象。


從2017年Transformer架構誕生到GPT-4發(fā)布,SOTA模型的規(guī)模一直在變大,但增幅在變小。

  • 從GPT-1到GPT-3,用了2年時間,模型參數(shù)量從1.17億增加到1750億,增加了1000倍

  • 從GPT-3到GPT-4,用了2年9個月,模型參數(shù)量從1750億增加到1.8萬億,增加了10倍

而到了2023年,這一趨勢直接發(fā)生了逆轉。

據(jù)估計,當前SOTA模型的參數(shù)可能要比GPT-4的1.8萬億小一個數(shù)量級!

  • GPT-4o大約為2000億參數(shù)

  • Claude 3.5 Sonnet約為4000億參數(shù)

但有趣的是,下一代模型的規(guī)模,可能又會重新超過GPT-4。


當今SOTA模型最大只有約4000億參數(shù)

盡管許多實驗室沒有公開模型架構,Epoch AI的研究員依然從蛛絲馬跡中發(fā)現(xiàn)了線索。

首先是開源模型的證據(jù)。根據(jù)Artificial Analysis的模型質量指數(shù),當前最佳的開源模型是Mistral Large 2和Llama 3.3,分別擁有1230億和700億參數(shù)。

這些稠密模型,架構與GPT-3相似,但參數(shù)更少。它們總體的基準表現(xiàn)超過了GPT-4和Claude 3 Opus,且由于參數(shù)更少,它們的推理成本和速度也更優(yōu)。

對于閉源模型,盡管我們通常無法得知參數(shù)詳情,但可以根據(jù)推理速度和收費推測它們的大小。

僅考慮短上下文請求,OpenAI提供的2024年11月版本GPT-4o,每個用戶每秒100-150個輸出token,收費每百萬輸出token 10美元;而GPT-4 Turbo每秒最多大約55個輸出token,費用是每百萬輸出token 30美元。

顯然,GPT-4o比GPT-4 Turbo更便宜且更快,因此它的參數(shù)可能比GPT-4小得多。

另外,我們還可以使用推理經(jīng)濟學的理論模型,來預測GPT-4在H200上進行推理的成本。

假設使用H200進行推理的機會成本為每小時3美元,下面的圖顯示了不同價格點下,GPT-4及其假設縮小版的生成速度。


總體來說,為了讓模型每秒生成100個以上的token并且能夠流暢服務,模型需要比GPT-4小得多。

根據(jù)上圖,假設OpenAI的價格加成大約是GPU成本的八分之一,GPT-4o的參數(shù)量可能在2000億左右,雖然這個估計可能有2倍的誤差。

有證據(jù)表明,Anthropic的Claude 3.5 Sonnet可能比GPT-4o更大。Sonnet每秒生成約60個token,每百萬輸出token收費15美元。這速度在優(yōu)化設置下接近原版GPT-4的收支平衡點。

不過,考慮到Anthropic API可能加價不少,Sonnet參數(shù)規(guī)模仍顯著小于GPT-4,估計在4000億左右。

總體來看,當前前沿模型的參數(shù)大多在4000億左右,像Llama 3.1 405B和Claude 3.5 Sonnet可能是最大的。

雖然對于閉源模型的參數(shù)估計有很大的不確定性,但我們仍然可以推測,從GPT-4和Claude 3 Opus到如今最強的模型,規(guī)??s小的幅度可能接近一個數(shù)量級。

為什么會這樣?

針對這一現(xiàn)象,Epoch AI認為有四個主要原因:

1. AI需求爆發(fā),模型不得不瘦身

自ChatGPT和GPT-4發(fā)布以來,AI產品需求激增,服務商面臨的推理請求大大超出預期。

此前,從2020年到2023年3月,模型訓練的目標是最小化訓練計算量,即在固定的能力水平下,花費盡可能少的計算資源完成訓練。Kaplan和Chinchilla的Scaling Law建議,隨著訓練計算量的增加,模型規(guī)模也應擴大。

隨著推理成本占據(jù)支出的大頭,傳統(tǒng)法則的適用性受到了挑戰(zhàn)。相比scaling模型規(guī)模,在更多訓練數(shù)據(jù)(token)上訓練較小的模型反而更劃算,因為較小的模型在推理階段的計算需求較低,能夠以更低的成本服務用戶。

比如,從Llama 2 70B到Llama 3 70B,雖然模型參數(shù)規(guī)模沒有顯著增加,但模型的性能卻顯著提升。

這是因為通過過度訓練(在更多數(shù)據(jù)上訓練較小的模型),可以讓模型在保持小規(guī)模的同時,表現(xiàn)得更強大。

2. 蒸餾,讓小模型更能打

實驗室還采用了「蒸餾」方法,從而讓更小的模型表現(xiàn)得更強大。

蒸餾指的是讓小模型模仿已經(jīng)訓練好的大模型的性能。

蒸餾方法有很多種,其中一種簡單的方法是使用大模型生成高質量的合成數(shù)據(jù)集來訓練小模型,而更復雜的方法則需要訪問大模型的內部信息(如隱藏狀態(tài)和logprobs)。

Epoch AI認為,GPT-4o和Claude 3.5 Sonnet很可能是從更大的模型蒸餾得到的。

3. Scaling Law的轉變

Kaplan Scaling Law(2020)建議,模型的參數(shù)量與訓練用的token數(shù)量(即數(shù)據(jù)量)應保持較高的比例。簡單來說,當你增加訓練數(shù)據(jù)時,應該相應增加模型的規(guī)模(參數(shù)量)

而Chinchilla Scaling Law(2022)則偏向于更多訓練數(shù)據(jù)和更少的參數(shù)。模型不必越來越大,關鍵在于訓練數(shù)據(jù)的規(guī)模和多樣性。

這個轉變導致了訓練方式的改變:模型變得更小,但訓練數(shù)據(jù)更多。

從Kaplan到Chinchilla的轉變,并非因為推理需求的增加,而是我們對如何有效scaling預訓練的理解發(fā)生了變化。

4. 推理更快,模型更小

隨著推理方法的改進,模型生成token的效率和低延遲變得更加重要。

過去,判斷一個模型「足夠快」的標準是看它的生成速度是否接近人類的閱讀速度。

然而,當模型在生成每個輸出token時需要先推理出多個token時(比如每個輸出token對應10個推理token),提升生成效率就變得更關鍵。

這推動了實驗室,像OpenAI,專注于優(yōu)化推理過程,使得模型在處理復雜推理任務時能夠更高效運行,也因此促使它們縮小模型的規(guī)模。

5. 用AI喂AI,成本更低

越來越多的實驗室開始采用合成數(shù)據(jù)作為訓練數(shù)據(jù)來源,這也是促使模型變小的原因之一。

合成數(shù)據(jù)為訓練計算scaling提供了一種新的途徑,超越了傳統(tǒng)的增加模型參數(shù)量和訓練數(shù)據(jù)集大小的方法(即,超越預訓練計算scaling)。

我們可以生成將來用于訓練的token,而不是從互聯(lián)網(wǎng)上抓取它們,就像AlphaGo通過自我對弈生成訓練數(shù)據(jù)一樣。

這樣,我們可以保持Chinchilla Scaling Law下計算最優(yōu)的token與參數(shù)比例,但通過生成數(shù)據(jù)時為每個token投入更多計算,從而增加訓練計算量而不增加模型大小。

奧特曼:參數(shù)規(guī)模競賽即將終結?

2023年4月,OpenAI發(fā)布了當時最強的,同時也是第一款未公開參量的模型GPT-4。

之后不久,CEO奧特曼曾預言了模型參數(shù)競賽的終結:圍繞模型參數(shù)量的競賽,就像歷史上對更高處理器主頻的追求,是一個死胡同。


那么,前沿模型的規(guī)模會不會越變越小呢?

簡短的答案是——可能不會。但也很難說是否應該期待它們在短期內變得比GPT-4更大。

從Kaplan到Chinchilla的轉變是一次性的,因此我們沒有理由期待它繼續(xù)讓模型變小。

GPT-4發(fā)布后的推理需求增長也可能快于未來推理支出的增長速度。且合成數(shù)據(jù)和scaling計算并非每個實驗室都在采納——即使有高質量的訓練數(shù)據(jù),對于非常小的模型而言,能夠取得的成就可能非常有限。

此外,硬件的進步可能會促使更大的模型變得更優(yōu),因為在相同預算下,大模型通常表現(xiàn)更好。

較小的模型在推理時可能表現(xiàn)更差,尤其在長上下文和復雜任務上。

未來的模型(如GPT-5或Claude 4)可能會恢復或稍微超過GPT-4的規(guī)模,之后是否繼續(xù)縮小規(guī)模難以預料。

理論上,當前硬件足以支持比GPT-4大50倍、約100萬億參數(shù)的模型,可能以每百萬輸出token 3000美元、每秒10-20個token的速度提供服務。

但正如Karpathy所說,相比于如今這種只能根據(jù)prompt去解決博士級別問題的AI,一個能夠真正作為「實習生」入職的AI更為實用。


參考資料:

https://epoch.ai/gradient-updates/frontier-language-models-have-become-much-smaller

https://x.com/OfficialLoganK/status/1868002617311596552

https://x.com/DhruvBatraDB/status/1868009853324865762

https://x.com/karpathy/status/1868061331355840704


特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
中年女人“默許發(fā)生關系”,往往會用以下“行為”來表示,很準

中年女人“默許發(fā)生關系”,往往會用以下“行為”來表示,很準

情感創(chuàng)作者無筆
2025-02-16 14:10:08
我的個天??!一個三屆全明星,32歲當打之年,季后賽場均僅僅3分

我的個天啊!一個三屆全明星,32歲當打之年,季后賽場均僅僅3分

球毛鬼胎
2025-04-26 22:04:35
芬尼-史密斯:我在中場休息時看到東契奇臉色蒼白,本以為他無法繼續(xù)出戰(zhàn)下半場比賽

芬尼-史密斯:我在中場休息時看到東契奇臉色蒼白,本以為他無法繼續(xù)出戰(zhàn)下半場比賽

雷速體育
2025-04-26 13:46:43
小米推出 10cm 長度 USB-C 充電線:支持 60W 功率,9.9 元

小米推出 10cm 長度 USB-C 充電線:支持 60W 功率,9.9 元

IT之家
2025-04-24 20:18:23
東哥的援兵到了!網(wǎng)傳浙江一企業(yè)發(fā)出倡議,建議員工優(yōu)選京東外賣

東哥的援兵到了!網(wǎng)傳浙江一企業(yè)發(fā)出倡議,建議員工優(yōu)選京東外賣

火山詩話
2025-04-26 12:40:10
1949年毛主席遠赴蘇聯(lián),離開前特意叮囑李克農:我一走,立即抓他

1949年毛主席遠赴蘇聯(lián),離開前特意叮囑李克農:我一走,立即抓他

夢里大唐
2025-04-26 15:34:50
突然發(fā)現(xiàn),g與π2竟然極為接近,我好像發(fā)現(xiàn)了世界的bug!

突然發(fā)現(xiàn),g與π2竟然極為接近,我好像發(fā)現(xiàn)了世界的bug!

果殼
2025-04-25 16:10:07
冷知識:費列羅長蛆很普遍,美國規(guī)定巧克力昆蟲碎片<60個/100g即合格

冷知識:費列羅長蛆很普遍,美國規(guī)定巧克力昆蟲碎片<60個/100g即合格

六子吃涼粉
2025-04-24 17:31:47
馬萊萊:上下半場有很多得分機會,很遺憾尾聲階段被打進一球

馬萊萊:上下半場有很多得分機會,很遺憾尾聲階段被打進一球

懂球帝
2025-04-26 21:26:04
31省份人口數(shù)據(jù):10省份生娃貢獻近六成,11省份人口自然正增長

31省份人口數(shù)據(jù):10省份生娃貢獻近六成,11省份人口自然正增長

第一財經(jīng)資訊
2025-04-26 18:17:42
海港再獲利!中超VAR現(xiàn)大Bug:把不越位畫成越位,太明目張膽

海港再獲利!中超VAR現(xiàn)大Bug:把不越位畫成越位,太明目張膽

足球大腕
2025-04-26 01:13:12
藍白上凱道人數(shù)超數(shù)倍,馬英九力挺,黃珊珊面目顯露,黃國昌大怒

藍白上凱道人數(shù)超數(shù)倍,馬英九力挺,黃珊珊面目顯露,黃國昌大怒

阿握聊事
2025-04-26 13:00:41
貓眼回應周杰倫演唱會480元票檔只能看大屏 :開售時已做說明

貓眼回應周杰倫演唱會480元票檔只能看大屏 :開售時已做說明

觀威海
2025-04-24 10:55:25
鐵路部門回應車窗有貼紙:屬特色車廂,可聯(lián)系列車員調整位置

鐵路部門回應車窗有貼紙:屬特色車廂,可聯(lián)系列車員調整位置

觀威海
2025-04-26 17:23:06
解放軍儀仗隊,亮相越南閱兵式,身高優(yōu)勢,為何非常明顯?

解放軍儀仗隊,亮相越南閱兵式,身高優(yōu)勢,為何非常明顯?

梁訊
2025-04-26 14:34:33
遼寧備戰(zhàn)G1!楊鳴調侃王博,弗格眼神堅定,張鎮(zhèn)麟韓德君無不適!

遼寧備戰(zhàn)G1!楊鳴調侃王博,弗格眼神堅定,張鎮(zhèn)麟韓德君無不適!

籃球資訊達人
2025-04-26 14:07:20
全賣光了!貴州一家人套現(xiàn)42億,把爛攤子留給了8.8萬股民

全賣光了!貴州一家人套現(xiàn)42億,把爛攤子留給了8.8萬股民

毒sir財經(jīng)
2025-04-25 22:21:31
91年被初戀女友拋棄后,我入伍又考上軍校,后來見到她時我驚呆了

91年被初戀女友拋棄后,我入伍又考上軍校,后來見到她時我驚呆了

詭譎怪談
2025-04-24 20:02:06
汪小菲翻新舊房!為兒子打造魚池,女兒住一樓,張?zhí)m和前夫成鄰居

汪小菲翻新舊房!為兒子打造魚池,女兒住一樓,張?zhí)m和前夫成鄰居

二月侃事
2025-04-26 15:22:25
湯唯(圖片)

湯唯(圖片)

手工制作阿殲
2025-04-10 09:55:37
2025-04-26 23:03:00
人工智能研究 incentive-icons
人工智能研究
分享深度學習、CV、NLP
259文章數(shù) 125關注度
往期回顧 全部

科技要聞

百度心響實測:“能用版Manus”開了個好頭

頭條要聞

馬斯克和美財長激烈爭吵細節(jié)披露:胸口相抵 狂飆臟話

頭條要聞

馬斯克和美財長激烈爭吵細節(jié)披露:胸口相抵 狂飆臟話

體育要聞

去更大的舞臺追夢 專訪中國男籃國手楊瀚森

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經(jīng)要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續(xù)航100公里 探訪華為兆瓦超充站

態(tài)度原創(chuàng)

時尚
教育
旅游
藝術
公開課

她美得好邪乎,讓人又怕又愛

教育要聞

數(shù)學培優(yōu)題目,怎么求xy的最大值?

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 桐城市| 永州市| 海丰县| 浦城县| 晋宁县| 宣武区| 盐池县| 桦川县| 屏东市| 罗城| 高碑店市| 蓬溪县| 阳曲县| 禄丰县| 紫阳县| 万山特区| 西畴县| 张家口市| 繁峙县| 武山县| 贵德县| 汉中市| 隆安县| 万年县| 通榆县| 西吉县| 郑州市| 天台县| 平乡县| 峨眉山市| 台前县| 桐庐县| 读书| 宜宾县| 明溪县| 南投县| 阆中市| 河西区| 松潘县| 鄂伦春自治旗| 扎兰屯市|