99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁(yè) > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Scaling Law無(wú)法無(wú)限擴(kuò)展?科學(xué)家揭示低精度訓(xùn)練的極限

0
分享至

這些年大模型的發(fā)展史,某種程度上也是模型規(guī)模不斷擴(kuò)張的歷史。更大規(guī)模的模型參數(shù)帶來(lái)了性能的不斷提升,但與此同時(shí),計(jì)算成本也急劇增加。

為了降低計(jì)算成本,低精度訓(xùn)練與推理成為了一種行之有效的策略,它能通過(guò)減少計(jì)算量和內(nèi)存占用來(lái)提升訓(xùn)練效率和推理速度。例如 Llama-3 405B,就采用了 BF16(即 16 位浮點(diǎn),而非傳統(tǒng)的 32 位)精度進(jìn)行訓(xùn)練。


圖丨 BF16 概覽 [2](來(lái)源:MAARTEN GROOTENDORST)

且隨著硬件支持的逐漸發(fā)展,專門(mén)為低精度計(jì)算設(shè)計(jì)的計(jì)算單元和優(yōu)化的內(nèi)存架構(gòu)不斷涌現(xiàn),使得 FP8、FP4 等更低精度的訓(xùn)練方式逐漸成為可能,能在減少計(jì)算和存儲(chǔ)成本的同時(shí),保持模型的數(shù)值穩(wěn)定性和性能。于是,目前有關(guān)縮放定律的研究似乎并未充分考慮精度這一因素的影響。

那么,代價(jià)是什么呢?

在這一背景下,來(lái)自哈佛大學(xué)、斯坦福大學(xué)與 MIT 等機(jī)構(gòu)的合作團(tuán)隊(duì)提出:隨著模型規(guī)模的不斷擴(kuò)大,低精度的量化或?qū)⒉辉儆行А?/p>

相關(guān)論文以《精度感知的縮放定律》(Scaling Laws for Precision)為題,發(fā)表在預(yù)印本網(wǎng)站arXiv上 [1]。


圖丨相關(guān)論文(來(lái)源:arXiv)

在低精度訓(xùn)練中,模型的 Scaling Laws 變得更加復(fù)雜,因?yàn)榱炕瘞?lái)的誤差可能影響模型的準(zhǔn)確性,尤其是在處理大量數(shù)據(jù)時(shí)。傳統(tǒng)的 Scaling Laws 多基于高精度訓(xùn)練,并未考慮低精度帶來(lái)的誤差放大效應(yīng)。

為此,團(tuán)隊(duì)提出了一種“精度感知”(precision-aware)的縮放定律,相比以往研究,該定律不僅考慮了模型參數(shù)的數(shù)量和數(shù)據(jù)規(guī)模,還引入了精度這一新的維度,來(lái)研究其對(duì)訓(xùn)練和推理?yè)p失的影響。

為了探索這一問(wèn)題,研究團(tuán)隊(duì)對(duì) 465 個(gè)語(yǔ)言模型進(jìn)行了實(shí)驗(yàn),這些模型的規(guī)模從 3000 萬(wàn)到 17 億個(gè)參數(shù)不等,并使用了包含 260 億 tokens 的數(shù)據(jù)集進(jìn)行訓(xùn)練。實(shí)驗(yàn)中涵蓋了不同精度的組合,從 3 位到 16 位,模擬了多種低精度環(huán)境,以研究其對(duì)模型性能和計(jì)算效率的影響。


圖丨主要發(fā)現(xiàn)示意圖(來(lái)源:arXiv)

首先,研究分析了后訓(xùn)練量化(Post-Train Quantization, PTQ)的影響。后訓(xùn)練量化是指在模型完成訓(xùn)練后,將其高精度的權(quán)重量化為低精度,以減少推理時(shí)的存儲(chǔ)需求。這種方法通常被用于深度學(xué)習(xí)模型的部署階段,以節(jié)省硬件資源。

然而,團(tuán)隊(duì)發(fā)現(xiàn),后訓(xùn)練量化帶來(lái)的模型性能損失會(huì)隨著訓(xùn)練數(shù)據(jù)量的增加而增加,特別是在低精度下,這種損失可能非常顯著。



具體來(lái)說(shuō),隨著數(shù)據(jù)量的增加,模型的權(quán)重逐漸變得更加“緊湊”,而這種緊湊性使得在進(jìn)行低精度量化時(shí),模型更容易出現(xiàn)較大的性能損失。因此,增加訓(xùn)練數(shù)據(jù)并不總是能帶來(lái)推理階段的性能提升,尤其是在需要進(jìn)行量化的情況下,這樣的訓(xùn)練數(shù)據(jù)量可能會(huì)使模型的推理性能下降。

為了進(jìn)一步理解低精度訓(xùn)練的影響,研究者對(duì)不同部分的低精度訓(xùn)練進(jìn)行了單獨(dú)實(shí)驗(yàn),包括僅量化權(quán)重的“量化感知訓(xùn)練”(Quantization-Aware Training)和對(duì)權(quán)重、激活及 KV 緩存同時(shí)量化的“低精度訓(xùn)練”(Low-Precision Training)。

通過(guò)這些實(shí)驗(yàn),研究者分別觀察了各組件在不同精度設(shè)置下對(duì)模型損失的影響,并總結(jié)了低精度訓(xùn)練對(duì)模型整體性能的作用機(jī)制。

實(shí)驗(yàn)結(jié)果顯示,在較低精度下,增加權(quán)重的位精度所帶來(lái)的收益很大,但在較高精度下會(huì)趨于飽和。



相比之下,激活和 KV 緩存在更低精度下的量化則可能顯著增加模型的損失。

通過(guò)這些實(shí)驗(yàn),研究者意識(shí)到各個(gè)組件的低精度效果是相對(duì)獨(dú)立的,但同時(shí)存在一個(gè)共同的現(xiàn)象:模型的總有效參數(shù)數(shù)會(huì)隨著各組件精度的降低而顯著下降,進(jìn)而導(dǎo)致模型損失的上升。



雖然在權(quán)重精度較低時(shí),增加模型參數(shù)可以使模型達(dá)到與高精度小模型相似的性能。但對(duì)于那些極低精度(例如 INT3 或 FP4)的訓(xùn)練,即使模型的總參數(shù)數(shù)量增加,其學(xué)習(xí)能力和表現(xiàn)也可能大幅度下降,因?yàn)檫@些低精度參數(shù)無(wú)法完全捕捉復(fù)雜的數(shù)據(jù)特征。

所以,隨著數(shù)據(jù)量的增加,使用更高的訓(xùn)練精度可以更好地利用這些數(shù)據(jù),從而提高模型的性能。

為了將訓(xùn)練與推理階段的精度、參數(shù)和數(shù)據(jù)之間的相互作用統(tǒng)一起來(lái),研究團(tuán)隊(duì)提出了一種統(tǒng)一的精度縮放定律。該定律綜合了訓(xùn)練中的損失、后訓(xùn)練量化中的損失,以及它們?cè)诓煌仍O(shè)置下的表現(xiàn),其公式如下:



通過(guò)將訓(xùn)練損失和推理?yè)p失結(jié)合在一起,研究由此提供了一個(gè)統(tǒng)一的框架來(lái)預(yù)測(cè)低精度訓(xùn)練和量化后的性能。這種精確的建模使得研究者能夠預(yù)測(cè)在不同訓(xùn)練和推理精度組合下的性能變化,從而為未來(lái)模型的精度選擇提供了理論依據(jù)。

團(tuán)隊(duì)指出,盡管 16 位精度(BF16)已成為訓(xùn)練大規(guī)模模型的常規(guī)選擇,但實(shí)際上 7 到 8 位精度可能在計(jì)算成本與性能之間達(dá)到更優(yōu)的平衡點(diǎn),并進(jìn)一步指出在極低精度(如 4 位以下)下,模型的有效參數(shù)數(shù)將顯著減少,導(dǎo)致需要成倍增加參數(shù)量以維持模型性能,這在實(shí)際中或許行不通。

綜上,這項(xiàng)研究通過(guò)一系列精度實(shí)驗(yàn)與理論推導(dǎo),揭示了低精度訓(xùn)練對(duì)模型性能的深遠(yuǎn)影響。通過(guò)精度感知的擴(kuò)展規(guī)律,研究者不僅為低精度模型訓(xùn)練提供了科學(xué)依據(jù),也為未來(lái)模型的精度優(yōu)化指明了方向。


圖丨相關(guān)推文(來(lái)源:X)

有學(xué)者表示,“這是長(zhǎng)期以來(lái)最重要的一篇論文。它以強(qiáng)有力的證據(jù)表明,我們正在達(dá)到量化的極限”,它或許意味著,我們的思維模式“將很快從規(guī)模化轉(zhuǎn)變?yōu)椤覀兡苡矛F(xiàn)有資源做什么’”。

參考資料:

1.https://arxiv.org/abs/2411.04330

2.https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-quantization

3.https://x.com/Tim_Dettmers/status/1856338255408517388

運(yùn)營(yíng)/排版:何晨龍

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
全鏈路守護(hù)創(chuàng)意價(jià)值:騰瑞云影視數(shù)字版權(quán)保護(hù)解決方案解析

全鏈路守護(hù)創(chuàng)意價(jià)值:騰瑞云影視數(shù)字版權(quán)保護(hù)解決方案解析

IT熱門(mén)
2025-04-02 19:46:41
騰瑞云CPSP平臺(tái):作品存證、版權(quán)監(jiān)測(cè)與侵權(quán)取證一站式服務(wù)

騰瑞云CPSP平臺(tái):作品存證、版權(quán)監(jiān)測(cè)與侵權(quán)取證一站式服務(wù)

每日科技熱門(mén)分享
2025-04-02 19:47:01
3-0!2-1!歐冠豪門(mén)悲喜夜:阿森納大勝皇馬創(chuàng)紀(jì)錄 國(guó)米絕殺拜仁

3-0!2-1!歐冠豪門(mén)悲喜夜:阿森納大勝皇馬創(chuàng)紀(jì)錄 國(guó)米絕殺拜仁

侃球熊弟
2025-04-09 03:52:56
太難了!惠州一企業(yè)受最新關(guān)稅政策影響,決定放假,面臨巨大風(fēng)險(xiǎn)

太難了!惠州一企業(yè)受最新關(guān)稅政策影響,決定放假,面臨巨大風(fēng)險(xiǎn)

火山詩(shī)話
2025-04-09 05:55:09
美國(guó)54%關(guān)稅下,我國(guó)這5大行業(yè)深受打擊,中國(guó)老百姓的錢(qián)包要癟?

美國(guó)54%關(guān)稅下,我國(guó)這5大行業(yè)深受打擊,中國(guó)老百姓的錢(qián)包要癟?

振華觀史
2025-04-08 17:57:15
大變局:移動(dòng)公司劃歸公安部!

大變局:移動(dòng)公司劃歸公安部!

運(yùn)營(yíng)商段子手
2025-04-08 00:52:02
特朗普稱美國(guó)將對(duì)藥品征收關(guān)稅

特朗普稱美國(guó)將對(duì)藥品征收關(guān)稅

界面新聞
2025-04-09 09:08:44
梅德韋杰夫:即使俄烏沖突停止,未來(lái)幾十年內(nèi)俄羅斯都不會(huì)削減核武器

梅德韋杰夫:即使俄烏沖突停止,未來(lái)幾十年內(nèi)俄羅斯都不會(huì)削減核武器

每日經(jīng)濟(jì)新聞
2025-04-08 17:46:59
我回家鄉(xiāng)任公安局長(zhǎng),遇見(jiàn)舅媽的小面館被地頭蛇打砸:誰(shuí)來(lái)也沒(méi)用

我回家鄉(xiāng)任公安局長(zhǎng),遇見(jiàn)舅媽的小面館被地頭蛇打砸:誰(shuí)來(lái)也沒(méi)用

七分瘦三分肥
2025-04-07 10:23:40
深圳年薪百萬(wàn)的時(shí)間管理大師

深圳年薪百萬(wàn)的時(shí)間管理大師

一個(gè)島島
2025-04-08 23:03:39
《奧特曼》版權(quán)爭(zhēng)議不斷,CPSP版權(quán)平臺(tái)助力知識(shí)產(chǎn)權(quán)保護(hù)升級(jí)

《奧特曼》版權(quán)爭(zhēng)議不斷,CPSP版權(quán)平臺(tái)助力知識(shí)產(chǎn)權(quán)保護(hù)升級(jí)

科技新知匯
2025-04-08 20:34:25
女網(wǎng)紅自稱遭寺廟老方丈性騷擾,卻不肯透露事發(fā)地,最終被網(wǎng)友挖出真相

女網(wǎng)紅自稱遭寺廟老方丈性騷擾,卻不肯透露事發(fā)地,最終被網(wǎng)友挖出真相

可達(dá)鴨面面觀
2025-04-08 17:53:09
離岸人民幣(CNH)兌美元北京時(shí)間04:59報(bào)7.4257元,較周一紐約尾盤(pán)跌807點(diǎn)

離岸人民幣(CNH)兌美元北京時(shí)間04:59報(bào)7.4257元,較周一紐約尾盤(pán)跌807點(diǎn)

每日經(jīng)濟(jì)新聞
2025-04-09 05:52:05
很大概率,中國(guó)將面臨有史以來(lái)的一次長(zhǎng)時(shí)間房?jī)r(jià)上漲?你信嗎?

很大概率,中國(guó)將面臨有史以來(lái)的一次長(zhǎng)時(shí)間房?jī)r(jià)上漲?你信嗎?

巢客HOME
2025-04-08 20:27:56
河南:同意取消王力宏演唱會(huì)

河南:同意取消王力宏演唱會(huì)

觀察者網(wǎng)
2025-04-09 07:53:06
日媒披露“日美模擬攻擊中國(guó)軍艦”細(xì)節(jié),中國(guó)使館此前已闡明嚴(yán)正立場(chǎng)

日媒披露“日美模擬攻擊中國(guó)軍艦”細(xì)節(jié),中國(guó)使館此前已闡明嚴(yán)正立場(chǎng)

環(huán)球網(wǎng)資訊
2025-04-09 07:01:53
香港名媛梁齊昕猝逝,年僅33歲,生前舉止太反常,幾天前剛打疫苗

香港名媛梁齊昕猝逝,年僅33歲,生前舉止太反常,幾天前剛打疫苗

古希臘掌管月桂的神
2025-04-09 09:07:12
倫敦、巴黎、柏林 全球抗議大爆發(fā)!

倫敦、巴黎、柏林 全球抗議大爆發(fā)!

每日經(jīng)濟(jì)新聞
2025-04-08 14:33:14
阿森納3-0皇馬,英超贏麻了!官方確認(rèn):下賽季5-7隊(duì)踢歐冠

阿森納3-0皇馬,英超贏麻了!官方確認(rèn):下賽季5-7隊(duì)踢歐冠

葉青足球世界
2025-04-09 05:34:38
梁振英女兒梁齊昕去世,僅33歲,剛打完流感疫苗,最后露面照曝光

梁振英女兒梁齊昕去世,僅33歲,剛打完流感疫苗,最后露面照曝光

180°視角
2025-04-09 09:43:09
2025-04-09 11:00:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評(píng)論獨(dú)家合作
15037文章數(shù) 513525關(guān)注度
往期回顧 全部

科技要聞

馬斯克財(cái)富跌破3000億美元 怨特朗普?

頭條要聞

牛彈琴:特朗普對(duì)全球征收關(guān)稅 三個(gè)國(guó)家反擊最關(guān)鍵

頭條要聞

牛彈琴:特朗普對(duì)全球征收關(guān)稅 三個(gè)國(guó)家反擊最關(guān)鍵

體育要聞

掘金官方:即日起解除馬龍球隊(duì)主帥職務(wù)

娛樂(lè)要聞

金子涵正式宣布退圈,想回歸自己的生活

財(cái)經(jīng)要聞

央地國(guó)資聯(lián)手護(hù)盤(pán) 國(guó)家隊(duì)領(lǐng)銜千億增持潮

汽車要聞

插混純電雙修 寶駿享境預(yù)售13.28萬(wàn)起

態(tài)度原創(chuàng)

旅游
本地
手機(jī)
公開(kāi)課
軍事航空

旅游要聞

熱聞|清明假期將至,熱門(mén)目的地有哪些?

本地新聞

云游中國(guó)|更好濰坊,更好的家

手機(jī)要聞

據(jù)傳iPhone 17 Pro機(jī)型將在相機(jī)應(yīng)用中提供前后雙視頻錄制功能

公開(kāi)課

李玫瑾:為什么性格比能力更重要?

軍事要聞

白宮稱美國(guó)4月12日將與伊朗進(jìn)行直接會(huì)談

無(wú)障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 麻阳| 永丰县| 会东县| 崇左市| 高清| 奉贤区| 水城县| 清水河县| 三亚市| 专栏| 锡林浩特市| 舒兰市| 明溪县| 北碚区| 三亚市| 焦作市| 安义县| 石台县| 松阳县| 义马市| 龙海市| 江都市| 黑河市| 安溪县| 航空| 合江县| 武功县| 中江县| 竹山县| 温州市| 吉木萨尔县| 峨山| 德令哈市| 陇川县| 镇平县| 赞皇县| 米泉市| 皋兰县| 沙坪坝区| 汉川市| 元朗区|