99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

僅需0.4GB,參數(shù)只有0和±1!微軟開源首個原生1 bit模型,CPU輕松跑

0
分享至


新智元報道

編輯:定慧 好困

【新智元導(dǎo)讀】微軟研究院開源的原生1bit大模型BitNet b1.58 2B4T,將低精度與高效能結(jié)合,開創(chuàng)了AI輕量化的新紀元。通過精心設(shè)計的推理框架,BitNet不僅突破了內(nèi)存的限制,還在多項基準測試中表現(xiàn)出色,甚至與全精度模型不相上下。

大模型輕量化終于又有好玩的了。

就在最近,微軟亞研院開源了第一款參數(shù)量達到20億,并且還是原生1bit精度的LLM——BitNet b1.58 2B4T。


論文地址:https://arxiv.org/abs/2504.12285

這個模型好玩在三個點上,其實都在模型名字里了:

1. b1.58量化

這個模型里的參數(shù),一共只有{-1, 0, +1}三種數(shù)值,很難想象知識是如何壓縮在里面的!(根據(jù)信息論計算公式,這個模型的精度就是≈1.58,如果是純粹的1bit量化,那么只有兩個數(shù)值)。

2. 模型非常的小!

參數(shù)只有2B,和動輒14B、32B、617B等全量模型相比,大小還不到他們零頭,并且由于參數(shù)的精度壓縮到極低,所以這個模型只有0.4GB的大小。

3. 針對CPU的推理框架

使用為CPU架構(gòu)專門設(shè)計的開源推理框架BitNet來運行,微軟已經(jīng)花了1-2年的時間來完善了這個框架。


這種低精度、低參數(shù),并且能在CPU上原生推理的大模型,為端側(cè)AI開啟了無限可能性。

甚至未來有可能可以部署在家里的電飯煲或者冰箱中,成為真正的「AI智能體」。

首個開源原生1bit模型

微軟推出的BitNet b1.58 2B4T是首個開源的、原生1 bit的LLM,參數(shù)規(guī)模達到20億。

該模型在包含4萬億個Token的語料庫上進行訓練,別看它小,這個模型在涵蓋語言理解、數(shù)學推理、編碼熟練度和對話能力的基準測試中都進行了嚴格評估。

只有三種參數(shù)的BitNet b1.58 2B4T的性能與同類大小全精度的LLM相當。


上圖可以看到,BitNet b1.58 2B4T在30億參數(shù)以下的模型中,就性能與內(nèi)存而言,取得了不錯的平衡。

在11個基準測試中的平均分已經(jīng)和1.5B和2B的全精度模型相當,用微軟自己的話說就是,「推進了由領(lǐng)先的開放權(quán)重LLMs定義的帕累托前沿,展示了更高的效率」。

同時,BitNet b1.58 2B4T在計算效率方面提供了顯著優(yōu)勢,包括大幅減少的內(nèi)存占用、能耗和解碼延遲。

該模型的權(quán)重已經(jīng)通過 Hugging Face 發(fā)布,并提供了針對GPU和CPU架構(gòu)的開源推理實現(xiàn)。


極限的技術(shù)探索

開源LLMs已經(jīng)是AI領(lǐng)域非常重要的一股力量,但是由于部署和推理所需的大量計算資源(簡單說就是沒卡)阻礙了社區(qū)發(fā)展——雖然開源了,但是大部分人都玩不了。

1-bit LLMs,代表了一種極端但是非常有前景的模型量化形式。

當模型的權(quán)重被限制為二進制{-1, +1}或三進制{-1, 0, +1},通過大幅減少存儲權(quán)重所需的內(nèi)存并實現(xiàn)高效的位運算,它們有可能顯著降低部署成本、減少能耗并加速推理速度。

微軟的這項工作證明,當原生1 bit LLMs在大規(guī)模上數(shù)據(jù)集有效訓練時,可以實現(xiàn)與全精度類似規(guī)模的模型相媲美的性能。

BitNet b1.58 2B4T的架構(gòu)采用標準的Transformer模型,并基于BitNet框架進行了修改,該模型完全從零開始訓練——參數(shù)并不是后期量化成{-1, 0, +1},而是原生訓練。

預(yù)訓練技術(shù)路線

預(yù)訓練語料庫由公開可用的文本和代碼數(shù)據(jù)集組成,包括大型網(wǎng)絡(luò)爬蟲數(shù)據(jù)集,如DCLM和教育網(wǎng)頁數(shù)據(jù)集,如 FineWeb-EDU。

為了增強數(shù)學推理能力,還加入了合成生成的數(shù)學數(shù)據(jù)。

在預(yù)訓練之后,模型進行了有監(jiān)督微調(diào)(SFT),以提高其指令跟隨能力,并改善其在對話互動格式中的表現(xiàn)。

SFT階段使用了多種公開可用的指令跟隨和對話數(shù)據(jù)集。

為了進一步增強特定能力,特別是在推理和復(fù)雜指令遵循方面,還補充了使用GLAN和 MathScale方法生成的合成數(shù)據(jù)集。

為了進一步使模型的行為與人類對有用性和安全性的偏好保持一致,在SFT 階段之后應(yīng)用了直接偏好優(yōu)化(DPO)。

DPO是一種比傳統(tǒng)的RLHF更高效的替代方法,它通過直接優(yōu)化語言模型并利用偏好數(shù)據(jù),避免了訓練單獨獎勵模型的需求。

DPO 階段進一步精煉了模型的對話能力,并使其更好地與實際使用中的預(yù)期交互模式保持一致。

性能評估

通過多種基準測試來衡量模型的表現(xiàn),這些基準測試包括了:

  • 語言理解與推理

  • 世界知識

  • 閱讀理解

  • 數(shù)學與代碼

  • 指令跟隨與對話

如表1所示,BitNet b1.58 2B4T展現(xiàn)了顯著的資源效率。

與所有評估過的全精度模型相比,它的非嵌入內(nèi)存占用和解碼過程中估算的能耗明顯較低。

內(nèi)存占用為0.4GB,輸出延遲為29ms。


在任務(wù)表現(xiàn)方面,BitNet b1.58 2B4T也表現(xiàn)得非常具有競爭力。

它在多個涵蓋推理、知識和數(shù)學能力的基準測試中取得了最佳結(jié)果。

進一步通過與Qwen2.5 1.5B的后訓練量化(PTQ)版本進行比較,探索效率與性能之間的權(quán)衡,使用了標準的INT4方法(GPTQ和AWQ)。


INT4量化雖然成功地減少了全精度模型的內(nèi)存占用(從2.6GB下降到0.7GB),但由于原生的1 bit架構(gòu),BitNet b1.58 2B4T的內(nèi)存需求更低。

更重要的是,這種卓越的內(nèi)存效率并沒有犧牲與量化模型相比的性能。

標準的后訓練量化(PTQ)技術(shù)會導(dǎo)致相較于原始全精度模型,性能出現(xiàn)明顯下降(從平均55.72下降到了51.17)。

相比之下,BitNet b1.58 2B4T在評估的基準測試中表現(xiàn)優(yōu)于Qwen2.5-1.5B的INT4量化版本。

最后,將BitNet b1.58 2B4T與其他針對或量化到接近1 bit精度的模型進行比較。

評估結(jié)果明確地將BitNet b1.58 2B4T定位為該類別的領(lǐng)先模型。

BitNet b1.58 2B4T在大多數(shù)基準測試中取得了最高分,表現(xiàn)遠超所有其他比較的 1 位模型。


推理部署:GPU/CPU都能跑

高效的推理對于LLM的部署至關(guān)重要,尤其是在資源受限的環(huán)境中。

BitNet b1.58 2B4T采用1.58位權(quán)重和8位激活的獨特量化方案,因此需要專門的實現(xiàn)方式,因為標準的深度學習庫通常缺乏針對這種混合精度、低位格式的優(yōu)化內(nèi)核。


為了解決這個問題,微軟開發(fā)并開源了專門的推理庫,支持GPU和CPU平臺,特別地,針對CPU開發(fā)了bitnet.cpp。

bitnet.cpp是一個C++庫,作為1 bit大規(guī)模語言模型(LLM)在CPU上推理的官方參考實現(xiàn),bitnet.cpp提供了針對標準CPU架構(gòu)優(yōu)化的內(nèi)核,旨在高效執(zhí)行。


但路還很長

微軟研究院提供了一個在線的,已經(jīng)部署好的體驗網(wǎng)站。

并且分為了CPU部署和GPU A100部署兩種模式。


讓我們實測一下,這個模型到底能不能用?

可以看到,不論是CPU還是GPU,輸出內(nèi)容的都還不錯。



看來微軟所言非虛,這次這個模型還得很能打的。

簡單測試一下數(shù)學問題,整體輸出還是OK的,輸出速率在27 token/s。


寫代碼也不在話下。


總而言之,微軟研究院發(fā)布的BitNet b1.58 2B4T模型,以其僅20億參數(shù)、創(chuàng)新的原生1.58位量化技術(shù)(參數(shù)僅為{-1, 0, +1})和僅0.4GB的大小,代表了LLM輕量化的一次重要探索。

雖然各個指標方面都追求極致的縮小,但是這個模型保持了與同等規(guī)模全精度模型相當性能。

盡管實際測試顯示其在特定任務(wù)(如非英語處理)上仍有局限。

但其開源特性和展現(xiàn)出的潛力,無疑為資源受限的端側(cè)AI部署開啟了新的想象空間。

1-bit的嘗試是極限的,但是通往未來AI的道路是無限的。

作者介紹

韋福如


韋福如博士現(xiàn)任微軟杰出科學家,領(lǐng)導(dǎo)團隊從事基礎(chǔ)模型、自然語言處理、語音處理和多模態(tài)人工智能等領(lǐng)域的研究。

近年來,他還致力于領(lǐng)導(dǎo)和推進通用型人工智能的基礎(chǔ)研究和創(chuàng)新。

韋博士還擔任西安交通大學和中國科技大學兼職博士生導(dǎo)師,香港中文大學教育部-微軟重點實驗室聯(lián)合主任。

馬樹銘


馬樹銘(Shuming Ma)是微軟亞洲研究院(MSRA)自然語言計算組的研究員,工作地點位于中國北京。

在加入微軟亞洲研究院之前,于2019年獲得了北京大學的碩士和學士學位,研究方向主要為自然語言處理。

馬樹銘的研究興趣集中在大規(guī)模預(yù)訓練語言模型領(lǐng)域。已經(jīng)在頂級學術(shù)會議上發(fā)表了30多篇論文,包括ICML、ICLR、ACL、EMNLP等。

王鴻鈺


現(xiàn)為中國科學院(CAS)三年級博士研究生。本科畢業(yè)于中國科學技術(shù)大學(USTC)計算機科學與技術(shù)系,期間在錢超副研究員的指導(dǎo)下進行學習和研究。

目前在微軟亞洲研究院(MSRA)通用人工智能組(GenAI)擔任研究實習生,受韋福如博士和馬樹銘博士的指導(dǎo),實習時間為2021年8月至今。

參考資料:

https://arxiv.org/abs/2504.12285

https://huggingface.co/papers/2504.12285

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
吃著中國飯砸中國碗,尹錫悅二審前夕,中國人怎么還躺槍了

吃著中國飯砸中國碗,尹錫悅二審前夕,中國人怎么還躺槍了

記錄生活日常阿蜴
2025-04-22 20:14:11
老人地鐵辱罵農(nóng)民工后續(xù)!兒子說出父親工作細節(jié),要為父親討公道

老人地鐵辱罵農(nóng)民工后續(xù)!兒子說出父親工作細節(jié),要為父親討公道

鋭娛之樂
2025-04-21 20:49:50
會吃的已經(jīng)在北京吃起“駐京辦”了

會吃的已經(jīng)在北京吃起“駐京辦”了

平祥生活日志
2025-04-22 17:35:59
大反轉(zhuǎn)!2025年1月燃油車份額從46%增至59%,比亞迪和新勢力慌了

大反轉(zhuǎn)!2025年1月燃油車份額從46%增至59%,比亞迪和新勢力慌了

小鵬財經(jīng)
2025-02-24 09:30:57
直播4天賣100萬,反詐老陳稱農(nóng)產(chǎn)品傭金低只有不到8萬元

直播4天賣100萬,反詐老陳稱農(nóng)產(chǎn)品傭金低只有不到8萬元

大象新聞
2025-04-21 16:22:04
太陽簽贏麻了!火箭幸運獲得樂透9號簽,并有概率獲得弗拉格

太陽簽贏麻了!火箭幸運獲得樂透9號簽,并有概率獲得弗拉格

肖語談
2025-04-22 11:23:06
葉珂為黃曉明誕下一女,黃曉明推掉3個商務(wù)陪產(chǎn),也算是兒女雙全

葉珂為黃曉明誕下一女,黃曉明推掉3個商務(wù)陪產(chǎn),也算是兒女雙全

芊手若
2025-02-26 15:00:28
重磅!雷克薩斯ES“大換代”啦!4月23日上海國際車展首發(fā)亮相!

重磅!雷克薩斯ES“大換代”啦!4月23日上海國際車展首發(fā)亮相!

沙雕小琳琳
2025-04-22 13:25:31
物業(yè)不讓在門口放鞋柜,怎么辦?看看網(wǎng)友的應(yīng)對方法,可真機智!

物業(yè)不讓在門口放鞋柜,怎么辦?看看網(wǎng)友的應(yīng)對方法,可真機智!

娛樂帝皇丸
2025-04-22 17:26:57
大眾輝騰不計成本的“工業(yè)奇跡”!堪稱藝術(shù)品的后備箱支架

大眾輝騰不計成本的“工業(yè)奇跡”!堪稱藝術(shù)品的后備箱支架

沙雕小琳琳
2025-04-22 13:56:46
若倫納德還能如此神勇,快船可能奔著奪冠去了

若倫納德還能如此神勇,快船可能奔著奪冠去了

籃球掃地僧
2025-04-22 19:42:55
炸鍋!中國官宣留學生新政引爆!QS前200可直接選拔軍官,澳洲15所高校上榜

炸鍋!中國官宣留學生新政引爆!QS前200可直接選拔軍官,澳洲15所高校上榜

澳洲紅領(lǐng)巾
2025-04-22 12:28:38
官方:奧運冠軍馬龍、樊振東、陳夢本人確認不參加多哈世乒賽

官方:奧運冠軍馬龍、樊振東、陳夢本人確認不參加多哈世乒賽

懂球帝
2025-04-21 22:07:46
禍從口出?新聞發(fā)布會后 哈里森被解雇的概率飆升至44%

禍從口出?新聞發(fā)布會后 哈里森被解雇的概率飆升至44%

直播吧
2025-04-22 06:29:12
中國斯諾克大捷!10-4、10-9、6-3,丁俊暉、趙心童5將晉級+領(lǐng)先

中國斯諾克大捷!10-4、10-9、6-3,丁俊暉、趙心童5將晉級+領(lǐng)先

全能體育柳號
2025-04-22 06:46:31
打破謠言,德崇扶南運河全面加速,汪文斌特意提醒中企一件事

打破謠言,德崇扶南運河全面加速,汪文斌特意提醒中企一件事

男女那點事兒兒
2025-04-22 16:31:06
離隊!廣東防守大閘返回美國 下賽季續(xù)約是未知

離隊!廣東防守大閘返回美國 下賽季續(xù)約是未知

胖子噴球
2025-04-21 20:41:31
俄媒:一旦戰(zhàn)爭爆發(fā)中國將被圍攻,對中國而言,最危險的不只戰(zhàn)爭

俄媒:一旦戰(zhàn)爭爆發(fā)中國將被圍攻,對中國而言,最危險的不只戰(zhàn)爭

大國紀錄
2025-03-07 11:15:20
北京知名美式烤肉店棄用美國牛肉

北京知名美式烤肉店棄用美國牛肉

看看新聞Knews
2025-04-22 15:27:02
C919誰又定600架? 美國為C919航發(fā)埋雷,不料我國突然換了玩法

C919誰又定600架? 美國為C919航發(fā)埋雷,不料我國突然換了玩法

紅色鑒史官
2025-04-21 23:00:03
2025-04-22 21:24:49
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
12575文章數(shù) 66019關(guān)注度
往期回顧 全部

科技要聞

美團騎手親述:京東外賣單子傭金高卻難搶

頭條要聞

中央巡視組進駐后李明月被查 曾稱我號碼老百姓都知道

頭條要聞

中央巡視組進駐后李明月被查 曾稱我號碼老百姓都知道

體育要聞

當今足壇最瘋的門將,能有多離譜?

娛樂要聞

關(guān)曉彤分手風波后首現(xiàn)身!甜美狀態(tài)好

財經(jīng)要聞

宜賓銀行與五糧液集團頻繁關(guān)聯(lián)交易

汽車要聞

捷途山海T2加長版/山海L9等 捷途新車展前亮相

態(tài)度原創(chuàng)

本地
教育
家居
健康
公開課

本地新聞

云游湖北 | 澴川醉古今!孝文化名城藏了多少寶藏?

教育要聞

2025濟南、青島中考藝體生統(tǒng)考細則公布!

家居要聞

動靜結(jié)合 休閑娛樂并存

唇皰疹和口腔潰瘍是"同伙"嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 大同县| 离岛区| 蒲城县| 张家港市| 揭阳市| 托里县| 嘉义市| 高邑县| 涿州市| 东莞市| 都安| 靖安县| 平谷区| 卢氏县| 楚雄市| 南和县| 新河县| 清苑县| 宝山区| 桑植县| 双流县| 皮山县| 邮箱| 庄河市| 合肥市| 松溪县| 京山县| 灌阳县| 揭西县| 博兴县| 康定县| 喜德县| 洛南县| 淳化县| 托克逊县| 镇远县| 聂拉木县| 双江| 宜兰市| 会泽县| 阳谷县|