99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

微軟開源“原生1bit”三進制LLM:2B參數(shù),0.4GB內存/單CPU就能跑

0
分享至

西風 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

微軟以小搏大,發(fā)布首個開源2B參數(shù)規(guī)模“原生1bit”LLM——

BitNet b1.58 2B4T,單CPU就能跑,性能與同規(guī)模全精度開源模型相當。



它采用三進制{-1, 0, 1}存儲權重,相較于傳統(tǒng)的16位浮點數(shù)可大幅降低顯存需求。

只需0.4GB內存即可運行。

基于4T token語料訓練,BitNet b1.58 2B4T在保持性能的同時,計算效率突出。

單個CPU即可達到“與人類閱讀速度”相當?shù)乃俣?,每?-7個token,CPU端解碼延遲29ms,能耗低至0.028J。

這種效率使其可在普通筆記本電腦甚至邊緣設備上實時運行。

例如在蘋果M2 CPU上快速運行:



另外值得一提的是,BitNet b1.58 2B4T具有原生訓練優(yōu)勢,與訓練后量化(PTQ)模型對比,避免了PTQ常見的性能衰減

BitNet b1.58 2B4T剛發(fā)布就吸引了大量網(wǎng)友點贊關注,作者們也當起了自己個兒的自來水。



如何實現(xiàn)原生1bit?話不多說,一起來看看技術詳情。

權重映射為三元值{-1, 0, +1}

BitNet b1.58 2B4T模型基于Transformer架構,對核心組件進行了系統(tǒng)性改造。
傳統(tǒng)LLM依賴16bit或32bit浮點數(shù)存儲權重,而BitNet b1.58 2B4T采用一種稱為absmean的量化方案,將權重映射為三元值{-1, 0, +1},平均每個權重僅需1.58bit(log?3≈1.58)來表示。

模型內存占用驟降至0.4GB,僅為同類全精度模型的1/5-1/12。



另外,線性投影中的激活值被量化為8bit整數(shù),采用基于每token的absmax量化策略,團隊還引入subln歸一化,增強量化訓練穩(wěn)定性。

其它關鍵設計包括:

  • 激活函數(shù):前饋網(wǎng)絡(FFN)子層采用ReLU2替代常見的SwiGLU,通過提升模型稀疏性,優(yōu)化了1bit環(huán)境下的計算特性。
  • 位置編碼:使用旋轉位置嵌入(RoPE)。
  • 偏置消除:與Llama等架構一致,所有線性層和歸一化層均移除偏置項,減少參數(shù)量并簡化量化流程。

訓練方面,BitNet b1.58 2B4T采用三階段訓練:大規(guī)模預訓練監(jiān)督微調(SFT)和直接偏好優(yōu)化(DPO)。

先是大規(guī)模預訓練,模型經(jīng)歷了兩階段學習率調度:得益于1bit模型的訓練穩(wěn)定性,初期采用高學習率快速收斂;中期驟降至低水平,使模型能在高質量數(shù)據(jù)上精細化調整。配合動態(tài)權重衰減策略,模型在保持泛化能力的同時避免過擬合。

監(jiān)督微調(SFT)階段,值得注意的是,訓練中采用損失函數(shù)求和而非平均策略,并延長了訓練輪次,這一調整被證明對低精度模型的收斂至關重要。

直接偏好優(yōu)化(DPO)階段,基于UltraFeedback、MagPie等人類偏好數(shù)據(jù)集,模型通過無獎勵模型的直接優(yōu)化,提升了回答的安全性與用戶滿意度,避免了傳統(tǒng)RLHF的高計算成本。

實驗效果方面,BitNet b1.58 2B4T內存占用僅為0.4GB,CPU端解碼延遲29ms,能耗低至0.028J。

在數(shù)學推理任務GSM8K中,BitNet以58.38的準確率遠超Llama 3.2-1B(38.21)和Qwen2.5-1.5B(56.79);在常識推理任務WinoGrande中,BitNet 71.90的得分超同類模型均值(63.55)。



團隊特別指出,BitNet b1.58 2B4T具有原生訓練優(yōu)勢。與訓練后量化(PTQ)模型對比,BitNet的原生1bit訓練策略避免了PTQ常見的性能衰減。



參數(shù)更大的Llama3-8B模型量化至1bit后,也難打BitNet b1.58 2B4T。

和其它1bit模型相比,BitNet b1.58 2B4T也有顯著更強的整體性能,絕大多數(shù)基準測試中取得SOTA。



有關BitNet b1.58 2B4T的具體表現(xiàn),再來看幾個例子。

讓它生成幾個笑話,笑話簡短但也蠻有意思:

  • 稻草人為何成為成功的神經(jīng)外科醫(yī)生?回答是因為它在自己的領域很杰出(outstanding in his field)。



單CPU生成97個token,總耗時3.452秒,每秒處理 28.1 token。

再讓它基于2000年的背景,讓一位PowerPC處理器愛好者和一位英特爾處理器愛好者進行五行辯論。

BitNet b1.58 2B4T生成結果也很快,并且反映了那個時代科技行業(yè)的競爭特性。



微軟在1 bit LLM上的探索

1 bit LLM的實現(xiàn)方法,微軟其實早在2023年就有相關研究,當時就稱為BitNet,用BitLinear替換了nn.Linear





之后,微軟原班人馬在上一篇論文的基礎之上做了優(yōu)化,提出BitNet b1.58,在原始BitNet的基礎上增加了一個額外的0值

也就是“The Era of 1-bit LLMs”這篇論文,用6頁研究引發(fā)網(wǎng)友廣泛關注。



這種方法發(fā)布后,也有不少人在這項研究的基礎之上進行探索。Huggingface Transformers還曾整合了BitNet b1.58,運用一些技巧,使得現(xiàn)有模型可以直接微調到1.58bit。

接著,微軟還開發(fā)并開源了針對GPU和CPU平臺的專用推理庫

BitNet b1.58采用獨特量化方案(1.58bit權重和8bit激活值,W1.58A8)需要專門的實現(xiàn),標準深度學習庫通常缺乏針對這種混合精度、低比特格式的優(yōu)化內核,微軟開發(fā)了專門針對W1.58A8矩陣乘法的自定義CUDA內核。

另外,微軟還開源了bitnet.cpp——一個用于1 bit LLM CPU推理的官方參考C++庫,提供針對標準CPU架構優(yōu)化的內核,旨在高效適配模型的特定量化方案,盡可能避免通用量化庫的開銷或復雜的底層位操作。

技術報告:https://arxiv.org/abs/2504.12285
抱抱臉鏈接:https://huggingface.co/microsoft/bitnet-b1.58-2B-4T

參考鏈接:https://arstechnica.com/ai/2025/04/microsoft-researchers-create-super%e2%80%91efficient-ai-that-uses-up-to-96-less-energy/

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
世乒賽陣容惹爭議!王楚欽沒馬龍保駕棄男雙,再搭孫穎莎混雙保冠

世乒賽陣容惹爭議!王楚欽沒馬龍保駕棄男雙,再搭孫穎莎混雙保冠

三十年萊斯特城球迷
2025-04-21 22:42:46
“特使”黃仁勛抵京,特朗普要給自己找臺階下,中方態(tài)度已有變化

“特使”黃仁勛抵京,特朗普要給自己找臺階下,中方態(tài)度已有變化

國學聚焦
2025-04-22 11:59:22
55順位,砍41+14+3!季后賽也成得分王,難道他也是一名球星?

55順位,砍41+14+3!季后賽也成得分王,難道他也是一名球星?

康泳哥看體育
2025-04-21 13:33:24
突然發(fā)現(xiàn)全國人民都不敢接電話了!

突然發(fā)現(xiàn)全國人民都不敢接電話了!

振華觀史
2025-04-15 13:29:07
羅翔老師解釋婚內強奸,按他的說法,中國有幾億男人都犯過強奸罪

羅翔老師解釋婚內強奸,按他的說法,中國有幾億男人都犯過強奸罪

吳學華看天下
2025-04-21 08:43:37
Netflix《惡緣》突發(fā)道歉聲明! 6位主演表情沉重「認錯」鞠躬:對不起?

Netflix《惡緣》突發(fā)道歉聲明! 6位主演表情沉重「認錯」鞠躬:對不起?

ETtoday星光云
2025-04-21 11:42:13
8000份簡歷無人問津!28歲女碩士揭就業(yè)真相,太讓人心碎了!

8000份簡歷無人問津!28歲女碩士揭就業(yè)真相,太讓人心碎了!

小毅說事
2025-04-20 20:42:07
坐穿板凳!巴薩10號怒踢水瓶發(fā)脾氣:僅9次出場,不滿主帥

坐穿板凳!巴薩10號怒踢水瓶發(fā)脾氣:僅9次出場,不滿主帥

葉青足球世界
2025-04-21 15:56:24
141場!小卡季后賽得分突破3000!

141場!小卡季后賽得分突破3000!

直播吧
2025-04-22 11:15:10
《我的世界》票房53億,位列全球亞軍,和《哪吒2》還差100億

《我的世界》票房53億,位列全球亞軍,和《哪吒2》還差100億

易同學愛談娛樂
2025-04-21 09:04:46
痛心!河北一男一女,在車里活活被燒死,遇難者鄰居發(fā)聲!

痛心!河北一男一女,在車里活活被燒死,遇難者鄰居發(fā)聲!

魔都姐姐雜談
2025-04-21 12:56:47
你干過最不要臉的事是啥?網(wǎng)友:我有幾個秘密實在講不出口

你干過最不要臉的事是啥?網(wǎng)友:我有幾個秘密實在講不出口

娛樂圈人物大賞
2025-04-21 02:04:06
為什么說不要看不起任何人?網(wǎng)友:第二天廠長親自去賠禮道歉

為什么說不要看不起任何人?網(wǎng)友:第二天廠長親自去賠禮道歉

特約前排觀眾
2025-04-17 00:10:06
白人女性是不是很美,為什么?看網(wǎng)友:俄羅斯和中東易出極品美女

白人女性是不是很美,為什么?看網(wǎng)友:俄羅斯和中東易出極品美女

美好客棧大掌柜
2024-12-24 00:15:02
才半到不到,北理宮琳被開除常旭強則遭反噬

才半到不到,北理宮琳被開除常旭強則遭反噬

清暉有墨
2025-04-20 18:38:57
湖狼大戰(zhàn)G2不變陣!僅一人缺席,雷迪克強調一點,里弗斯期待改變

湖狼大戰(zhàn)G2不變陣!僅一人缺席,雷迪克強調一點,里弗斯期待改變

三石記
2025-04-22 09:00:57
曝某地五家公司合招一個女文員,要求在五家公司“流動工作”

曝某地五家公司合招一個女文員,要求在五家公司“流動工作”

可達鴨面面觀
2025-04-20 14:31:28
涉案金額達120萬元!上海徐匯警方破獲一起“薅羊毛”案

涉案金額達120萬元!上海徐匯警方破獲一起“薅羊毛”案

環(huán)球網(wǎng)資訊
2025-04-21 22:07:25
直到看到甲亢哥回國后的表態(tài),才明白,李美越被央視批評真的不冤

直到看到甲亢哥回國后的表態(tài),才明白,李美越被央視批評真的不冤

近史談
2025-04-18 14:23:21
意想不到的結果,中國贏得全球尊重!特朗普終于明白:施壓沒用的

意想不到的結果,中國贏得全球尊重!特朗普終于明白:施壓沒用的

界史
2025-04-22 10:50:40
2025-04-22 12:56:49
量子位 incentive-icons
量子位
追蹤人工智能動態(tài)
10346文章數(shù) 176114關注度
往期回顧 全部

科技要聞

未脫離困境,分析師稱蘋果股價或再跌近30%

頭條要聞

88歲羅馬教皇方濟各突然去世 遺囑內容對外公布

頭條要聞

88歲羅馬教皇方濟各突然去世 遺囑內容對外公布

體育要聞

當今足壇最瘋的門將,能有多離譜?

娛樂要聞

關曉彤分手風波后首現(xiàn)身!甜美狀態(tài)好

財經(jīng)要聞

沐邦高科危險信號:多筆交易存蹊蹺

汽車要聞

捷途山海T2加長版/山海L9等 捷途新車展前亮相

態(tài)度原創(chuàng)

旅游
親子
健康
游戲
公開課

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

親子要聞

幼兒園升國旗,唱國歌,小男孩的愛國情懷到骨子里了

唇皰疹和口腔潰瘍是"同伙"嗎?

專訪騰訊陳侃:想給老朋友們一個“再聚首”的契機

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 科技| 赫章县| 潜山县| 五常市| 开平市| 抚远县| 崇阳县| 都兰县| 隆林| 台东市| 宜川县| 天津市| 靖远县| 政和县| 龙泉市| 公安县| 开封县| 永仁县| 江门市| 满洲里市| 莱芜市| 金寨县| 南昌县| 永济市| 家居| 乐都县| 靖西县| 德化县| 安国市| 南木林县| 大足县| 吉安县| 白水县| 佳木斯市| 体育| 枣阳市| 迁安市| 小金县| 洪江市| 平乡县| 鹰潭市|