99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

上交大等探索鍵值壓縮的邊界:MILLION框架定義模型量化推理范式

0
分享至




本篇工作已被電子設計自動化領域頂級會議 DAC 2025 接收,由上海交大計算機學院蔣力教授與劉方鑫助理教授帶領的 IMPACT 課題組完成,同時也獲得了華為 2012 實驗室和上海期智研究院的支持。第一作者是博士生汪宗武與碩士生許鵬。

在通用人工智能的黎明時刻,大語言模型被越來越多地應用到復雜任務中,雖然展現出了巨大的潛力和價值,但對計算和存儲資源也提出了前所未有的挑戰。在以 transformer 模型為基礎的大模型中,鍵值緩存雖然用以存代算的思想顯著加速了推理速度,但在長上下文場景中成為了存儲瓶頸。例如,半精度的 LLaMA-2-7B 模型權重約 14GB,在上下文長度為 128K 時鍵值緩存占據 64GB,總和已經接近高端卡 NVIDIA A100 的 80GB 顯存容量上限。鍵值量化可被用于壓縮緩存,但往往受到異常值的干擾,導致模型性能的顯著下降。為此,本文的研究者提出了 MILLION,一種基于乘積量化的鍵值緩存壓縮和推理加速設計。



  • arxiv 鏈接:https://arxiv.org/abs/2504.03661
  • 開源鏈接:https://github.com/ZongwuWang/MILLION

整型量化的軟肋:異常值



圖 1:矩陣量化可視化。紅色代表的異常值顯著大于其他值,導致均勻量化后高位編碼被浪費。

量化中受到廣泛使用的整型均勻量化受到異常值的影響較為顯著。圖 1 展示了矩陣中的量化。在一組分布較為集中的數據中,一個顯著偏離其他值的異常值會導致其他值的量化結果全部落在較低區間,浪費了高位編碼的表示能力。



圖 2:圖中使用 「通道熵」 定量比較不同方案的量化效果,越大表明越有效地利用了通道容量,即整型的寬度。沿通道量化只能解決沿該方向分布的異常值,而在面對另一方向異常值時效果不佳。

在實際的鍵值量化中,為了更好的表示能力,通常對于每個通道(即鍵值向量的維度)或每個 token 采取不同的量化參數,這種方法被稱為沿通道量化(channel-wise quantization)或沿詞元量化(token-wise quantization)。然而,如圖 2 所示,沿特定方向量化只能解決沿該方向分布的異常值。



圖 3:實際采樣獲得的鍵值緩存分布。在 llama-2-7b-wikitext-103-v1-layer10-value 中,異常值并不遵循簡單的沿通道分布,而是呈現為較復雜的點狀和團狀。

研究團隊通過實際采樣數據發現,在鍵值緩存中,沿通道方向分布的異常值占多數,但也存在并不明顯的情況,如圖 3 所示。這表明,上述量化方案并不是一勞永逸的解決方式,仍然存在優化空間。

異常值的解決方案:乘積量化



圖 4:數軸上的均勻和非均勻量化對比。在對 8 個數據點進行 2 比特量化過程中,均勻量化浪費了 10 編碼。而基于聚類的非均勻量化則編碼更合理。

如圖 4 所示,非均勻量化通過聚類的方式允許量化區間不等長,從而更合理地分配編碼,提升量化效率。研究團隊觀察到,由于通道間的數據分布可能存在關聯(即互信息非負),將通道融合后在向量空間中聚類,效果一定不亞于獨立通道的量化,如圖 5 所示。



圖 5:左圖為兩個通道獨立進行 1 比特量化,右圖為在通道融合后進行 4 分類的 KMeans 聚類。融合通道量化的通道熵更加接近 2 比特的容量極限,展示出更好的量化效果。

由于高維空間中聚類較為困難,因此將整個向量空間劃分為多個低維子空間的笛卡爾積,可以平衡聚類復雜度和量化效果。這與最近鄰搜索中使用的乘積量化思想一致。研究團隊通過實驗發現,子空間維度為 2 或 4 是較好的平衡點。

推理加速手段:高效的系統和算子實現



圖 6:三階段的推理系統設計



圖 7:分塊注意力機制使得批量延遲量化成為可能

圖 6 展示了離線訓練、在線預填充、在線解碼三階段的量化推理系統設計。其中,碼本訓練(量化校準)屬于秒級輕量化任務,并且離線進行,不影響運行時開銷;在線預填充階段使用訓練好的碼本對鍵值緩存進行量化壓縮,達到節省顯存的目的;在線解碼階段采用分塊注意力機制的方法,將預填充階段的歷史注意力和生成 token 的自注意力分開計算(如圖 7 所示),達成批量延遲量化的目的,掩藏了在線量化的開銷,確保模型輸出的高速性。并且,在歷史注意力階段,由于歷史鍵值對數遠大于碼本長度,因此先用查詢向量與碼本計算好非對稱距離查找表(ad-LUT),可以大大減少內積距離計算量,達到加速計算的目的。



圖 8:向量化加載可有效使帶寬飽和

在算子優化方面,研究團隊在 flash decoding 的基礎上使用了寬數據(如 float4)向量化加載的方式,將多個乘積量化編碼打包為寬數據,有效使帶寬飽和(如圖 8 所示)。同時,在表查找階段,子空間之間的表具有獨立性,并且可以被放入少量緩存行中,研究團隊利用這一空間局部性極大提高了表查找的 L2 緩存命中率。此外,研究團隊還仔細掃描了不同上下文長度下可能的內核參數,找到最優配置,形成了細粒度的預設,在實際運行時動態調整,充分利用 GPU 的計算資源。具體實現可以在開源倉庫中找到。

實驗結果

實驗設置



圖 9:實驗設置

實驗采用了不同位置編碼、不同上下文長度的多種模型進行了詳細的評估。在模型性能方面,采用困惑度(Perplexity,PPL)和 Longbench 兩種指標;在系統性能方面,采用每詞元輸出間隔(Time Per Output Token, TPOT)定量分析,并給出了注意力層詳細的剖析。對比采用方案和乘積量化參數如圖 9 所示。

模型性能



圖 10:困惑度指標。其中 「-1%」 表示該方法額外存儲 1% 的異常值不參與量化。

困惑度越小表明模型輸出質量越高。實驗結果表明,MILLION 與額外處理了異常值的 SOTA 方案輸出質量保持一致,展現出對異常值良好的魯棒性。而 SOTA 方案在不處理異常值的情況下可能會遭遇嚴重的輸出質量損失。



圖 11:Longbench 問答數據集得分展示

在長對話問答任務中,不同模型在各種數據集上的得分均表明,MILLION 方案能夠在 4 倍鍵值緩存壓縮效率下保持幾乎無損的表現。

系統性能



圖 12:每詞元輸出時間。對比其他方案,MILLION 的優勢持續增長,在 32K 上下文時達到 2 倍加速比。



圖 13:注意力層時間剖析

在 TPOT 評估中,MILLION 能夠在 32K 上下文語境下同時達成 4 倍鍵值緩存壓縮比和 2 倍端到端加速比。注意力層的深入分析表明,MILLION 在訪存和內核函數方面對比 baseline 取得顯著優勢。

總結

MILLION 的主要貢獻在于:(1)深入分析鍵值緩存分布;(2)提出基于乘積量化的非均勻量化算法;(3)設計高效的推理系統及內核。研究團隊首先證實了鍵值緩存中異常值存在的普遍性,并指出異常值的不同分布是當前主流的量化方案精度不足的根本原因;然后提出通過將高維向量空間分解為多個子空間,并在每個子空間內獨立進行向量量化的方法,更有效地利用了通道間的互信息,并且對異常值展現出極強的魯棒性;接著通過 CUDA 異步流和高效的算子設計,充分利用了 GPU 的并行計算能力和內存層次結構,以支持乘積量化的高效執行。實驗表明,對比主流框架 transformers 的半精度實現,MILLION 在 32K 上下文場景中同時達成 4 倍壓縮率和 2 倍加速比,并且在多種語言任務中精度表現幾乎無損。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
姐弟擠8平米出租屋,光膀同睡引罵戰,下月房租漲了怎么辦?

姐弟擠8平米出租屋,光膀同睡引罵戰,下月房租漲了怎么辦?

芭比衣櫥
2025-04-30 07:02:16
朝鮮突然改口!承認出兵俄羅斯參戰,不到24小時,中方發文回應

朝鮮突然改口!承認出兵俄羅斯參戰,不到24小時,中方發文回應

井普椿的獨白
2025-04-29 19:53:40
多哈世乒賽男單簽表:王楚欽、林高遠同1/8區;林詩棟、梁靖崑同1/4區

多哈世乒賽男單簽表:王楚欽、林高遠同1/8區;林詩棟、梁靖崑同1/4區

懂球帝
2025-04-30 22:22:10
廣西6市發布最新人事信息,涉及副市長任命

廣西6市發布最新人事信息,涉及副市長任命

魯中晨報
2025-04-30 14:24:04
5人被查處!西安市紀委監委公開通報

5人被查處!西安市紀委監委公開通報

西安觀察
2025-04-30 23:16:57
你無意中看到了什么不該看的東西?網友:每一個都是炸裂的存在

你無意中看到了什么不該看的東西?網友:每一個都是炸裂的存在

美好客棧大掌柜
2024-11-03 05:55:57
歐盟突然對中國加征關稅,是否美國背后指使?中國迅速反擊

歐盟突然對中國加征關稅,是否美國背后指使?中國迅速反擊

漣漪讀史
2025-04-30 10:01:55
真炸裂!李晨和baby的瓜爆了,大家都等著看戲

真炸裂!李晨和baby的瓜爆了,大家都等著看戲

豬小果的泡泡糖
2025-03-20 13:22:34
她10歲就發表作品,“天才”女醫學生董小姐勁爆照流出,細節還原

她10歲就發表作品,“天才”女醫學生董小姐勁爆照流出,細節還原

說點真嘞叭
2025-05-01 04:51:45
巡回護士微信曝光,當時更多細節曝出,護士長袒護,醫院和稀泥

巡回護士微信曝光,當時更多細節曝出,護士長袒護,醫院和稀泥

娛樂看阿敞
2025-04-29 14:03:41
主動給3年房租,“還發生活照給我”!當女房東遇上帥氣租客

主動給3年房租,“還發生活照給我”!當女房東遇上帥氣租客

大象新聞
2025-04-29 14:54:14
勸告子女們,再孝順,也千萬不要為70歲后的老人,做這三件事!

勸告子女們,再孝順,也千萬不要為70歲后的老人,做這三件事!

生活不過如此呀
2025-03-21 06:20:05
中國男籃第二名歸化球員曝光,郭士強再收喜訊

中國男籃第二名歸化球員曝光,郭士強再收喜訊

宗介說體育
2025-04-11 14:43:28
韓媒警告:韓國已不是清朝時期國家!若發生對抗,中方要掂量后果

韓媒警告:韓國已不是清朝時期國家!若發生對抗,中方要掂量后果

顧史
2025-04-29 21:27:04
我媽和情夫在一起47年,我爸視而不見,她70歲生日大壽上絕地反擊

我媽和情夫在一起47年,我爸視而不見,她70歲生日大壽上絕地反擊

濤哥講堂
2025-04-22 17:30:29
10年拿下8個影后,寧愿餓死也不接廣告的她,如今卻無戲可拍

10年拿下8個影后,寧愿餓死也不接廣告的她,如今卻無戲可拍

飄飄然的娛樂匯
2025-04-29 21:25:08
36歲已婚婦女和鄰居纏綿,結果26歲鄰居也要加入,結果被殺害

36歲已婚婦女和鄰居纏綿,結果26歲鄰居也要加入,結果被殺害

胖胖侃咖
2023-12-15 08:00:10
中醫大夫說話是歹毒又直接!看網友分享,去看個病能尷尬死人

中醫大夫說話是歹毒又直接!看網友分享,去看個病能尷尬死人

墻頭草
2025-04-30 08:41:38
大局已定!5月起天津將全面爆發!市區山姆、免稅店、拆遷、漲工資··全是好消息!

大局已定!5月起天津將全面爆發!市區山姆、免稅店、拆遷、漲工資··全是好消息!

天津人
2025-04-30 21:29:59
ESPN:火箭將評估年輕球員季后賽表現 若進行大交易將放棄一些人

ESPN:火箭將評估年輕球員季后賽表現 若進行大交易將放棄一些人

直播吧
2025-05-01 00:30:09
2025-05-01 06:08:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10432文章數 142300關注度
往期回顧 全部

科技要聞

DeepSeek發布Prover-V2模型 參數量6710億

頭條要聞

印度宣布即日起對所有巴基斯坦航班關閉領空

頭條要聞

印度宣布即日起對所有巴基斯坦航班關閉領空

體育要聞

“魚有一條尾巴,而我有一條腿。”

娛樂要聞

災難性公關 毀掉曾黎二十年人緣積累

財經要聞

美國經濟萎縮 一季度GDP年化初值-0.3%

汽車要聞

智能升格滿載出發 全新攬境:再給燃油車一次機會

態度原創

數碼
本地
親子
公開課
軍事航空

數碼要聞

華碩天選 6 Pro 開售,國補后 7599 元起

本地新聞

春色滿城關不住 | 花漾千陽!塬上秘境藏幾重詩意?

親子要聞

倆老外又要發愁了!五一假期去哪里玩兒啊!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

解放軍儀仗隊參加俄勝利日閱兵彩排

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 鹤庆县| 德保县| 策勒县| 滕州市| 南城县| 贵阳市| 班玛县| 昌平区| 滁州市| 武鸣县| 兴义市| 马公市| 屯门区| 介休市| 玉环县| 松江区| 宁阳县| 厦门市| 繁昌县| 鄂伦春自治旗| 旅游| 富川| 旺苍县| 垫江县| 昂仁县| 梁平县| 海门市| 读书| 从江县| 峨边| 寿宁县| 阿巴嘎旗| 阿勒泰市| 渭源县| 大埔县| 莱西市| 肃北| 理塘县| 江西省| 吉木萨尔县| 乐业县|