99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

字節Seed團隊PHD-Transformer突破預訓練長度擴展!破解KV緩存膨脹

0
分享至



機器之心報道

編輯:杜偉

最近,DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后訓練階段探索了長度擴展(length scaling),通過強化學習(比如 PPO、GPRO)訓練模型生成很長的推理鏈(CoT),并在奧數等高難度推理任務上取得了顯著的效果提升。

受此啟發,研究人員開始探索預訓練階段的長度擴展,已有方法包括在序列中插入文本、插入潛在向量(如 Coconut)、復用中間層隱藏狀態(如 CoTFormer)以及將中間隱藏狀態映射為概念(如 COCOMix)。不過,這些方法普遍存在問題,比如需要更大的 KV 緩存導致推理慢 / 占內存多。

本文中,來自 ByteDance Seed 團隊的研究者提出了更簡單的方法:直接重復輸入 tokens(1/2/3/4 次),不做中間層處理。他們觀察到了訓練損失和模型性能隨重復倍數擴展的趨勢,如下圖 1a 和 1b 所示。但是,直接重復 tokens 也帶來了新問題,包括 KV 緩存規模線性增加,內存壓力大;預填充時間超線性增加;解碼延遲變長。這些都是實現預訓練長度擴展需要重點解決的挑戰。



  • 論文標題:Efficient Pretraining Length Scaling
  • arXiv 地址:https://arxiv.org/pdf/2504.14992

研究者提出了一種推理友好的新穎長度擴展方法,核心是 PHD-Transformer(Parallel Hidden Decoding Transformer),它保持了與原始 transformer 相同的 KV 緩存大小,同時實現有效的長度擴展。PHD-Transformer 通過創新的 KV 緩存管理策略實現了這些能力。

具體來講,研究者將第一個 token 表示原始 token,將重復的 token 表示為解碼 token。同時僅保留從原始 token 生成的 KV 緩存來用于長距離依賴建模,并在隱藏解碼 token 用于下一個 token 預測之后丟棄它們的 KV 緩存。因此,PHD-Transformer 提供了與原始 transformer 相同的 KV 緩存,同時相較于簡單的 token 重復實現了顯著的推理加速(如圖 1d 所示)。



研究者還注意到,在 PHD-SWA 中,隱藏解碼 token 的 KV 緩存表現出了順序依賴關系,這導致預填充時間呈線性增長。為了解決這個問題,研究者提出了逐塊滑動窗口注意力 —— PHD-CSWA,從而限制了每個塊內的順序依賴關系。

因此,得益于只有最后一個塊的預填充時間呈線性增長,PHD-CSWA 顯著縮短了預填充時間(如圖 1c 所示)。



方法概覽



研究者在推理過程中實現了與原始 Transformer 相同的 KV 緩存大小和內存訪問模式。雖然需要 K 次 FLOP,但這些計算可以并行處理,從而在內存受限的推理場景中最大限度地降低延遲開銷。該架構的核心優勢在于原始 token 和隱藏解碼 token 之間的解耦。在預填充期間,只有原始 token 需要計算。

這種設計確保預填充時間與原始 Transformer 相同,并且無論擴展因子 K 如何變化,預填充時間都保持不變。而對于損失計算,研究者僅使用 token 的最終副本進行下一個 token 的預測。總之,使用 token 的第一個副本進行 KV 緩存生成,使用 token 的最后一個副本進行下一個 token 的預測。



內核設計





PHD-SWA 和 PHD-CSWA

與簡單的 token 重復相比,PHD-Transformer 在保持原始 KV 緩存大小的同時實現了長度擴展。然而通過經驗觀察到,為隱藏解碼 token 保留一些 KV 緩存可以帶來顯著的性能提升。因此,為了在保持效率的同時獲得這些優勢,研究者引入了 PHD-SWA,將滑動窗口注意力限制在 W 個先前的隱藏解碼 token 上。



雖然 PHD-SWA 滑動窗口方法提升了模型性能,但由于隱藏解碼 token 的 KV 緩存中存在順序依賴關系,它會產生 K 倍的預填充開銷。為了解決這個問題,研究者引入了 PHD-CSWA,它可以在獨立的塊內處理注意力。

如下圖 4 所示,PHD-CSWA 將滑動窗口注意力限制在單個塊內運行。這種架構創新將額外的預填充開銷減少到最終塊內的 K 次重復,而不是整個序列重復,這使得額外的計算成本幾乎可以忽略不計,同時保留了局部注意力模式的優勢。



實驗結果

在實驗中,研究者使用 OLMo2 作為代碼庫,并在 ARC、HellaSwag、PIQA、Winogrande、MMLU 和 CommonsenseQA 等公開基準測試集上進行了評估。

訓練細節:研究者使用 1.2B 參數規模的模型,它是一個 16 層的密集模型。每個 token 的隱藏層維數設置為 2048,FFN 層的隱藏層大小設置為 16384。同時使用組查詢注意力 (Group-Query Attention,GQA),它包含 32 個查詢頭和 8 個鍵 / 值頭,每個頭的隱藏層維數設置為 64。研究者使用 500B 個 token 訓練該模型。

對于本文提出的 PHD 系列設置,研究者預訓練了以下兩種 PHD-CSWA 變體:

  • PHD-CSWA-2-16-32,其中訓練 token 重復兩次。保留一個包含 16 個 token 的局部窗口,并將塊大小設置為 32 個 token。
  • PHD-CSWA-3-16-32,其中訓練 token 重復三次。局部窗口大小和塊大小與 PHD-CSWA-2-16-32 的設置相同。

PHD-CSWA 在各個基準測試中均實現了持續的性能提升。下圖 5 中展示了訓練曲線,下表 1 中展示了主要結果。本文提出的 PHD-CSWA-2-16-32 在這些基準測試中平均實現了 1.5% 的準確率提升,訓練損失降低了 0.025;而 PHD-CSWA-3-16-32 在這些基準測試中平均實現了 2.0% 的準確率提升,訓練損失降低了 0.034。





研究者還分析了 PHD 和 PHD-SWA 的擴展性能,以分析擴展解碼計算的性能。 訓練細節:使用相同的 550M 模型配置,將窗口大小 W 設置為 16,并在 {2, 3, 5} 范圍內改變擴展因子 K。對于局部窗口大小,研究者在所有實驗中都將窗口大小設置為 16。

PHD-SWA 的性能在增加擴展因子時有效擴展。如下圖 8 所示,使用固定窗口大小時,損失曲線和下游性能會隨著 token 重復次數而有效擴展。通過將擴展因子設置為 5,可以實現接近 0.06 的損失降低,同時顯著提升下游性能。

下表 2 中的定量結果表明,當擴展至 K = 5 時,所有基準測試的平均準確率提高了 1.8%,這證實了本文的方法在更激進的擴展方面仍然有效。





更多實驗結果請參閱原論文。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
冠軍成員!利物浦官方社媒曬全隊球員名單

冠軍成員!利物浦官方社媒曬全隊球員名單

直播吧
2025-04-28 15:21:02
中日友好醫院這件事,被表面“桃色”遮掩的東西,開始浮出水面了

中日友好醫院這件事,被表面“桃色”遮掩的東西,開始浮出水面了

走讀新生
2025-04-28 17:43:17
國家發改委趙辰昕:力爭6月底前下達全年“兩重”項目建設和中央預算內投資全國項目清單

國家發改委趙辰昕:力爭6月底前下達全年“兩重”項目建設和中央預算內投資全國項目清單

財聯社
2025-04-28 11:23:07
由于認證延遲,美西南航空將27架737MAX7接收時間推至今年

由于認證延遲,美西南航空將27架737MAX7接收時間推至今年

看航空
2025-04-27 16:50:14
北京一家8口去吃席,海鮮茅臺吃到撐,回家發現忘記隨禮了

北京一家8口去吃席,海鮮茅臺吃到撐,回家發現忘記隨禮了

濤哥美食匯
2025-04-23 08:45:43
75歲阿姨的自述:到了晚年才逐漸發現,兒女親情也可以很現實。

75歲阿姨的自述:到了晚年才逐漸發現,兒女親情也可以很現實。

烙任情感
2025-04-27 20:49:19
央視《面對面》采訪馬龍:樊振東比我和許昕強,全程未提張繼科

央視《面對面》采訪馬龍:樊振東比我和許昕強,全程未提張繼科

二月侃事
2025-04-28 11:10:25
曝特斯拉Model Y長軸距版即將投產:三排座位設計

曝特斯拉Model Y長軸距版即將投產:三排座位設計

手機中國
2025-04-28 09:54:16
機場突發!一旅客被警方擊斃

機場突發!一旅客被警方擊斃

澳洲紅領巾
2025-04-27 15:15:56
“天氣再熱,老師也不能穿無袖!”女老師穿日系連衣裙遭家長抵制

“天氣再熱,老師也不能穿無袖!”女老師穿日系連衣裙遭家長抵制

熙熙說教
2025-04-24 19:21:56
破案了!為何奪冠呼聲最高的山西輸給了北京隊?馬健點評給出答案

破案了!為何奪冠呼聲最高的山西輸給了北京隊?馬健點評給出答案

南海浪花
2025-04-28 07:37:30
一組4-0橫掃+四組3-1賽點!美媒更新奪冠概率:湖人0.1%快船5.6%

一組4-0橫掃+四組3-1賽點!美媒更新奪冠概率:湖人0.1%快船5.6%

鍋子籃球
2025-04-28 14:11:50
為抽口煙能有多離譜?大興機場曝光120余起“奇葩操作”——

為抽口煙能有多離譜?大興機場曝光120余起“奇葩操作”——

BRTV新聞
2025-04-27 22:07:21
出道即巔峰!NBA新秀賽季就入選最佳一陣有多難?歷史僅7人做到

出道即巔峰!NBA新秀賽季就入選最佳一陣有多難?歷史僅7人做到

大衛的籃球故事
2025-04-27 20:13:56
突然發現全國人民都不敢接電話了!

突然發現全國人民都不敢接電話了!

振華觀史
2025-04-15 13:29:07
1945年,法國巴黎名叫伊娃的女人衣服被扒光,豐腴的身體沒有遮擋

1945年,法國巴黎名叫伊娃的女人衣服被扒光,豐腴的身體沒有遮擋

百態人間
2025-04-22 16:24:22
掘金2-2快船,誰贏天王山?蘇群給出答案,小波特禁賽懸念將揭曉

掘金2-2快船,誰贏天王山?蘇群給出答案,小波特禁賽懸念將揭曉

浪子阿邴聊體育
2025-04-28 15:18:09
殺紅了眼的賴清德,再次瞄準統派網紅教師區桂芝!已移交相關部門

殺紅了眼的賴清德,再次瞄準統派網紅教師區桂芝!已移交相關部門

頭條爆料007
2025-04-28 17:35:56
四球大勝,破紀錄奪冠,伯明翰老板豪言未來更美好

四球大勝,破紀錄奪冠,伯明翰老板豪言未來更美好

懂球帝
2025-04-28 08:48:12
中國足球歸化新希望:這名巴西前鋒或成2030世界杯破局者

中國足球歸化新希望:這名巴西前鋒或成2030世界杯破局者

中山印象體育攝影師
2025-04-27 16:58:47
2025-04-28 21:00:49
機器之心Pro incentive-icons
機器之心Pro
專業的人工智能媒體
10419文章數 142298關注度
往期回顧 全部

科技要聞

傳騰訊阿里從字節搶購算力資源 字節否認

頭條要聞

貴陽越界影城真人版"石磯娘娘"宣布"退圈" 本人回應

頭條要聞

貴陽越界影城真人版"石磯娘娘"宣布"退圈" 本人回應

體育要聞

“我們欠球迷一個冠軍慶典,現在可以狂歡了”

娛樂要聞

黃渤青島做東請客 桌上全人情世故

財經要聞

外賣平臺陷入內卷,傷害的是誰?

汽車要聞

東風日產,重新起跑

態度原創

手機
旅游
健康
藝術
教育

手機要聞

努比亞Z70S Ultra攝影師版售價4599元起 支持外接鏡頭

旅游要聞

熱聞|清明假期將至,熱門目的地有哪些?

唇皰疹和口腔潰瘍是"同伙"嗎?

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

教育要聞

任何粵語視頻,都可以生成粵語口語字幕了

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 武乡县| 乌兰察布市| 平乐县| 神农架林区| 乌苏市| 游戏| 汾阳市| 乌兰察布市| 梅州市| 浦北县| 黔江区| 深州市| 保亭| 宕昌县| 江达县| 新津县| 丹棱县| 靖安县| 丽水市| 泊头市| 昌江| 重庆市| 蕲春县| 辽宁省| 延边| 壤塘县| 奉化市| 绵阳市| 武隆县| 峡江县| 大宁县| 乃东县| 泰顺县| 吐鲁番市| 喜德县| 乌拉特中旗| 望城县| 鄂温| 甘孜县| 乡宁县| 德州市|