99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

RAG新突破:塊狀注意力機制實現(xiàn)超低延遲檢索增強

0
分享至



AIxiv專欄是機器之心發(fā)布學術、技術內容的欄目。過去數(shù)年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業(yè)的頂級實驗室,有效促進了學術交流與傳播。如果您有優(yōu)秀的工作想要分享,歡迎投稿或者聯(lián)系報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

在工業(yè)場景中,往往會利用檢索技術來為大語言模型添加一些來自外部數(shù)據(jù)庫的知識文檔,從而增強大語言模型的回復可信度。一般來說,RAG 被公認是最有效的為 LLM 注入特定領域知識的方式。

然而,RAG 也有其不足之處。通常來說,在實際應用中,為確保能召回包含正確知識的文檔,對于每個用戶的查詢,會檢索多個文檔(一般在 5 到 30 個之間),并把這些文檔整合到輸入提示中供大語言模型處理。這樣一來,輸入提示的序列長度增加,使得推理效率大幅降低。具體來講,以首次生成標記的時間(TTFT)來衡量,RAG 大語言模型的推理延遲比非 RAG 大語言模型高很多。

由于數(shù)據(jù)庫中同一文檔經(jīng)常會被不同 query 召回,大家很自然的會想到:是否能夠把已經(jīng)算好的文檔表示(KV states)存在緩存中,以供二次使用?很遺憾, 由于自回歸注意力機制的限制,大語言模型中每個文檔的 KV States 都與上下文相關,所以遇到新的 query 時,模型必須重新編碼 KV states 才能確保準確預測。

最近,論文《Block-Attention for Efficient RAG》為檢索增強 (RAG) 場景實現(xiàn)了一種塊狀注意力機制,Block-Attention,通過分塊獨立編碼檢索到的文檔,使得模型無需重復編碼計算已經(jīng)在其他 query 中已經(jīng)見過的文檔,從而實現(xiàn)線上推理效率的有效提升。在實驗中,該方法能夠讓使用 RAG 技術的模型與不使用 RAG 的模型有幾乎一樣的響應速度。同時,該方法甚至還能略微提升在 RAG 場景下的模型準確率。



  • 論文標題:Block-Attention for Efficient RAG
  • 論文地址:https://arxiv.org/pdf/2409.15355

如下圖所示,該方法把整個輸入序列分成若干個 block,每個 block 獨立計算其 KV States,只有最后一個 block 能夠關注其他 blocks(在 RAG 場景中,最后一個 block 即用戶的輸入)。在 RAG 場景中,block-attention 讓模型不再需要重復計算已經(jīng)在其他 query 中見過的文檔。



Block-Attention 的實現(xiàn)并不復雜:1)獨立編碼除最后一個 block 以外的所有 blocks;2)為每個 blocks 重新計算位置編碼;3)將所有 blocks 拼接在一起,并計算最后一個 block 的 KV State。然而直接把模型不加任何修改的從 self-attention 切換到 block-attention 會導致大語言模型懵圈,畢竟模型在訓練階段從來沒見過 block-attention 方式編碼的輸入。一個量化的對比是,直接切換為 block-attention 會讓 Llama3-8B 在四個 RAG 數(shù)據(jù)集上的平均準確率由 67.9% 下降至 48.0%。

為了讓模型適應 block-attention,作者們對模型進行了進一步微調,作者們發(fā)現(xiàn)在 100-1000 步微調之后,模型就能快速適應 block-attention,在四個 RAG 數(shù)據(jù)集上的平均準確率恢復至 68.4%。另外,block-attention 方式的模型在 KV cache 技術的幫助下,能達到與無 RAG 模型相似的效率。在用戶輸入長度為 50 而 prompt 總長度為 32K 的極端情況下,block-attention model 的首字延時(Time To First Token, TTFT)和首字浮點運算數(shù)(FLOPs To Frist Token, (FLOPs-TFT)分別能降低至 self-attention model 的 1.3% 和 0.2%,與無 RAG 模型的效率基本持平。

推理流程

關于 block-attention 的實現(xiàn)和詳細推導,讀者們請移步原文,這里主要介紹 block-attention 模型的推理流程。如下圖所示,首先從緩存中查詢并提取前 K 個 block 的 KV states。然后,根據(jù)每個 block 在輸入序列中的位置,作者們對每個 block 的位置編碼進行了重新計算。具體的操作過程詳見論文的公式 3。最后,根據(jù)前 k-1 個 KV States 計算最后一個數(shù)據(jù)塊的鍵值狀態(tài)以及模型的輸出。



實驗結果

在實驗中,作者們主要想探究兩個問題的答案:1)在 RAG 場景中,block-attention 模型能否達到與自 self-attention 相同的準確率?2)block-attention 對效率的提升有多大?



對于問題一,上圖給出了答案。作者們根據(jù)實驗結果給出了三個結論:

1. 直接從 self-attention 切換到 block-attention 是不可取的,因為這會導致準確率急劇下降。例如,對于 Llama3-8B 和 Mistral-7B 模型,去除微調過程會導致在所有四個基準上平均絕對性能下降 21.99%。

2. 然而,如果作者們在微調階段使用塊注意力機制,那么得到的模型與自注意力模型的性能幾乎相同,甚至在某些數(shù)據(jù)集上略好。例如,Mistral-7B-block-ft 在四個基準上的性能優(yōu)于自回歸方式訓練的模型,平均準確率由 59.6% 上升至 62.3%。

3. 位置重新編碼操作對于 block-attention 模型至關重要。去除它會導致性能顯著下降 —— 在四個數(shù)據(jù)集上準確率平均下降 4%。

對于效率的提升,作者們也通過另一組實驗進行了驗證。他們將用戶的問題長度固定在 50 個 token,然后逐漸增加被召回文檔的數(shù)量,讓輸入序列總長度從 50 一直增加到 32K。模型在不同 prompt 長度下的首字延時(Time To First Token, TTFT)和首字浮點運算數(shù)(FLOPs To Frist Token, (FLOPs-TFT)如下圖所示。顯然,加速效果令人滿意:當輸入序列的長度為 512 時,使用 block-attention 可以將 TTFT 減少 48%,將 FLOPs-TFT 減少 90.1%。隨著總長度的增加,block-attention 模型的 TTFT 和 FLOPs-TTF 保持基本不變的趨勢。當總長度達到 32K 時,加速效果可以達到驚人的 98.7%,F(xiàn)LOPs-TFT 的消耗甚至減少了 99.8%。作者們將此實驗結果總結為:“文本越長,block-attention 越重要”。



作者們最后還指出,block-attention 在很多場景中都有著重要作用,并不局限于 RAG。由于一些保密原因,作者們暫時無法透露在其他工業(yè)應用中是如何使用它的。作者們期待社區(qū)的研究人員能夠進一步探索 block-attention 的潛力,并將其應用于合適的場景。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
特朗普:周五并無任何關稅豁免

特朗普:周五并無任何關稅豁免

金石隨筆
2025-04-14 08:02:00
越南蘇林68歲,他家庭背景好,夫人是吳芳璃

越南蘇林68歲,他家庭背景好,夫人是吳芳璃

趣文說娛
2025-04-14 10:41:58
各國政要發(fā)聲,特朗普沒有同情和憐憫,布達諾夫確認蘇梅遭襲兇手

各國政要發(fā)聲,特朗普沒有同情和憐憫,布達諾夫確認蘇梅遭襲兇手

鷹眼Defence
2025-04-14 17:03:16
網(wǎng)友們發(fā)現(xiàn)那個出現(xiàn)在1999年報刊頭條年輕人的近況了

網(wǎng)友們發(fā)現(xiàn)那個出現(xiàn)在1999年報刊頭條年輕人的近況了

清暉有墨
2025-04-14 10:26:48
“站隊”中國?一些足夠“聰明”的國家開始行動了!

“站隊”中國?一些足夠“聰明”的國家開始行動了!

局勢帝
2025-04-14 12:25:50
川普又又又變了

川普又又又變了

西樓飲月
2025-04-14 18:55:54
真狠!張寧持球把胡明軒撞飛5米遠 下一回合放倒徐杰

真狠!張寧持球把胡明軒撞飛5米遠 下一回合放倒徐杰

大昆說臺球
2025-04-15 04:47:12
男子借車越野卷入溪流:妻子與女同事溺亡,現(xiàn)場圖流出,細節(jié)披露

男子借車越野卷入溪流:妻子與女同事溺亡,現(xiàn)場圖流出,細節(jié)披露

娜烏和西卡
2025-04-14 12:39:03
參加一次43年的同學聚會后,讓我發(fā)現(xiàn):過了60歲真不能隨便去聚會

參加一次43年的同學聚會后,讓我發(fā)現(xiàn):過了60歲真不能隨便去聚會

明月讀書吧
2025-04-14 16:30:02
莫言:如果一個男人,不吸煙,不喝酒,不賭博,性格內向,不喜歡社交,從不參加同學聚會……

莫言:如果一個男人,不吸煙,不喝酒,不賭博,性格內向,不喜歡社交,從不參加同學聚會……

深度知局
2025-04-14 17:50:31
一旦臺海戰(zhàn)爭爆發(fā),解放軍決不放過臺軍第333旅,新賬舊賬一起算

一旦臺海戰(zhàn)爭爆發(fā),解放軍決不放過臺軍第333旅,新賬舊賬一起算

通文知史
2025-04-14 08:05:03
KD入火箭要價需降低!休媒稱無需動核心班底 1首輪1互換2次輪足矣

KD入火箭要價需降低!休媒稱無需動核心班底 1首輪1互換2次輪足矣

顏小白的籃球夢
2025-04-15 08:59:02
印度部長:當前全球貿(mào)易危機的根源,在于讓中國入世,不歡迎中資

印度部長:當前全球貿(mào)易危機的根源,在于讓中國入世,不歡迎中資

聯(lián)友說娛
2025-04-14 13:53:32
誰會想到,化煙熏妝的萬斯成為全球網(wǎng)友熱嘲對象

誰會想到,化煙熏妝的萬斯成為全球網(wǎng)友熱嘲對象

小怪吃美食
2025-04-15 04:23:09
港姐冠軍入行前做Showgirl舊照曝光,21歲內雙眼皮惹網(wǎng)民熱議

港姐冠軍入行前做Showgirl舊照曝光,21歲內雙眼皮惹網(wǎng)民熱議

粵睇先生
2025-04-15 04:49:51
太慘了!3月汽車投訴榜,最多投訴超1500例,比亞迪成“重災區(qū)”

太慘了!3月汽車投訴榜,最多投訴超1500例,比亞迪成“重災區(qū)”

春序娛樂
2025-04-14 10:38:12
知名歌手在杭州被拒絕!視頻評論區(qū)爆了...

知名歌手在杭州被拒絕!視頻評論區(qū)爆了...

FM93浙江交通之聲
2025-04-14 18:21:28
蕭敬騰夫婦在上海豪宅,請大廚上門做飯,吃著飯還牽林有慧的手

蕭敬騰夫婦在上海豪宅,請大廚上門做飯,吃著飯還牽林有慧的手

界史
2025-04-14 10:16:58
特朗普:豁免是暫時的,“不存在關稅‘例外’”

特朗普:豁免是暫時的,“不存在關稅‘例外’”

參考消息
2025-04-14 11:02:44
尹錫悅首次公審結束,盡是意想不到

尹錫悅首次公審結束,盡是意想不到

梁佇愛玩車
2025-04-15 01:12:42
2025-04-15 09:12:49
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10359文章數(shù) 142295關注度
往期回顧 全部

科技要聞

OpenAI放大招!GPT-4.1上線,編程戰(zhàn)力全開

頭條要聞

澤連斯基喊話特朗普訪烏:他才會明白俄羅斯做了什么

頭條要聞

澤連斯基喊話特朗普訪烏:他才會明白俄羅斯做了什么

體育要聞

他演過周星馳電影,62歲還要拿世界冠軍

娛樂要聞

專訪 | 王安宇:角色是為觀眾服務的

財經(jīng)要聞

特朗普攪亂貿(mào)易意欲何為?謎題即將解開

汽車要聞

B級車要集體失眠? 吉利銀河星耀8"全都要"

態(tài)度原創(chuàng)

本地
房產(chǎn)
親子
時尚
公開課

本地新聞

云游中國|這個春天,來沂山吸氧吧!

房產(chǎn)要聞

教育理想落地!9年制華師附與未來方洲正式簽約,定義“未來教育”新高度

親子要聞

不敢過橋的小孩哥,語言功能失靈,場面令人忍俊不禁

水晶專場|| 百元級的快樂,鐘楚曦真的太會買首飾了!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 驻马店市| 措勤县| 阿拉尔市| 石阡县| 军事| 广南县| 广宗县| 安吉县| 祥云县| 方山县| 丹东市| 鹰潭市| 渝中区| 永德县| 福贡县| 大渡口区| 理塘县| 垫江县| 长乐市| 新余市| 宁化县| 建湖县| 新巴尔虎左旗| 房山区| 河北区| 和平县| 宁化县| 商洛市| 巫溪县| 望都县| 永寿县| 新密市| 拜泉县| 禄劝| 炉霍县| 栖霞市| 闽侯县| 中方县| 塔河县| 长武县| 东兰县|