99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<dfn id="saq4s"><sup id="saq4s"></sup></dfn>

<sup id="saq4s"><rt id="saq4s"><form id="saq4s"></form></rt></sup>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

浙大校友重磅革新Transformer！多token注意力讓LLM開掛，錯誤率歸0

2025-04-03 17:32:27　來源: 新智元

北京舉報

0

分享至

新智元報道

編輯：英智桃子

【新智元導讀】簡單的任務，傳統的Transformer卻錯誤率極高。Meta FAIR團隊重磅推出多token注意力機制（MTA），精準捕捉復雜信息，帶來模型性能飛升！

注意力機制就像大模型的「慧眼」，幫模型在大量文本中找到關鍵信息。

不過，每個注意力權重只取決于單個查詢和鍵向量的相似度。

找信息時，一次只能關注一個「小線索」，好比在龐大的圖書館里找一本書，卻只能檢索一個關鍵詞。

最近，Meta FAIR團隊提出了多token注意力機制，為LLM的性能帶來質的飛躍。

論文鏈接：http://arxiv.org/abs/2504.00927

作者還特別提到，這不是愚人節玩笑，而是一篇真實的論文。

在實際應用中，很多時候相關的上下文信息沒辦法通過單一token確定。

比如，想查找一個同時提到「Alice」和「rabbit」的句子時，按照傳統注意力機制，得把這兩個信息壓縮到一個查詢向量里。

但這樣做不僅增加了向量編碼的難度，還可能導致信息丟失。

就算用不同注意力頭分別查找「Alice」和「rabbit」，也沒法有效整合這些注意力權重，這極大地限制了模型處理復雜信息的能力。

MTA是為了解決傳統注意力機制的這個問題而設計的。

MTA三大關鍵創新

MTA讓模型能同時依據多個查詢和鍵向量來確定注意力權重，利用更豐富的信息，實現精準的注意力分配。

主要有三個關鍵部分：鍵-查詢卷積、頭混合卷積和帶深度縮放的組歸一化。

鍵-查詢卷積
鍵-查詢卷積是MTA的一大創新亮點。

通過二維卷積操作，模型可以把多個查詢和鍵token的信息放在一起，計算出更準確的注意力權重：

其中是二維卷積操作，有自己的核權重和大小。

在傳統的注意力計算中，注意力權重僅由當前的查詢和鍵向量對決定。

而鍵-查詢卷積打破了這種局限，會綜合考慮附近查詢和鍵的信息。

就拿「Where did Alice see the rabbit?」這個問題來說，要是用傳統注意力機制，很難同時關注到「Alice」和「rabbit」這兩個關鍵信息。

鍵-查詢卷積通過合理設置卷積核大小，能讓模型同時捕捉到這兩個信息。

具體計算時，它會在鍵和查詢的長度維度上進行卷積操作。為了不讓未來的信息搗亂，計算時只使用過去的查詢。

實際操作中，為了簡化流程，采用了一種更簡便的雙重掩碼方法。

鍵-查詢卷積有兩種方式，一種是在softmax之前進行卷積，另一種是在softmax之后。

在softmax之前卷積，能更好地融合不同查詢和鍵的信息。

在softmax之后卷積，注意力權重之間的相互作用就變成加法了：

在實驗中，默認用的是softmax之前卷積的方式。

信息共享：頭混合卷積

除了鍵-查詢卷積，MTA還有個很特別的頭混合卷積，它的作用是在不同注意力頭之間共享信息。

在傳統的多頭注意力機制里，各個頭之間的信息相對獨立。

頭混合卷積就像一座橋梁，打破了這種孤立，讓不同頭的注意力權重可以分享信息。

具體計算時，混合注意力權重有兩種方式，一種是在softmax之后，像

是卷積核權重。

另一種是在softmax之前，對注意力的對數幾率進行混合：

通過信息共享，模型能從多個角度綜合信息，理解文本的能力就更強了。

整合關鍵組件

前面介紹了兩種混合注意力權重的方式，MTA把鍵-查詢卷積和頭混合卷積結合，形成了強大的信息處理系統。

如果兩種混合方法都是在softmax之前，那么它們可以通過單個三維卷積操作實現，如圖所示。

模型訓練時，隨著層數越來越多，會出現一個問題，就是殘差流會變得很大，這讓梯度傳遞不太順暢，影響模型的訓練效果。

帶深度縮放的組歸一化就是解決這個問題的。它會對每個頭分別進行歸一化操作，而且會根據層的深度進行調整。

這樣能讓模型訓練更穩定，梯度傳遞得更好。

MTA機制革新Transformer

理論上MTA機制很厲害，實際效果如何呢？

為了驗證MTA的有效性，研究人員開展了一系列實驗，涵蓋了從簡單任務到復雜的長上下文任務等。

簡單任務：小任務凸顯大優勢

有一個簡單的任務，MTA在這個任務里的表現比傳統Transformer好太多了。

模型需要在由多個隨機字母組成的塊序列中，找到包含特定幾個字母的目標塊，并輸出相關信息。

這個任務看似簡單，卻能精準暴露傳統注意力機制的問題。

傳統Transformer不能很好地把多個信息整合起來，要把兩個問題字母的信息壓縮到一個查詢向量中，這對它來說很困難，錯誤率極高。

MTA在這個任務上的表現堪稱驚艷。

它借助鍵-查詢卷積，先分別找到每個問題字母在序列中的位置，然后通過卷積把這些信息整合起來，精準定位目標塊。

實驗結果令人驚喜，MTA幾乎以零錯誤率完成了任務，這充分展現了MTA在處理多信息檢索任務時的實力，與傳統注意力機制相比，有著跨越式的進步。

語言建模：全面提升

在語言建模實驗中，研究團隊訓練了880M參數的模型，并與傳統Transformer模型、差分Transformer（DIFF Transformer）做比較。

所有模型都在SlimPajama數據集上，用Lingua框架訓練。

為提高訓練效率，MTA在每第4層應用鍵-查詢卷積，頭卷積應用于所有層，并固定了卷積核的維度。

實驗結果令人眼前一亮。在驗證困惑度方面，用MTA訓練的模型在各個驗證數據集上都表現更好。

帶層縮放的組歸一化對MTA和DIFF Transformer的性能提升特別重要。

在一些流行的基準測試中，如BoolQ、PIQA等，MTA模型也超過了基線模型，平均得分更高。

這說明MTA能有效提升模型性能，無論是理解文本含義，還是回答問題，都更出色。

長文本處理的好幫手

研究團隊對模型進行了長上下文微調，把上下文的長度從2048增加到4096，還調整了一些訓練參數。

用了MTA的模型在困惑度評估里比基線模型好很多。

在LAMBADA任務里，MTA模型預測下一個單詞的時候，能更好地利用上下文信息，預測得更加準確。

在寫作助手、摘要生成等場景中，MTA能幫助模型更好地理解文章內容和邏輯，生成更符合要求的回復。

精準找到長距離信息

像「大海撈針」（Needle-In-A-Haystack）和BabiLong這樣的長距離依賴任務里，MTA的優勢就更明顯了。

「大海撈針」任務要在很長的文本里找到特定的信息。

MTA模型在這個任務中表現特別好，無論是在2k還是4k的上下文窗口中，準確率都有顯著提升。

尤其是在查找隱藏較深的目標信息時，優勢更為突出。

BabiLong任務評估模型能不能理解長文本里分散的各種事實，并進行推理。

QA1-5任務中，MTA模型在有很多干擾文本的情況下，也能保持較高的準確率，準確找到關鍵信息，并進行推理。

消融實驗

為了搞清楚MTA各個組件的作用，研究人員做了消融實驗。

在鍵-查詢卷積實驗里，就算只有2層用了MTA增強，模型就能超過強大的基線模型，6層MTA在性能和復雜程度之間達到了較好的平衡。

在卷積核初始化的實驗里，用單位矩陣初始化的MTA模型訓練時收斂得更快，性能也更好。

組歸一化和指數深度縮放對于提升模型性能很關鍵，不同大小的卷積核雖然會影響評估結果，但總體的卷積核模式相似。

改變卷積操作和softmax的先后順序，對模型性能的影響較小。

作者介紹

Meta多token注意力論文中，論文二作是一位華人研究科學家Tianlu Wang。

她曾獲得了弗吉尼亞大學計算機科學博士學位，導師是Vicente Ordó?ez Román教授。在此之前，她還獲得了浙大計算機科學學士學位。

Tianlu Wang研究興趣在于，與探索機器學習模型中的公平性、魯棒性和問責制相關話題，尤其是在計算機視覺和自然語言處理系統方面。

參考資料：

http://arxiv.org/abs/2504.00927

https://x.com/jaseweston/status/1907260086017237207

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

Multi-Token突破注意力機制瓶頸，Meta發明一種很新的Transformer

機器之心Pro 2025-04-04 16:40:04
4 跟貼 4
LIama 4發布重奪開源第一！DeepSeek同等代碼能力但參數減一半

量子位 2025-04-06 10:44:05
22 跟貼 22

復旦&微軟開源StableAnimator: 首個端到端ID一致性人類視頻生成

機器之心Pro 2025-03-19 17:41:41
4 跟貼 4

GraphPad Prism 五大分析模型操作指南：從入門到精通

生物學霸 2025-04-01 17:53:47
0 跟貼 0
文獻閱讀體驗不好？兩款插件就可實現沉浸式閱讀

生物學霸 2025-03-31 17:53:36
0 跟貼 0

關鍵時刻人民日報重磅發聲：天塌不下來

北京青年報 2025-04-07 08:35:19
33069 跟貼 33069

“憑啥他當校長？”浙大新任校長學歷被群嘲！收起傲慢與偏見吧！

君好伴讀 2025-04-07 19:41:58
52 跟貼 52
賈靜雯被文娛城美食亂了心神找不到邏輯

娛樂戰斗姬 2025-04-04 18:52:10
4 跟貼 4

江西財大統計學院院長平衛英履新南昌大學副校長

澎湃新聞 2025-04-07 15:54:28
55 跟貼 55
部分985和211高校國內外主要互聯網巨頭校友人數或認可度排名一覽

誰為錦年織彩衣 2025-04-08 07:05:04
0 跟貼 0
7B擴散LLM，居然能跟671B的DeepSeek V3掰手腕，誰才是未來？

機器之心Pro 2025-04-07 15:32:45
11 跟貼 11
河北三河，商戶門頭禁用紅黑藍三色？

大象新聞 2025-04-07 19:16:56
104 跟貼 104
浙大的臨床絕對是浙江省最好的

玉辭心 2025-04-08 06:59:53
0 跟貼 0
世界頂級專家、新加坡兩院院士黃銘鈞受聘中國TOP高校，關注大數據管理與分析處理系統！

新加坡眼 2025-04-07 20:01:35
0 跟貼 0
首個個性化對齊大模型問世！可精準識別用戶內在動機和偏好

量子位 2025-04-07 17:08:38
0 跟貼 0
微軟AI模型MatterGen能根據需求生成新材料

量子位 2025-01-21 18:07:40
29 跟貼 29
越南廢除了使用1800年的漢字，全民學習羅馬拼音，現在是什么后果

芳芳歷史燴 2025-04-06 17:55:55
15 跟貼 15
不錯不錯比那些拿AK突突的有邏輯得多

老公愛剪輯 2025-04-06 09:39:58
1 跟貼 1
CLIP被淘汰了？LeCun謝賽寧新作，多模態訓練無需語言監督更強！

新智元 2025-04-07 13:11:02
0 跟貼 0
反向傳播、前向傳播都不要，這種無梯度學習方法是Hinton想要的嗎

機器之心Pro 2025-04-07 14:55:47
1 跟貼 1
美國加關稅打壓到美企海外公司，郭正亮：特朗普的邏輯是不成立的

金日無事 2025-04-05 17:39:52
0 跟貼 0
媒體：俄烏戰事又擴大了烏軍隊攻入俄又一邊境州

新民周刊 2025-04-07 11:55:25
10571 跟貼 10571
Transformer2要做「活」的AI模型，動態調整權重，像章魚適應環境

機器之心Pro 2025-01-15 15:44:46
1 跟貼 1
AI 圈今年最大丑聞曝光！Llama 4 被揭訓練作弊，實測慘遭滑鐵盧，核心骨干憤然離職

愛范兒 2025-04-07 18:26:17
1 跟貼 1
在還不會說話的年紀念出了字母，這孩子是清華北大底子，網友：這么小就被迫營業了

逛吃青島 2025-04-06 20:33:48
0 跟貼 0
1/72德國豹2A7+主戰坦克塑料成品推推樂模型開箱測評

DS北風 2025-04-05 20:00:00
0 跟貼 0
火箭終結勇士5連勝格林21+5庫里10中1

網易體育 2025-04-07 10:57:31
8931 跟貼 8931
蒙古終于回頭！從2025年開始，文字“認祖歸宗”，國家加速去俄化

風到腰彎 2025-04-06 09:31:41
9 跟貼 9
庫里體能訓練底層邏輯解析，極度扎實放心抄作業

Drew體能碩士 2025-04-04 20:50:09
0 跟貼 0
加密貨幣市場超44萬人爆倉

證券時報 2025-04-07 17:31:06
2070 跟貼 2070
Sakana AI推出LLM記憶管理技術NAMMs，可將內存成本降低75%

DeepTech深科技 2024-12-18 16:50:28
2 跟貼 2
載入史冊的美貌，原來真的有人美得跟建模一樣！

老劇回憶錄 2025-04-04 05:22:04
0 跟貼 0
關稅刷屏的一周，AI圈也“暗流涌動”：Llama 4來了，O3和O4-mini也要來了，DeepSeek R2和GPT-5也不遠了？

華爾街見聞官方 2025-04-06 15:01:21
6 跟貼 6
荒謬至極！美國對“企鵝島”征稅，專家：“對等關稅”存邏輯漏洞

鳳凰衛視 2025-04-07 15:13:26
0 跟貼 0
兩年干出100億美元，25歲程序員把AI玩瘋了

虎嗅APP 2025-04-08 05:12:07
1 跟貼 1
崩了！大量游客集體高喊：退票！景區緊急回應

錢江晚報 2025-04-06 07:29:07
1340 跟貼 1340
郭正亮：川普的關稅邏輯是錯的，蘋果、通用都不會回美國生產！

臺海風云 2025-04-06 00:09:08
5 跟貼 5
紅軍序列里，為何沒有“第三方面軍”？其實這和彭德懷有關系！

草根說歷史 2025-04-06 16:13:51
0 跟貼 0
MoCha：開啟自動化多輪對話電影生成新時代

機器之心Pro 2025-04-07 15:26:42
0 跟貼 0
RAG新突破：塊狀注意力機制實現超低延遲檢索增強

機器之心Pro 2024-11-04 10:28:05
0 跟貼 0

匈牙利外長：將參與針對歐委會對中國電動汽車加征關稅的法律訴訟

匈牙利外長：將參與針對歐委會對中國電動汽車加征關稅的法律訴訟

環球網資訊

2025-04-08 00:24:16

都回來了！小卡職業生涯第10次獲得周最佳快船生涯第4次！

都回來了！小卡職業生涯第10次獲得周最佳快船生涯第4次！

直播吧

2025-04-08 04:48:36

蘋果前員工：刪掉這三種 App，iPhone 更流暢！

蘋果前員工：刪掉這三種 App，iPhone 更流暢！

哎咆

2025-04-07 14:44:33

同曦被淘汰更衣室！貝帥+劉家成肯定全隊，曾繁日捂臉，全隊沮喪

同曦被淘汰更衣室！貝帥+劉家成肯定全隊，曾繁日捂臉，全隊沮喪

籃球資訊達人

2025-04-08 01:09:55

CBA季后賽八強分組基本出現，遼寧隊漁翁得利，廣東隊晉級難

CBA季后賽八強分組基本出現，遼寧隊漁翁得利，廣東隊晉級難

宗介說體育

2025-04-07 13:59:50

全球股市黑色星期一！A股超半數股票跌停，總市值一天蒸發7.6萬億元

全球股市黑色星期一！A股超半數股票跌停，總市值一天蒸發7.6萬億元

華夏時報

2025-04-07 18:02:31

劉亦菲素顏出鏡，與路人無差別，網友：這才是真實的狀態

劉亦菲素顏出鏡，與路人無差別，網友：這才是真實的狀態

喜歡歷史的阿繁

2025-04-07 17:13:10

中國隊出局僅1天！馬德興爆出2大“實情”，崔康熙的話得到印證

中國隊出局僅1天！馬德興爆出2大“實情”，崔康熙的話得到印證

何老師呀

2025-04-07 23:34:10

35歲哥倫比亞門將遇搶劫后持槍反擊&身中4槍，好友則不幸離世

35歲哥倫比亞門將遇搶劫后持槍反擊&身中4槍，好友則不幸離世

直播吧

2025-04-07 18:45:21

卡住馬六甲咽喉？解放軍迎來歷史性一天，第二個海外基地掛牌！

卡住馬六甲咽喉？解放軍迎來歷史性一天，第二個海外基地掛牌！

戰爭史

2025-04-07 13:32:18

湖人更新傷病報告：詹姆斯、東契奇等六名主力出戰成疑，八村塁確認缺席

湖人更新傷病報告：詹姆斯、東契奇等六名主力出戰成疑，八村塁確認缺席

雷速體育

2025-04-08 06:46:19

于東來發文回應質疑：對胖東來有任何質疑可以來實地調查！宋清輝涉嫌對公司品牌形象貶損，追責金額超100萬

于東來發文回應質疑：對胖東來有任何質疑可以來實地調查！宋清輝涉嫌對公司品牌形象貶損，追責金額超100萬

和訊網

2025-04-07 15:10:39

約基奇首節落后步行者3分掘金球迷：單場100分就是這場嗎？

約基奇首節落后步行者3分掘金球迷：單場100分就是這場嗎？

直播吧

2025-04-07 08:48:27

中共中央、國務院：加強農村宅基地規范管理，允許農戶合法擁有的住房通過出租、入股、合作等方式盤活利用

中共中央、國務院：加強農村宅基地規范管理，允許農戶合法擁有的住房通過出租、入股、合作等方式盤活利用

澎湃新聞

2025-04-07 17:58:07

舞協副處長韋立，身材一流，顏值像明星，可惜太“壞”了

舞協副處長韋立，身材一流，顏值像明星，可惜太“壞”了

兄弟養牛

2025-04-07 10:09:35

吸取香港教訓！中央盡快扶持被滅統派，形成抓手介入臺灣大選

吸取香港教訓！中央盡快扶持被滅統派，形成抓手介入臺灣大選

余塩搞笑段子

2025-04-08 00:22:07

美股因“推遲90天傳言”震蕩，白宮辟謠，此前一度大幅沖高后回落

美股因“推遲90天傳言”震蕩，白宮辟謠，此前一度大幅沖高后回落

財聯社

2025-04-07 22:43:08

孫儷眼睛感覺要爆出來了，嘴巴里面像塞了兩個棗子，養生不是好事

孫儷眼睛感覺要爆出來了，嘴巴里面像塞了兩個棗子，養生不是好事

鄉野小珥

2025-04-07 14:38:12

虧麻了！5天4個20%跌停！周四抄底全被埋還有誰能笑得出來

虧麻了！5天4個20%跌停！周四抄底全被埋還有誰能笑得出來

宇哥看世界ii

2025-04-08 01:21:58

姚晨這是把老公熬成爹的節奏，她自己倒是越來越年輕漂亮了！

姚晨這是把老公熬成爹的節奏，她自己倒是越來越年輕漂亮了！

阿廢冷眼觀察所

2025-04-07 15:40:29

AI產業主平臺領航智能+時代

12486文章數 66006關注度

往期回顧全部

科技要聞

特朗普堅持征收關稅周一美科技股劇烈震蕩

頭條要聞

特朗普再對歐盟施壓：必須從美國購入能源

頭條要聞

特朗普再對歐盟施壓：必須從美國購入能源

體育要聞

刷屏中文互聯網，甲亢哥是怎么火的？

娛樂要聞

汪小菲身旁的朋友，對馬筱梅的評價

財經要聞

看好中國資本市場 "國家隊"增持

汽車要聞

途昂Pro的五套組合拳打完看清油車的自我救贖

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房產

手機

旅游

健康

軍事航空

房產要聞

生猛！三亞開始巨量拆遷！

手機要聞

超大杯手機為什么很少做直屏 OPPO周意保揭秘：無奈之舉

旅游要聞

熱聞|清明假期將至，熱門目的地有哪些?

在中國，到底哪些人在吃“偉哥”？

軍事要聞

特朗普關稅名單上沒俄羅斯白宮：為了不影響俄烏和談

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：简阳市| 扎赉特旗| 满洲里市| 九龙城区| 微博| 延安市| 建平县| 祁连县| 吉水县| 邛崃市| 黄平县| 犍为县| 安多县| 寿宁县| 秦皇岛市| 平陆县| 寿阳县| 朝阳区| 永仁县| 开封县| 景德镇市| 东山县| 巴彦淖尔市| 马尔康县| 成都市| 武平县| 阿城市| 天气| 舟曲县| 公安县| 响水县| 扎赉特旗| 云龙县| 壶关县| 隆子县| 丰镇市| 眉山市| 图片| 石门县| 宁城县| 雷州市|

<cite id="93qyq"><rp id="93qyq"><delect id="93qyq"></delect></rp></cite>

<sub id="93qyq"></sub>