99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

Sakana AI推出LLM記憶管理技術NAMMs,可將內存成本降低75%

0
分享至

記憶是認知的關鍵組成部分,讓人類能夠從充斥我們生活的無盡噪音中選擇性存儲和提取重要信息。相比之下,大語言模型(Large Language Model,LLM)則缺乏這種能力,只能無差別地存儲和處理所有過去的輸入,這在長時間任務中對它們的性能和成本產生了嚴重影響。

就像人類大腦會選擇性地保留重要信息并逐漸淡忘不重要的細節一樣,人工智能系統也需要這樣的智能記憶管理機制。否則,隨著模型規模的不斷擴大,其訓練和部署對計算資源和內存的需求也會無限上升。

長期以來,研究人員一直在探索如何讓 AI 系統具備更接近人類的記憶能力。傳統的解決方案主要依賴預設的規則來管理模型的記憶,比如基于時間順序或注意力分數(Attention Score)來選擇性地保留或丟棄信息。

然而,這些方法往往過于機械,無法像人類記憶那樣智能地區分信息的重要性,導致在提高效率的同時往往會損害模型的性能。

在此背景下,日本初創公司 Sakana AI 的研究團隊提出了一種新的解決方案——神經注意力記憶模型(Neural Attention Memory Models,NAMMs)。

這一方案借鑒了自然進化在塑造人類記憶系統中發揮的關鍵作用,通過進化算法訓練一個專門的神經網絡來,這種方法能夠像人類大腦一樣主動選擇和保留重要信息,從而在提高效率的同時提升模型的性能。

就像人類大腦會根據信息的長期使用價值來決定是否保留一樣,NAMMs 通過對注意力模式的分析來評估信息的重要性。其核心機制包括三個關鍵組成部分:特征提取系統、記憶管理網絡和進化優化策略。


(來源:arXiv)

首先是特征提取機制。NAMMs 采用短時傅里葉變換(STFT)來處理注意力矩陣的列向量。具體來說,它使用大小為 32 的 Hann 窗口進行處理,生成 17 個復值頻率的頻譜圖表示。

這種表示方式非常巧妙,因為它既保留了注意力值隨時間變化的頻率特征,又大大壓縮了數據量。研究團隊通過實驗發現,這種頻譜表示比直接使用原始注意力值或手工設計的特征更有效。

其次是向后注意力記憶(BAM)架構的設計。這是 NAMMs 的核心創新之一,它引入了一種特殊的注意力機制,允許 token 只能關注其在 KV 緩存中的“未來”相關內容。

這種設計的妙處在于,它能夠建立 token 之間的競爭關系,使得模型能夠學會保留最有信息量的 token。例如,當出現重復的句子或詞語時,模型會傾向于保留最新的出現,因為它包含了更完整的上下文信息。


(來源:arXiv)

在優化策略上,研究團隊采用了 CMA-ES(協方差矩陣自適應進化策略)算法。傳統的梯度下降法難以處理記憶管理這種具有離散決策的問題,而 CMA-ES 通過模擬自然進化過程,能夠直接優化非可微的目標函數。

具體來說,團隊采用了增量進化的方式,從單個任務開始,逐步增加訓練任務的數量,這種方式能夠提供更好的正則化效果,提高模型的泛化能力。

研究團隊選擇 Llama 3-8b 作為基礎模型訓練了 NAMMs,并在 LongBench、InfiniteBench 以及 ChouBun 上進行了全面評估。結果顯示,NAMM 為 Llama 3-8b Transformer 帶來了明顯的性能提升,在總體表現上超越了已有的 H2O 和 L2 這兩種手工設計的內存管理方法。

例如,在 LongBench 基準測試中,NAMMs 不僅將 KV 緩存大小減少到原來的 25%,還實現了 11% 的性能提升。在 InfiniteBench 測試中模型性能從基線的 1.05% 提升到了 11%,同時將緩存大小減少到原來的 40%。


圖丨 LongBench 基準測試結果(來源:arXiv)

NAMMs 的另一個重要特性是其出色的零樣本遷移能力。研究團隊發現,僅在語言任務上訓練的 NAMMs 可以直接應用到其他架構和模態上。

比如,當應用到 Llava Next Video-7B 模型時,NAMMs 在 LongVideoBench 和 MLVU 基準測試中都取得了不錯的表現,視覺任務的性能提升了 1%,同時將視頻幀的緩存大小減少到原來的 72%。

在強化學習方面,使用決策轉換器(Decision Transformer)時,NAMMs 在 D4RL 基準測試中實現了 9% 的性能提升,同時將緩存大小減少到原來的 81%。

深入分析 NAMMs 的工作機制,研究團隊發現它學會了一種智能的記憶管理策略。通過觀察不同層的記憶保留模式,發現模型在早期和中期層傾向于保留更多和更老的 token,這可能是因為這些層負責處理和聚合長距離信息。而在信息密度較高的代碼任務中,模型則學會了保留相對更多的 token。

實際上,NAMMs 延續了 Sakana AI 此前的研究方法,即從自然界獲取靈感,通過模擬自然進化的過程來優化 AI 系統。這一研究思路與該公司在模型合并和進化優化方面的技術積累具有內在的一致性。

同 Sakana AI 此前開發的自動化“進化”算法能夠自主識別和合并優秀模型一樣,NAMMs 也采用了進化算法來優化記憶管理系統,無需人工干預即可實現性能的持續提升。

其特殊的研發思路,已經為這家僅成立了一年的初創公司贏得了 2.1 億美元的 A 輪融資,在這融資中,其估值已達 15 億美元。

未來,研究團隊可能會探索更復雜的記憶模型設計,比如考慮更細粒度的特征提取方法,或者研究如何將 NAMMs 與其他優化技術結合使用。

他們表示:“這項工作才剛剛開始挖掘我們新類記憶模型的潛力,我們預計這可能會為未來幾代 Transformer 的發展提供許多新的機會。”

參考資料:

1.https://sakana.ai/namm/

2.https://arxiv.org/abs/2410.13166

運營/排版:何晨龍

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
一看嚇一跳,湖人“三巨頭”本賽季數據一覽,太強了:

一看嚇一跳,湖人“三巨頭”本賽季數據一覽,太強了:

生活新鮮市
2025-04-09 00:32:43
中央定調!延遲退休新規實施,1970年前出生男性有福,可不受影響

中央定調!延遲退休新規實施,1970年前出生男性有福,可不受影響

王五說說看
2025-04-05 08:58:18
胡兵做膽囊切除手術,人在泰國,疑似瞿穎照顧,53歲的他依舊未婚

胡兵做膽囊切除手術,人在泰國,疑似瞿穎照顧,53歲的他依舊未婚

游古史
2025-04-07 22:46:22
上海G2絕殺各界說啥?胡明軒哈維熱議,點名伯克,瓊斯發文自薦!

上海G2絕殺各界說啥?胡明軒哈維熱議,點名伯克,瓊斯發文自薦!

籃球資訊達人
2025-04-09 00:13:40
女人想讓你“泡”,這三個信號不要錯過!

女人想讓你“泡”,這三個信號不要錯過!

加油丁小文
2025-04-07 12:30:03
太壯觀了!伊朗超一場比賽現場觀眾超12萬人!球場容量約6.7萬

太壯觀了!伊朗超一場比賽現場觀眾超12萬人!球場容量約6.7萬

直播吧
2025-04-08 17:15:57
狂降13℃!天津要下雨!警惕破壞性大風......

狂降13℃!天津要下雨!警惕破壞性大風......

魯中晨報
2025-04-08 18:47:02
雖然華為沒有明說,但是友商心知肚明!

雖然華為沒有明說,但是友商心知肚明!

火山雜談
2025-04-09 00:12:49
A股,大家要做好心理預期,明天,周三或將迎來“大變盤”?

A股,大家要做好心理預期,明天,周三或將迎來“大變盤”?

明心
2025-04-08 14:31:36
“美國恐怖故事”!前美聯儲三把手:滯脹已是最好結局

“美國恐怖故事”!前美聯儲三把手:滯脹已是最好結局

財聯社
2025-04-08 14:02:16
父母半夜起來天塌了,六年級兒子開自家車出門了,打算上高速……

父母半夜起來天塌了,六年級兒子開自家車出門了,打算上高速……

娛樂八卦木木子
2025-04-09 00:52:09
TVB男演員天生沒右耳,極度自卑用頭發遮住耳朵!因三個原因打消整容打算

TVB男演員天生沒右耳,極度自卑用頭發遮住耳朵!因三個原因打消整容打算

我愛追港劇
2025-04-08 22:36:23
今年援烏350萬發炮彈!梅茨:不管順境逆境,都會與烏克蘭站一起

今年援烏350萬發炮彈!梅茨:不管順境逆境,都會與烏克蘭站一起

鷹眼Defence
2025-04-07 18:18:40
湖人明日或輪休三巨頭!集體為東契奇休戰?獨行俠正糾結如何致敬

湖人明日或輪休三巨頭!集體為東契奇休戰?獨行俠正糾結如何致敬

生活新鮮市
2025-04-09 00:48:25
尼日爾撕毀4億美元合同驅逐我高管,中方暗藏后手,讓其悔青腸子

尼日爾撕毀4億美元合同驅逐我高管,中方暗藏后手,讓其悔青腸子

睡前講故事
2025-03-27 16:53:53
深圳公寓也暴跌了

深圳公寓也暴跌了

小蔡觀房
2025-04-07 17:53:42
貴州85后落馬國企原董事長彭振華出鏡懺悔:近百萬買的寶馬不敢開,罩起來放地下室

貴州85后落馬國企原董事長彭振華出鏡懺悔:近百萬買的寶馬不敢開,罩起來放地下室

魯中晨報
2025-04-08 16:51:02
太心機!日本飲料巨頭潛伏中國市場一年賺走65億,大家誤認是國貨

太心機!日本飲料巨頭潛伏中國市場一年賺走65億,大家誤認是國貨

老鵜愛說事
2025-04-07 10:19:46
真大!我好像進入了“黃巢”……

真大!我好像進入了“黃巢”……

印象逍遙子
2025-04-06 17:17:13
甄子丹將自導自演《凱恩傳》

甄子丹將自導自演《凱恩傳》

新快報新聞
2025-04-08 16:27:07
2025-04-09 02:04:49
DeepTech深科技 incentive-icons
DeepTech深科技
麻省理工科技評論獨家合作
15037文章數 513525關注度
往期回顧 全部

科技要聞

iPhone在美會賣2萬元上嗎?在中國會漲價嗎

頭條要聞

媒體:對美國"投降"的國家 在談判桌上只能被"收割"

頭條要聞

媒體:對美國"投降"的國家 在談判桌上只能被"收割"

體育要聞

100%當選狀元,但弗拉格不想進NBA?

娛樂要聞

尷尬!甲亢哥想聯動大張偉,卻被迫錄節目

財經要聞

"中國版平準基金"橫空出世 央行表態

汽車要聞

插混純電雙修 寶駿享境預售13.28萬起

態度原創

時尚
藝術
本地
手機
教育

別再披頭散發了!今春流行“奶奶發飾”,好看巨顯臉小

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

本地新聞

云游中國|更好濰坊,更好的家

手機要聞

酷賽科技旗下產品登頂紅點獎 中國智造再獲國際設計界權威認證

教育要聞

允許孩子小錯不斷,他才能大錯不犯

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 泰兴市| 政和县| 罗甸县| 苏尼特左旗| 皋兰县| 同江市| 开原市| 开鲁县| 白河县| 潮州市| 金坛市| 嘉义县| 墨竹工卡县| 镇安县| 花莲市| 哈尔滨市| 两当县| 东山县| 乌恰县| 宿松县| 秦安县| 张北县| 石渠县| 台北县| 五原县| 巩留县| 高邮市| 珲春市| 康乐县| 呈贡县| 陇川县| 醴陵市| 萝北县| 临沂市| 凤阳县| 福海县| 金坛市| 吴川市| 内黄县| 彩票| 怀集县|