DeepSeek發布了最新的研究成果——原生稀疏注意力(Native Sparse Attention, NSA)直擊當下推理模型的痛點:高數據成本及復雜架構復雜!值得一提的是,幻方科技、DeepSeek 創始人梁文鋒作為co-authors也親自下場參與了。
傳統 Attention 機制的計算復雜度隨著序列長度的增加而呈平方級增長,這成為了制約 LLM 發展的關鍵瓶頸。NSA 的核心亮點可以簡單概括為:極致的降本增效,友好的硬件設計,挑戰預訓練Scaling Law規則,可以稱得上是LLM 領域又一里程碑式進展!
NSA對應的KV-Cache是否也是稀疏的?
NSA的三個Attention各自目的是什么?是如何實現的?
NSA是否能減少超大的矩陣計算的空間復雜度問題NSA的training/forward/prefill/decoding各階段的時空/計算復雜度是怎么樣的?
NSA 的內核是如何減少對SRAM的訪存的。
我整理了DeepSeek的資源大全,涉及到DeepSeek 的官方鏈接、開源項目、專業的技術分析文章,以及不斷更新的行業資訊,你想知道的關于 DeepSeek 的一切,都可以在這里找到。掃碼免費領取??(下滑還有更多福利)
為了幫大家解決包括但不限于以上疑問,研夢非凡3月7日晚(周五)邀請了手握10余篇頂會的楊導師給大家詳細介紹NSA的設計原理、實驗設置以及實驗結果,希望能為大家DeepSeek在相關領域的技術發展帶來一些啟發。
掃碼預約直播課
直播課內容概覽
1. Native Sparse Attention的核心根據
2. 相關工作
a. 固定的稀疏模式
b. 動態Token剪枝
c. Query意識的選擇
3. 重新思考稀疏注意力模塊
a. 高效推理的錯覺
b. 可訓練稀疏度
c. 原生的稀疏性
4. 算法框架
a. 背景
b. 整體結構設計
c. 算法設計
d. Token的壓縮與選擇
e. Kernel的設計
5. 實驗要點
a. 實驗配置
b. 主實驗分析
c. 消融實驗分析
d. 討論
6. 總結與展望
a. 更加高效的長文本加速方法
b. 分層次的Token壓縮
導師介紹
楊導師
【簡介】畢業于知名計算機名校。博士期間研究方向聚焦為計算機視覺,自然語言處理,高效的深度學習訓練和推理方法,大語言模型輕量化與高效微調技術。
曾在多家公司擔任算法研究員,并進行計算機視覺,高效模型壓縮算法,多模態大語言模型的研究,包括模型量化,剪枝,蒸餾,編譯以及高效稀疏化訓練與推理。
【科研成果】在國際頂級會議CVPR,ICCV, EMNLP等發表13篇論文,并擔任CVPR,ICCV,ECCV,ICML,ICLR, NeurIPS等重要會議和期刊的審稿人。
多項發明專利,指導學生有耐心,教學嚴謹,思維邏輯縝密,已經指導數十篇論文。對于成果好的學生,幫助學生寫推薦信和指導申請碩/博申請。
研夢非凡可指導的研究方向
主流方向科研論文常用方法
掃碼預約直播課領資料+福利
夢非凡科研論文指導方案
idea并不是直接拍腦門拍出來的,是一遍一遍實驗、跑代碼、改模型、思路修正的過程中產生的。研夢非凡1V1定制化論文指導,和研夢導師一起找idea,研夢導師指導實驗,共同解決數據問題。授之以漁——搭建論文寫作框架,增刪改查,針對性實驗指導!哪里薄弱補哪里!
全程1v1論文輔導掃碼咨詢助教
研夢非凡導師團隊
研夢非凡的導師來自海外QStop50、國內華五、C9、985高校的教授/博士導師/博士后,世界500強公司算法工程師,以及國內外知名人工智能實驗室研究員。
這是一支實力強大的高學歷導師團隊,在計算機科學、機器學習、深度學習等領域,積累了豐富的科研經歷,研究成果也發表在國際各大頂級會議和期刊上,在指導學員的過程中,全程秉持初心,堅持手把手個性化帶教。包括但不限于以下導師~~
<<< 左右滑動見更多 >>>
掃碼預約研夢非凡1v1導師meeting
研夢非凡隸屬于蘇州研途教育,深耕考研輔導行業13年,累計服務1w+付費學員(60%高校學生/教師,40%職場精英);科研為本,質量為先!我們有:500+ 國內外頂尖高校博士/教授,互聯網大廠/獨角獸公司的高級算法科學家組成的教師團隊;深度定制的科研服務,根據每位學員的實際情況,提供個性化的科研輔導方案,確保交付結果;一站式、全方位科研支持,從選題到方案設計,從實驗實施到論文撰寫、成果發表,4V1全流程保姆式服務!
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.