99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號(hào) > 正文 申請(qǐng)入駐

Transformer+Mamba黃金組合!長(zhǎng)文推理性能飆升3倍,性能還更強(qiáng)

0
分享至

來自:新智元

【導(dǎo)讀】Nemotron-H模型混合了Transformer和Mamba架構(gòu),使長(zhǎng)文本推理速度提升3倍,同時(shí)還能保持高性能,開源版本包括8B和56B尺寸。訓(xùn)練過程采用FP8訓(xùn)練和壓縮技術(shù),進(jìn)一步提高了20%推理速度

過去幾年,Transformer雖穩(wěn)坐AI架構(gòu)「鐵王座」,但其二次方復(fù)雜度帶來的算力消耗和長(zhǎng)序列處理瓶頸,限制了大模型在推理階段處理長(zhǎng)文本。

Mamba憑借「線性復(fù)雜度」異軍突起,非常適合長(zhǎng)序列任務(wù),有望成為Transformer架構(gòu)的替代品,但在處理全局關(guān)系上偏弱。

Mamba+Transformer混合架構(gòu)可以將二者的優(yōu)勢(shì)互補(bǔ),實(shí)現(xiàn)「效率」和「性能」的雙豐收。

最近英偉達(dá)發(fā)布了Nemotron-H系列模型,模型尺寸為8B和56B(蒸餾版本47B),用Mamba-2層替換了Transformer中的自注意力層,關(guān)鍵創(chuàng)新在于對(duì)Transformer和Mamba的平衡,實(shí)現(xiàn)了高效處理長(zhǎng)上下文的同時(shí),還不犧牲模型性能,顯著提高了推理速度,并且內(nèi)存占用更少。

論文鏈接:https://arxiv.org/pdf/2504.03624

實(shí)驗(yàn)結(jié)果表明,Nemotron-H模型在準(zhǔn)確度上優(yōu)于同尺寸的開源Transformer模型(例如Qwen-2.5-7B/72B和Llama-3.1-8B/70B),同時(shí)在推理速度上提速3倍。

為了進(jìn)一步提高推理速度并降低推理時(shí)所需的內(nèi)存量,研究人員使用一種剪枝和蒸餾壓縮技術(shù)MiniPuzzle,將56B尺寸的模型蒸餾為NemotronH-47B-Base,在基準(zhǔn)的準(zhǔn)確率上與56B模型相當(dāng),同時(shí)推理速度提升20%

論文中還提出了一種基于FP8的訓(xùn)練方案,使56B模型實(shí)現(xiàn)了與BF16訓(xùn)練相當(dāng)?shù)男阅堋?/p>

Nemotron-H架構(gòu)

Nemotron-H模型由Mamba-2、自注意力層和前饋神經(jīng)網(wǎng)絡(luò)(FFN)層組成,其中總層數(shù)的8%為自注意力層,均勻分布在模型中。

即,Nemotron-H-8B模型包含52層,其中4層為注意力層;Nemotron-H-56B模型包含118層,其中10層為注意力層,其余層平均分配為FFN層和Mamba-2層。

為了與標(biāo)準(zhǔn)Transformer模塊的結(jié)構(gòu)一致,研究人員提出三條設(shè)計(jì)準(zhǔn)則:模型的第一層必須是Mamba-2層,最后一層必須是FFN層,并且自注意力層總是位于FFN層之前。

模型的具體參數(shù)

需要注意的是,8B和56B模型在FFN隱藏維度、注意力查詢頭和狀態(tài)維度設(shè)置上存在差異;

  • 對(duì)于Mamba-2層,保持默認(rèn)的頭維度(64)、擴(kuò)展因子(2)和卷機(jī)窗口(4);

  • 使用RMSNorm進(jìn)行歸一化;

  • 不適用位置嵌入;

  • 模型的嵌入層和輸出層使用了獨(dú)立的權(quán)重,沒有使用線性層的偏置權(quán)重,也沒有使用dropout;

  • 在每個(gè)Mamba-2層、自注意力層和FFN層周圍都加入了殘差跳躍連接。

訓(xùn)練過程

數(shù)據(jù)準(zhǔn)備

訓(xùn)練數(shù)據(jù)從來源上大體上可以分為多語言、網(wǎng)絡(luò)爬取、學(xué)術(shù)、代碼、維基百科和數(shù)學(xué)數(shù)據(jù),這種數(shù)據(jù)組合可以全面覆蓋通用知識(shí),同時(shí)在編程和數(shù)學(xué)等領(lǐng)域培養(yǎng)強(qiáng)大的專業(yè)能力。

其中多語言數(shù)據(jù)涵蓋了九種語言:德語、西班牙語、法語、意大利語、葡萄牙語、中文、日語、韓語和俄語。

研究人員設(shè)計(jì)數(shù)據(jù)組合時(shí),確保所有相同質(zhì)量的數(shù)據(jù)源權(quán)重相似,而高質(zhì)量的數(shù)據(jù)源權(quán)重會(huì)高于低質(zhì)量的數(shù)據(jù)源。

在訓(xùn)練56B尺寸的模型時(shí),使用了大約20萬億個(gè)token的數(shù)據(jù),其中,網(wǎng)頁爬取數(shù)據(jù)占比最大,達(dá)到了59%,其次是代碼數(shù)據(jù),占20%,學(xué)術(shù)內(nèi)容占8.8%

在預(yù)訓(xùn)練Nemotron-H基礎(chǔ)模型時(shí),研究人員采用了分階段的數(shù)據(jù)混合方法:

第一階段,使用一種促進(jìn)數(shù)據(jù)多樣性的數(shù)據(jù)組合;在第二和第三階段,主要使用高質(zhì)量的數(shù)據(jù)集(例如維基百科),其中第二階段為訓(xùn)練進(jìn)度達(dá)到60%時(shí),第三階段為訓(xùn)練進(jìn)度達(dá)到80%時(shí);第四階段則使用最后3800億個(gè)訓(xùn)練token

在后訓(xùn)練階段,研究人員調(diào)整了數(shù)據(jù)的分布,更加注重有監(jiān)督的微調(diào)(SFT)樣本。

FP8訓(xùn)練策略

Nemotron-H訓(xùn)練的一個(gè)創(chuàng)新在于使用8位浮點(diǎn)數(shù)(FP8),在降低內(nèi)存需求和計(jì)算成本的同時(shí),還能保持模型的質(zhì)量,主要包括以下關(guān)鍵點(diǎn):

采用逐張量(per-tensor)的當(dāng)前縮放技術(shù),以提高訓(xùn)練的穩(wěn)定性。

將模型中最初的四個(gè)和最后四個(gè)矩陣乘法(GEMM)操作保持在BF16精度,以確保關(guān)鍵部分的高精度處理;

在訓(xùn)練過程中,F(xiàn)P8訓(xùn)練逐漸與BF16訓(xùn)練收斂,最終達(dá)到類似的性能水平。

實(shí)驗(yàn)結(jié)果表明,F(xiàn)P8訓(xùn)練在多種基準(zhǔn)測(cè)試中能夠達(dá)到或超過BF16訓(xùn)練的性能,不僅提高了訓(xùn)練效率,還通過在MMLU、常識(shí)理解、代碼生成和GSM8K等基準(zhǔn)測(cè)試中的表現(xiàn),證明了其在保持或提升模型質(zhì)量方面的有效性

模型壓縮

為了進(jìn)一步提高模型部署的效率,研究人員開發(fā)了一種新型壓縮框架MiniPuzzle的,結(jié)合了剪枝、神經(jīng)架構(gòu)搜索和知識(shí)蒸餾技術(shù)。

MiniPuzzle壓縮框架的工作流程如下圖所示,展示了從預(yù)訓(xùn)練模型到壓縮模型的轉(zhuǎn)變過程,包括重要性評(píng)估、神經(jīng)架構(gòu)搜索和蒸餾等步驟。

MiniPuzzle方法包含五個(gè)階段:

1. 重要度估計(jì):分析每一層對(duì)模型性能的貢獻(xiàn)。



def importance_estimation(model, dataset):
# Compute per-layer importance scores
    scores = []for layer in model.layers:
# Zero out layer outputs and measure impact on loss
        scores.append(measure_impact_on_loss(model, layer, dataset))return scores



2. 層重要度分析:研究人員需要分析出哪些層對(duì)模型性能的貢獻(xiàn)最大。

3. 條件神經(jīng)架構(gòu)搜索:探索不同壓縮架構(gòu)方案,在每個(gè)候選壓縮模型中保留不同的層。

4. 內(nèi)存與性能權(quán)衡:根據(jù)內(nèi)存使用量和準(zhǔn)確度對(duì)模型進(jìn)行評(píng)估,對(duì)候選架構(gòu)的內(nèi)存負(fù)載與基準(zhǔn)性能進(jìn)行權(quán)衡。

5. 知識(shí)蒸餾:通過訓(xùn)練,使壓縮后的模型能夠匹配甚至超越原始模型的能力。

通過這一過程,Nemotron-H-56B模型成功被壓縮為Nemotron-H-47B模型,參數(shù)減少了16%,同時(shí)保持了相當(dāng)?shù)臏?zhǔn)確度,并將推理吞吐量提高了20%。

實(shí)驗(yàn)結(jié)果

Nemotron-H模型在性能和效率方面相較于其他基于Transformer的模型取得了顯著進(jìn)步。

推理吞吐量

混合架構(gòu)使得推理速度大幅提升,尤其是在處理長(zhǎng)序列時(shí):

  • Nemotron-H-56B的推理吞吐量比Qwen-2.5-72B和Llama-3.1-70B高出多達(dá)3倍。

  • Nemotron-H-8B在類似準(zhǔn)確度水平下,比Qwen-2.5-7B的吞吐量高出1.8倍。

效率提升在處理長(zhǎng)序列(例如65,536個(gè)token)時(shí)尤為明顯,突顯了Mamba層在輸出token時(shí)計(jì)算復(fù)雜度固定的優(yōu)勢(shì)。

多基準(zhǔn)測(cè)試中的準(zhǔn)確度

盡管架構(gòu)發(fā)生了變化,但Nemotron-H模型在廣泛的基準(zhǔn)測(cè)試中仍保持了強(qiáng)勁的性能表現(xiàn)。

在評(píng)估的17項(xiàng)任務(wù)中,Nemotron-H-56B在16項(xiàng)任務(wù)中的表現(xiàn)優(yōu)于Llama-3.1-70B,在數(shù)學(xué)推理任務(wù)上表現(xiàn)尤為出色。

應(yīng)用與多功能性

Nemotron-H模型可以進(jìn)行擴(kuò)展,以適應(yīng)各種應(yīng)用場(chǎng)景。

  • 視覺-語言能力:基礎(chǔ)模型通過NVLM-D架構(gòu)擴(kuò)展,創(chuàng)建了視覺-語言模型(VLM),在VQAv2、GQA和VizWiz等基準(zhǔn)測(cè)試中表現(xiàn)出色,顯示出混合架構(gòu)對(duì)多模態(tài)任務(wù)的適應(yīng)性。

  • 代碼生成:模型在與代碼相關(guān)的任務(wù)上表現(xiàn)尤為出色。訓(xùn)練數(shù)據(jù)中包含大量代碼數(shù)據(jù)(占比20%),使得模型能夠理解和生成多種編程語言的高質(zhì)量代碼。

  • 長(zhǎng)文本處理:混合架構(gòu)的一個(gè)顯著優(yōu)勢(shì)是能夠高效處理長(zhǎng)文本。Nemotron-H-8B模型經(jīng)過專門的長(zhǎng)文本處理能力微調(diào),在RULER基準(zhǔn)測(cè)試和其他長(zhǎng)文本評(píng)估任務(wù)中表現(xiàn)出色。

  • 針對(duì)不同能力的數(shù)據(jù)分布:研究人員針對(duì)不同的訓(xùn)練階段精心調(diào)整了數(shù)據(jù)分布,以培養(yǎng)特定的能力,通過調(diào)整不同數(shù)據(jù)類型(網(wǎng)頁爬取、代碼、數(shù)學(xué)、學(xué)術(shù)等)的比例,可以在不需要架構(gòu)變更的情況下增強(qiáng)模型的特定能力。比如針對(duì)STEM能力優(yōu)化時(shí),訓(xùn)練數(shù)據(jù)增加了數(shù)學(xué)和代碼內(nèi)容的比重。

Mamba架構(gòu)簡(jiǎn)介

原版Mamba架構(gòu)

Mamba是一種新型的序列建模架構(gòu),通過選擇性狀態(tài)空間模型(Selective State Space Model, SSM)和硬件優(yōu)化算法,將計(jì)算復(fù)雜度降低到線性級(jí)別O(L),能夠高效處理長(zhǎng)達(dá)百萬級(jí)的序列長(zhǎng)度,推理速度比Transformer快5倍,在短序列任務(wù)中也實(shí)現(xiàn)了超越Transformer的性能。

選擇性SSM的思路是,通過讓模型參數(shù)依賴于輸入內(nèi)容,實(shí)現(xiàn)對(duì)信息的選擇性傳播和遺忘,過濾無關(guān)信息,從而提高對(duì)密集模態(tài)(如語言和基因組)的建模能力。

Mamba中的硬件感知并行算法,可以避免顯式存儲(chǔ)擴(kuò)展?fàn)顟B(tài),利用GPU的內(nèi)存層次結(jié)構(gòu)優(yōu)化計(jì)算過程,實(shí)現(xiàn)線性時(shí)間復(fù)雜度,并顯著提升推理速度。

論文鏈接:https://arxiv.org/pdf/2312.00752

Mamba-2架構(gòu)

Mamba-2結(jié)合了狀態(tài)空間模型(SSMs)和注意力機(jī)制,基于State Space Duality (SSD) 框架,通過結(jié)構(gòu)化矩陣的分解和優(yōu)化算法,實(shí)現(xiàn)了線性擴(kuò)展的訓(xùn)練效率。

與Mamba相比,Mamba-2對(duì)核心層進(jìn)行了優(yōu)化,簡(jiǎn)化了狀態(tài)轉(zhuǎn)移矩陣的結(jié)構(gòu),并引入了更大的頭維度,從而顯著提高了訓(xùn)練效率,速度提高了2-8倍;還引入了多頭結(jié)構(gòu)和張量并行等技術(shù),進(jìn)一步增強(qiáng)了模型的表達(dá)能力和并行計(jì)算效率,在大規(guī)模訓(xùn)練和推理中更加高效。

在實(shí)驗(yàn)中,Mamba-2在語言建模和多查詢關(guān)聯(lián)回憶任務(wù)上均優(yōu)于Mamba和基于注意力的模型。

論文鏈接:https://arxiv.org/abs/2405.21060

參考資料:

https://arxiv.org/pdf/2504.03624

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺(tái)“網(wǎng)易號(hào)”用戶上傳并發(fā)布,本平臺(tái)僅提供信息存儲(chǔ)服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點(diǎn)推薦
恩里克:這不是場(chǎng)痛苦的失利;希望踢阿森納也能創(chuàng)造30次機(jī)會(huì)

恩里克:這不是場(chǎng)痛苦的失利;希望踢阿森納也能創(chuàng)造30次機(jī)會(huì)

懂球帝
2025-04-26 05:17:31
特朗普在教皇葬禮憋屈坐三排,還可能和“不想見”的澤連斯基撞上

特朗普在教皇葬禮憋屈坐三排,還可能和“不想見”的澤連斯基撞上

桂系007
2025-04-25 16:24:33
19國(guó)援兵全到齊,菲律賓對(duì)華開“第二槍”,外交部:中國(guó)不感興趣

19國(guó)援兵全到齊,菲律賓對(duì)華開“第二槍”,外交部:中國(guó)不感興趣

吳欣純Deborah
2025-04-25 17:56:05
看麻了!網(wǎng)傳廣東街頭一女子跪地上拽著男友吼:睡了5年還不娶我

看麻了!網(wǎng)傳廣東街頭一女子跪地上拽著男友吼:睡了5年還不娶我

火山詩話
2025-04-23 06:43:16
“螺絲大王”伍爾特:一年從我國(guó)賺走上千億,卻被誤以為是國(guó)企

“螺絲大王”伍爾特:一年從我國(guó)賺走上千億,卻被誤以為是國(guó)企

牛牛叨史
2025-04-19 01:44:13
凱恩叔叔是時(shí)候了!今晚21:30見證凱恩首冠?明晨4點(diǎn)皇薩巔峰對(duì)決

凱恩叔叔是時(shí)候了!今晚21:30見證凱恩首冠?明晨4點(diǎn)皇薩巔峰對(duì)決

直播吧
2025-04-26 11:37:15
場(chǎng)均21分6板,唐斯走了你扶正,都說1.3億太貴,如今打成白菜價(jià)

場(chǎng)均21分6板,唐斯走了你扶正,都說1.3億太貴,如今打成白菜價(jià)

大西體育
2025-04-26 17:50:39
春夏,你也愛穿穆勒鞋?

春夏,你也愛穿穆勒鞋?

Steppy潮流周志
2025-04-25 12:36:30
日網(wǎng)瘋傳4月26日東京毀滅級(jí)強(qiáng)震,預(yù)言時(shí)間、地點(diǎn)超詳細(xì)

日網(wǎng)瘋傳4月26日東京毀滅級(jí)強(qiáng)震,預(yù)言時(shí)間、地點(diǎn)超詳細(xì)

全球趣聞分享
2025-04-26 15:28:18
出國(guó)就遇冷!全球1600萬公頃可食用竹筍,為啥就中國(guó)能吃出花?

出國(guó)就遇冷!全球1600萬公頃可食用竹筍,為啥就中國(guó)能吃出花?

阿傖說事
2025-04-26 11:41:07
扎心了!各大網(wǎng)紅紛紛奔赴韓國(guó),開始收割中國(guó)人的“韭菜”

扎心了!各大網(wǎng)紅紛紛奔赴韓國(guó),開始收割中國(guó)人的“韭菜”

阿鳧愛吐槽
2025-04-25 10:46:33
青島地鐵口5平米“神秘土地“無人認(rèn)領(lǐng) 逾期將收歸國(guó)有

青島地鐵口5平米“神秘土地“無人認(rèn)領(lǐng) 逾期將收歸國(guó)有

信網(wǎng)
2025-04-25 09:30:07
印度海軍靠近瓜達(dá)爾港并發(fā)射遠(yuǎn)程反艦導(dǎo)彈,向巴基斯坦發(fā)出挑戰(zhàn)!

印度海軍靠近瓜達(dá)爾港并發(fā)射遠(yuǎn)程反艦導(dǎo)彈,向巴基斯坦發(fā)出挑戰(zhàn)!

凱撒談兵
2025-04-26 12:52:34
質(zhì)疑?男子靠搬磚九年攢了200萬,這么勵(lì)志的逆襲故事,怎么大家都不相信了

質(zhì)疑?男子靠搬磚九年攢了200萬,這么勵(lì)志的逆襲故事,怎么大家都不相信了

可達(dá)鴨面面觀
2025-04-25 21:06:05
馬筱梅帶倆娃去吃下午茶,體驗(yàn)北京古香古色文化!這媽真的很用心

馬筱梅帶倆娃去吃下午茶,體驗(yàn)北京古香古色文化!這媽真的很用心

二月侃事
2025-04-26 16:19:15
男子肝癌晚期把3個(gè)兒子托付給姐姐,姐夫拒絕,村民:姐夫是好人

男子肝癌晚期把3個(gè)兒子托付給姐姐,姐夫拒絕,村民:姐夫是好人

博覽歷史
2025-04-25 17:29:20
“上任第一天結(jié)束俄烏沖突”,特朗普承認(rèn):我開玩笑的

“上任第一天結(jié)束俄烏沖突”,特朗普承認(rèn):我開玩笑的

北京商報(bào)
2025-04-26 13:50:15
弘一法師:當(dāng)你修為越來越高時(shí),就會(huì)真正理解,人其實(shí)沒有好壞

弘一法師:當(dāng)你修為越來越高時(shí),就會(huì)真正理解,人其實(shí)沒有好壞

詩詞中國(guó)
2025-04-26 14:52:47
46歲周杰倫身體狀況惹人擔(dān)憂,生圖氣色不佳,網(wǎng)友勸他退休養(yǎng)老

46歲周杰倫身體狀況惹人擔(dān)憂,生圖氣色不佳,網(wǎng)友勸他退休養(yǎng)老

萌神木木
2025-04-25 21:23:40
陜西檢察長(zhǎng)陳平疑案:死前喊冤,被槍斃后家屬不能收尸,直接火化

陜西檢察長(zhǎng)陳平疑案:死前喊冤,被槍斃后家屬不能收尸,直接火化

午夜故事會(huì)
2024-04-15 18:31:39
2025-04-26 18:28:49
人工智能研究 incentive-icons
人工智能研究
分享深度學(xué)習(xí)、CV、NLP
259文章數(shù) 125關(guān)注度
往期回顧 全部

科技要聞

李斌:對(duì)蔚來公司四季度盈利非常有信心

頭條要聞

美媒記者探訪義烏工廠 工人們懟:你以為我們怕美國(guó)嗎

頭條要聞

美媒記者探訪義烏工廠 工人們懟:你以為我們怕美國(guó)嗎

體育要聞

去更大的舞臺(tái)追夢(mèng) 專訪中國(guó)男籃國(guó)手楊瀚森

娛樂要聞

金掃帚獎(jiǎng)出爐,包貝爾意外獲“影帝”

財(cái)經(jīng)要聞

韓國(guó)的"宇樹科技" 是怎樣被財(cái)閥毀掉的?

汽車要聞

充電5分鐘續(xù)航100公里 探訪華為兆瓦超充站

態(tài)度原創(chuàng)

親子
本地
游戲
時(shí)尚
公開課

親子要聞

孩子的囟門,能摸能洗嗎?

本地新聞

云游湖北 | 漢川文旅新體驗(yàn):千年陶藝邂逅湖光

COD玩家?guī)А昂镒诱◤棥边^安檢 結(jié)局尷尬了!

今夏流行“不穿褲子”!洋氣顯瘦顯腿長(zhǎng),誰穿誰好看!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版 主站蜘蛛池模板: 遂溪县| 南充市| 工布江达县| 兰考县| 柳林县| 特克斯县| 云龙县| 三门峡市| 广灵县| 河源市| 巴马| 万盛区| 平山县| 庆云县| 富源县| 甘泉县| 家居| 山西省| 麦盖提县| 体育| 皮山县| 阜康市| 新民市| 土默特左旗| 韶山市| 揭阳市| 宜阳县| 石城县| 上栗县| 鞍山市| 三河市| 阿瓦提县| 大埔区| 金川县| 洪江市| 枞阳县| 四平市| 云龙县| 古田县| 肥乡县| 若尔盖县|