99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

不用英偉達GPU!華為盤古Ultra來了:昇騰原生135B稠密通用大模型

0
分享至

機器之心報道

機器之心編輯部

終于,華為盤古大模型系列上新了,而且是昇騰原生的通用千億級語言大模型。

我們知道,如今各大科技公司紛紛發(fā)布百億、千億級模型。但這些大部分模型訓練主要依賴英偉達的 GPU。

而現(xiàn)在的情形下,國內(nèi)研究團隊很難獲得足夠的計算資源,這也制約了國內(nèi)大模型技術(shù)的快速發(fā)展。



我們看到華為盤古發(fā)布的這篇新研究,證明了基于全國產(chǎn)的昇騰也可以實現(xiàn)領(lǐng)先的大規(guī)模語言模型的研究與開發(fā)。



技術(shù)報告標題:Pangu Ultra: Pushing the Limits of Dense Large Language Models on Ascend NPUs

技術(shù)報告地址:https://github.com/pangu-tech/pangu-ultra/blob/main/pangu-ultra-report.pdf

研究稱華為盤古團隊成功開發(fā)出基于昇騰算力訓練的千億級通用語言大模型 Pangu Ultra。在效果上,Pangu Ultra 在多個領(lǐng)域和評測上超越之前 Llama 405B 和 Mistral Large 2 等稠密模型,并可以與 DeepSeek-R1 等更大規(guī)模的稀疏模型一較高下。

Pangu Ultra 是一個擁有 94 層架構(gòu)、總參數(shù)量達 135B 的超大稠密模型。針對超深千億級大模型的訓練穩(wěn)定性問題,研究團隊提出了新的穩(wěn)定性架構(gòu)和初始化方法,成功實現(xiàn)了在 13.2T 高質(zhì)量數(shù)據(jù)上的全流程無 loss 突刺長穩(wěn)訓練。同時,在系統(tǒng)實現(xiàn)層面,團隊通過一系列系統(tǒng)優(yōu)化策略,在 8192 張昇騰 NPU 構(gòu)建的大規(guī)模集群上將算力利用率(MFU)提升至 50%。

接下來,讓我們從模型架構(gòu)、模型訓練等方面,詳細了解下 Pangu Ultra 的技術(shù)細節(jié)。

模型架構(gòu)

基礎(chǔ)架構(gòu)信息:Pangu Ultra 包含 1350 億參數(shù)、采用了 94 層的 Transformer 結(jié)構(gòu)。其中 FFN 采用SwiGLU激活。注意力層采用 GQA 降低 KV 緩存占用。

Pangu Ultra 針對大規(guī)模極深模型的訓練穩(wěn)定性問題提出了 Depth-scaled sandwich-norm 和 TinyInit 初始化兩項技術(shù)。

Depth-scaled sandwich-norm:與混合專家模型(MoE)側(cè)重在寬度上擴展不同,大規(guī)模稠密模型通常采用更深的層數(shù)。然而,深度增加會加劇訓練穩(wěn)定性的挑戰(zhàn)。考慮到預訓練的巨大成本,保證大模型的穩(wěn)定訓練至關(guān)重要。

Pre-LN 在基于 Transformer 的大語言模型架構(gòu)中被廣泛應用,但采用 Pre-LN 的模型中,各子層輸出尺度的波動容易導致訓練不穩(wěn)定。為解決此問題,Sandwich-Norm 在殘差連接前對每個子層輸出額外施加 layer norm。雖然 Sandwich-Norm 能保持單個子層輸出的尺度穩(wěn)定性,但跨越多層的殘差連接仍會導致輸出范數(shù)逐漸累積,進而引發(fā)訓練不穩(wěn)定。

為此,Pangu Ultra 提出 Depth-Scaled Sandwich-Norm(DSSN)。該技術(shù)通過對每個子層輸出的 layer norm 的 gamma 參數(shù)來調(diào)控各層輸出尺度,通過把 gamma 參數(shù)初始化為與網(wǎng)絡深度的平方根倒數(shù)成比例。下圖展示了 Depth-Scaled Sandwich-Norm 與 Pre-LN 架構(gòu)的差異。實驗結(jié)果表明所提出方法相比基準方法在穩(wěn)定性和收斂性都具有較大優(yōu)勢(見模型結(jié)果與分析)。



Pre-LN 與 DSSN 架構(gòu)對比。相比 Sandiwich norm,DSSN 對 layer norm 系數(shù)做了特殊的 re-scale



Pangu Tokenizer:在 Pangu Ultra 的中,作者優(yōu)化了分詞器(Tokenizer)。傳統(tǒng)方法在構(gòu)建詞匯表時,常因數(shù)據(jù)分布導致通用文本占比過高,而代碼、數(shù)學等專業(yè)領(lǐng)域的詞元代表性不足。為解決此問題,Pangu Ultra 采用了「領(lǐng)域感知」的分詞詞表策略:

對通用中文、通用英文、代碼、數(shù)學等多個關(guān)鍵領(lǐng)域的數(shù)據(jù)獨立進行詞頻分析,生成領(lǐng)域?qū)僭~匯表。

隨后,將這些詞匯表合并與去重,形成了一個包含 153376 詞元的分詞詞表。

這種方法提升了詞匯表在不同領(lǐng)域間的均衡性,確保了模型在處理文本、代碼、數(shù)學等多樣化任務時,都能獲得更精準、高效的理解基礎(chǔ),同時保持了良好的整體壓縮效率。



各領(lǐng)域詞在 Pangu 詞表中的分布

模型訓練

預訓練策略與數(shù)據(jù):Pangu Ultra 的預訓練過程的三個階段:12T tokens 的通用能力訓練、0.8T tokens 的推理能力增訓以及 0.4T tokens 的退火階段。



Pangu Ultra 預訓練各個階段的數(shù)據(jù)配比

Pangu Ultra 模型的預訓練語料覆蓋了高質(zhì)量、多樣化的 13.2T tokens,如上表所示,整個預訓練過程分為三個階段:通用階段(General)、推理階段(Reasoning)和退火階段(Annealing)。

通用階段(12T)旨在幫助模型積累知識和語言表達能力,推理階段(0.8T)旨在強化模型推理技能,而退火階段(0.4T)則進一步教會模型如何運用已學到的知識和推理技能。

團隊為訓練語料打了質(zhì)量與難度的標簽分數(shù),并在上述三個階段中采用課程式的數(shù)據(jù)采樣策略,即完成一個從易到難的學習過程:

通用階段覆蓋了大量的書籍、網(wǎng)頁、百科、多語言以及各行各業(yè)的語料,實際訓練中分成了兩個子階段,訓練量分別為 7.4T 和 4.6T tokens;

推理階段重點提高泛數(shù)學、理科以及代碼數(shù)據(jù)的比重,強推理數(shù)據(jù)占比超過 60%;

退火階段將指令類數(shù)據(jù)占比提高到 20%,旨在激發(fā)模型更好的應用知識和推理技能。團隊設計了大量的指令類問答對,并且包含長、短思維鏈,這些推理路徑經(jīng)過精心優(yōu)化,以確保內(nèi)容清晰且邏輯連貫。

數(shù)據(jù)質(zhì)量評估是提升模型訓練效果的核心環(huán)節(jié),Pangu Ultra 結(jié)合規(guī)則篩選與 AI 評估優(yōu)化數(shù)據(jù)質(zhì)量。團隊設計人工標注數(shù)據(jù),微調(diào)盤古系列模型作為質(zhì)量評估器,從數(shù)據(jù)干凈度、流暢性、教育價值和信息密度四個維度,對超過 10T 語料進行打分,并且賦予高質(zhì)量語料更高的采樣概率。

團隊基于 Pangu 26 億參數(shù)的代理模型進行了大量的消融實驗,結(jié)果表明基于低質(zhì)量數(shù)據(jù)訓練的模型需要多 1.6 倍訓練量才能達成基于高質(zhì)量數(shù)據(jù)的同等效果,進一步印證了數(shù)據(jù)質(zhì)量對于提升訓練效率的關(guān)鍵價值。

長序列擴展:Pangu Ultra 模型通過兩階段長度擴展訓練將可支持的輸入 token 數(shù)增加到 128K,可以輸入約 10 萬英語單詞或者 17 萬中文漢字。針對長序列訓練中 RoPE 基礎(chǔ)頻率這一重要參數(shù),在訓練前首先在目標擴展長度的特定驗證集上對不同的參數(shù)進行評測來搜索出最優(yōu)的參數(shù),保證了長度擴展的效果。

后訓練策略與數(shù)據(jù):在模型后訓練階段,通過兩階段優(yōu)化實現(xiàn)能力躍升:首先采用監(jiān)督微調(diào)(SFT)建立基礎(chǔ)指令跟隨能力,隨后引入基于結(jié)果的強化學習(RL)框架,顯著提升模型的復雜推理、價值對齊和指令執(zhí)行能力。為充分發(fā)揮昇騰算力優(yōu)勢,研究團隊特別設計了具有延遲容忍特性的強化學習框架,配合融合確定性信號與模型評估的混合獎勵系統(tǒng),在數(shù)學推導、代碼生成和通用問題解決三大領(lǐng)域構(gòu)建精準反饋機制,確保大規(guī)模策略優(yōu)化的效率與穩(wěn)定性。

模型在 AIME 2024、MATH-500、GPQA Diamond 和 LiveCodeBench 等核心推理基準上取得了理想的性能,驗證了后訓練架構(gòu)的有效性,這既得益于預訓練階段 0.8T 規(guī)模的專項推理數(shù)據(jù)積累,也源于強化學習階段對模型潛力的深度激發(fā)。同時模型仍保持強大的通用語言理解能力(MMLU-pro 和 ArenaHard),彰顯了技術(shù)路徑的均衡性,結(jié)果見模型結(jié)果與分析部分。

系統(tǒng)優(yōu)化

Pangu Ultra 135B 的訓練環(huán)境是一個配備了 8192 個昇騰 NPU 的大規(guī)模計算集群。團隊通過混合并行策略、細粒度負載均衡調(diào)優(yōu)、高效融合算子、子序列切分以及數(shù)據(jù)緩存共享等技術(shù)手段,在 8192 卡規(guī)模的集群中實現(xiàn)了超過 50% 的 MFU(Model FLOPs Utilization)。

并行策略:為了擴展 Pangu Ultra 的訓練規(guī)模并提升集群線性度,團隊采用了混合并行策略。在 8192 卡規(guī)模的集群中,使用了 128 路數(shù)據(jù)并行(Data Parallelism)、8 路張量并行(Tensor Parallelism)和 8 路流水線并行(Pipeline Parallelism),同時結(jié)合了 ZeRO 和序列并行(Sequence Parallelism),以降低模型參數(shù)、優(yōu)化器狀態(tài)和激活值的顯存占用。由于 batch-size 的限制,大規(guī)模集群訓練中每個數(shù)據(jù)并行(DP)組的批次較小,導致較高的流水線空泡率。為解決這一問題,團隊引入了 6 路虛擬流水線(Virtual Pipeline)調(diào)度算法,將訓練空泡率從 30.45% 降低至 6.8%。通過一系列精細的負載均衡優(yōu)化,在 BF16 訓練精度下實現(xiàn)了 43% 的 MFU。

系統(tǒng)優(yōu)化:為了進一步提升大規(guī)模集群的訓練效率,團隊從多個方面進行了系統(tǒng)優(yōu)化,將 8192 卡訓練的 MFU 從 43% 提升至 52%。關(guān)鍵優(yōu)化技術(shù)包括:

MC2(Merged Compute and Communication)通算融合

通過將訓練中的矩陣乘法(MatMul)計算與張量并行(TP)切分引入的通信操作細粒度拆分,并對計算和通信操作進行深度流水線編排,實現(xiàn)了通信與矩陣乘法的高效重疊,顯著提升了資源利用率和訓練效率。

NPU Fusion Attention(NFA)

針對昇騰 NPU 優(yōu)化的自注意力(Self-Attention)融合算子,支持 Attention Mask 壓縮,避免了顯式構(gòu)造 Attention Mask 帶來的計算和顯存開銷。在 Pangu Ultra 訓練中,根據(jù)每個樣本的結(jié)束標記(EOD)計算出實際序列長度(actual_seq_len),并將其傳入 NFA。NFA 內(nèi)部使用一個 2048×2048 的下三角矩陣作為素材庫,根據(jù) actual_seq_len 動態(tài)構(gòu)造訓練時的 Attention Mask,從而在重置 Attention Mask 的場景下實現(xiàn)高效的自注意力計算。

其他融合算子

除了 MC2 和 NFA,訓練還采用了 RMSNorm、SwiGLU、RoPE 融合算子、梯度累加融合以及 PP send/recv 融合等技術(shù),進一步提升了系統(tǒng)性能。

子序列切分

上下文并行(Context Parallelism,CP)是長序列訓練中常用的優(yōu)化方法。為了實現(xiàn) CP 切分下的負載均衡,Megatron-LM 將序列切分為 2×CP 個子序列,每個設備負責計算上下兩個 chunk 的數(shù)據(jù)(見圖 1.(b))。然而,這種切分方式在重置 Attention Mask 的場景下仍會導致負載不均(見圖 1.(c))。Pangu Ultra 采用了改進的子序列切分并行方式,針對每個樣本中的子序列采用負載均衡的切分策略,每個節(jié)點負責計算子序列中的兩個 chunks(見圖 1.(d))。



圖 1. 子序列切分的序列并行方式

顯存優(yōu)化

允許同一計算設備上的不同 vpp stage 之間共享 attention mask/actual_seq_len,RoPE sin/cos, position embedding 等數(shù)據(jù)。避免重復的計算和顯存開銷。

模型結(jié)果與分析

Pangu Ultra 實現(xiàn)了昇騰近萬卡大集群上約 13T 數(shù)據(jù)的長穩(wěn)訓練,DSSN 和 TinyInit 保障訓練全程沒有出現(xiàn)任何 loss 突刺,如下圖:



Pangu Ultra 預訓練 Loss,全流程無 loss 突刺

Pangu Ultra 的預訓練基座模型測評結(jié)果如下。對比稠密架構(gòu)的代表 Qwen2.5-72B 和 Llama 405B 以及 MoE 架構(gòu)的代表 DeepSeek V3。Pangu Ultra 在大多數(shù) benchmark 上取得了最好的效果,和同為稠密架構(gòu)的模型對比優(yōu)勢更加明顯。



Pangu Ultra Base 測評結(jié)果,粗體表明最好結(jié)果,下劃線表明該模型在 dense 中最好

經(jīng)過后訓練之后,Pangu Ultra 在主要的 Reasoning benchmark 上的表現(xiàn)如下所示。



Pangu Ultra 在 Reasoning Benchmarks 上的表現(xiàn)

Pangu Ultra 在 AIME24,MATH-500,GPQA,MMLU-Pro 等指標上超越 DeepSeek R1。關(guān)于盤古后訓練使用的相關(guān)技術(shù)將在之后的報告中發(fā)布。

針對訓練穩(wěn)定性,團隊發(fā)現(xiàn) DSSN 和常見的 Pre-Norm(Pre-LN)架構(gòu)對比能夠完全杜絕訓練中的 loss 突刺現(xiàn)象。在 gradient norm 上,使用 DSSN 的模型也更加平穩(wěn),突刺更少。經(jīng)過測評,DSSN 架構(gòu)的模型效果也超出 Pre-LN 架構(gòu),說明避免訓練突刺的重要性。



DSSN 與 Pre-LN 的訓練對比



DSSN 架構(gòu)和 Pre-LN 架構(gòu)的測評效果對比

使用 Sandwich-Norm 架構(gòu)時,RMSNorm 的 affine 參數(shù) \gamma 初始化非常重要,該研究提出的 DSSN 方案與普通 Sandwich-Norm 架構(gòu)對比訓練 loss 也更加平穩(wěn),且收斂更快,如下圖所示。



DSSN 對比普通 Sandwich-Norm

關(guān)于 TinyInit,團隊在 135B 的模型規(guī)模上訓練了約 100B tokens,和經(jīng)典基線初始化方案相比取得了較為明顯的優(yōu)勢。



TinyInit 對比普通初始化的模型測評效果

感興趣的讀者可以閱讀論文原文,了解更多研究內(nèi)容。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
三河市“禁紅黑藍”《相關(guān)問題說明》,涉嫌侮辱公眾智商!

三河市“禁紅黑藍”《相關(guān)問題說明》,涉嫌侮辱公眾智商!

兵叔評說
2025-04-13 23:33:16
郭富城老婆真人好漂亮!37歲生2娃還像少女,長發(fā)披肩神似張柏芝

郭富城老婆真人好漂亮!37歲生2娃還像少女,長發(fā)披肩神似張柏芝

木子愛娛樂大號
2025-04-14 19:54:07
官方:國足客戰(zhàn)印尼于21:45開球;主場戰(zhàn)巴林于19:00開球

官方:國足客戰(zhàn)印尼于21:45開球;主場戰(zhàn)巴林于19:00開球

懂球帝
2025-04-14 18:13:23
曾志偉72歲生日,攜紅顏知己與譚詠麟聚餐,女方貌美是好友遺孀

曾志偉72歲生日,攜紅顏知己與譚詠麟聚餐,女方貌美是好友遺孀

小嵩
2025-04-14 18:03:19
再次彈劾!特朗普或?qū)?chuàng)造歷史,成為美國第1個因炒股下臺的總統(tǒng)

再次彈劾!特朗普或?qū)?chuàng)造歷史,成為美國第1個因炒股下臺的總統(tǒng)

紀中百大事
2025-04-14 14:15:03
3比0橫掃王曼昱!3比0橫掃張本美和!21歲天才崛起,孫穎莎迎幫手

3比0橫掃王曼昱!3比0橫掃張本美和!21歲天才崛起,孫穎莎迎幫手

探長影視解說
2025-03-09 23:39:45
關(guān)窗!關(guān)窗!關(guān)窗!深圳緊急提醒

關(guān)窗!關(guān)窗!關(guān)窗!深圳緊急提醒

深圳晚報
2025-04-14 14:58:24
家庭最大的悲哀不是窮,是父母六七十歲了,還持續(xù)讓別人“借運”

家庭最大的悲哀不是窮,是父母六七十歲了,還持續(xù)讓別人“借運”

詩詞中國
2025-04-14 13:25:34
知名歌手在杭州被拒絕!視頻評論區(qū)爆了...

知名歌手在杭州被拒絕!視頻評論區(qū)爆了...

FM93浙江交通之聲
2025-04-14 18:21:28
政策真的要反轉(zhuǎn)了

政策真的要反轉(zhuǎn)了

地產(chǎn)一品塘
2025-04-13 00:10:25
為“三河改色”獻妙招的專家,快出來走兩步

為“三河改色”獻妙招的專家,快出來走兩步

方清云
2025-04-13 20:33:36
上海地鐵事件后續(xù):疑妻子要離婚,孩子受影響,男子工作職位曝光

上海地鐵事件后續(xù):疑妻子要離婚,孩子受影響,男子工作職位曝光

暖心的小屋
2025-04-13 20:49:55
段冉:山西用更強硬態(tài)度拿下G1 讓廣東防守強勢的后衛(wèi)線無可奈何

段冉:山西用更強硬態(tài)度拿下G1 讓廣東防守強勢的后衛(wèi)線無可奈何

直播吧
2025-04-14 23:20:08
我把“洗衣凝珠”,換回洗衣粉后,發(fā)現(xiàn)兩者區(qū)別太大了

我把“洗衣凝珠”,換回洗衣粉后,發(fā)現(xiàn)兩者區(qū)別太大了

美家指南
2025-04-13 16:17:47
王寶強兒子終于長大,近照曝光后全網(wǎng)震驚:誰是生父,一目了然!

王寶強兒子終于長大,近照曝光后全網(wǎng)震驚:誰是生父,一目了然!

貴圈小王爺
2025-04-13 21:35:20
美國制造業(yè)無法回流的根本原因——過半人口的文化水平不到六年級

美國制造業(yè)無法回流的根本原因——過半人口的文化水平不到六年級

電科技網(wǎng)
2025-04-14 10:00:10
國家中醫(yī)藥局:中醫(yī)藥越來越受年輕人喜愛

國家中醫(yī)藥局:中醫(yī)藥越來越受年輕人喜愛

紅星新聞
2025-04-14 19:29:19
6換1!威金斯3人+3首輪交易杜蘭特!萊利瘋了!

6換1!威金斯3人+3首輪交易杜蘭特!萊利瘋了!

星迪說芝
2025-04-14 15:24:47
我的后半生大結(jié)局,連亦憐80歲老公登場,才知她對老沈余情未了

我的后半生大結(jié)局,連亦憐80歲老公登場,才知她對老沈余情未了

清游說娛
2025-04-14 13:48:39
博主控訴在騰格里沙漠月亮湖露營被掀帳篷 景區(qū)回應:多次溝通游客拒絕買門票

博主控訴在騰格里沙漠月亮湖露營被掀帳篷 景區(qū)回應:多次溝通游客拒絕買門票

封面新聞
2025-04-13 18:53:06
2025-04-14 23:51:00
機器之心Pro incentive-icons
機器之心Pro
專業(yè)的人工智能媒體
10359文章數(shù) 142295關(guān)注度
往期回顧 全部

科技要聞

多款熱門芯片暫停報價 華強北多檔口歇業(yè)

頭條要聞

任教31年被解聘教師:同情況只剩我一個仍是"編制外"

頭條要聞

任教31年被解聘教師:同情況只剩我一個仍是"編制外"

體育要聞

他演過周星馳電影,62歲還要拿世界冠軍

娛樂要聞

專訪 | 王安宇:角色是為觀眾服務的

財經(jīng)要聞

通過人民幣貶值應對關(guān)稅?

汽車要聞

B級車要集體失眠? 吉利銀河星耀8"全都要"

態(tài)度原創(chuàng)

家居
健康
游戲
教育
數(shù)碼

家居要聞

時間靜止 老房子的新生活

在中國,到底哪些人在吃“偉哥”?

媽咪!我想被白皇后的大腿……"/> 主站 商城 論壇 自運營 登錄 注冊 媽咪!我想被白皇后的大腿…… 廉頗 2025-04-14 返回專欄首頁 作者:...

教育要聞

這種題為什么別人會做你不會做?虧你表姐整天輔導你

數(shù)碼要聞

小米推出米家空調(diào) Pro 人感上出風:雙毫米波雷達,售 3999 元

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 琼中| 扶绥县| 方城县| 洪泽县| 鹤峰县| 宁陵县| 鲜城| 潢川县| 宁南县| 临潭县| 巫山县| 册亨县| 白朗县| 榆林市| 红河县| 华坪县| 永平县| 南部县| 昭觉县| 永福县| 长寿区| 荔浦县| 沙洋县| 长葛市| 玉环县| 富锦市| 河间市| 麦盖提县| 新营市| 黄大仙区| 格尔木市| 青田县| 静海县| 靖远县| 岐山县| 古田县| 磴口县| 周至县| 苍南县| 南投市| 光泽县|