99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

<code id="mx26w"><form id="mx26w"><noframes id="mx26w">

<abbr id="mx26w"><table id="mx26w"></table></abbr>

<blockquote id="mx26w"></blockquote>

網易首頁

網易新聞
網易公開課
網易紅彩
網易嚴選
郵箱大師
網易云課堂

注冊免費郵箱

注冊VIP郵箱（特權郵箱，付費）
免費下載網易官方手機郵箱應用

移動端
網易公開課
網易嚴選
支付
郵箱

網易首頁 > 網易號 > 正文申請入駐

英偉達含量為零！華為密集模型比肩DeepSeek-R1，純昇騰集群訓練

2025-04-15 22:55:30　來源: 量子位

北京舉報

0

分享至

克雷西發自凹非寺
量子位 | 公眾號 QbitAI

密集模型的推理能力也能和DeepSeek-R1掰手腕了？

華為利用純昇騰集群訓練出的盤古Ultra，在數學競賽、編程等推理任務當中，和R1打得有來有回。

關鍵是模型參數量只有135B，整個訓練過程零英偉達含量，而且沒有出現損失尖峰。

通過改進的模型架構和系統優化策略，盤古Ultra擁有優異的性能表現和52%以上的算力利用率。

并且有網友表示，訓練過程中沒有出現損失尖峰這一特征，似乎此前從未實現。

135B密集模型比肩DeepSeek-R1

作為一個參數量135B密集模型，盤古Ultra達到了同尺度密集模型的最優表現，甚至可以與DeepSeek-R1等參數量更大的MoE模型競爭。

在預訓練階段模型的評測中，盤古Ultra在絕大部分英文基準任務和全部中文任務上取得了最佳性能，優于Llama 405B、DeepSeek-V3等baseline模型。

尤其在MMLU、TriviaQA、GSM8K等具有挑戰性的數據集上，盤古Ultra展現出了卓越的語言理解和推理能力。

經過指令調優后，盤古Ultra的性能進一步提升，尤其在AIME 2024、MATH-500等數學推理任務和LiveCodeBench等編程競賽題上達到了SOTA水平。

綜合來看，盤古Ultra超越了包括GPT-4o、Mistral-Large 2等強大模型，與DeepSeek-R1等MoE模型競爭激烈。

同時，盤古Ultra在Arena Hard、MMLU-pro等涵蓋通用語言理解和推理的評測中也表現優異。

那么，為了實現這樣的效果，盤古Ultra采用了哪些關鍵技術呢？

“三明治”層歸一化架構

如前文所述，盤古Ultra是一款135B參數量的密集模型，使用了94層的網絡結構。

盤古Ultra采用了分組查詢注意力（GQA）機制，包含96個查詢頭（query head）和8個鍵值頭（key-value head）。

為了解決訓練超深網絡面臨的不穩定性和收斂困難等問題，盤古Ultra在模型架構上做出了兩個關鍵改進——深度縮放的Sandwich-Norm層歸一化和TinyInit參數初始化策略。

傳統的Transformer通常使用Pre-LN層歸一化，但在深度模型中，Pre-LN容易導致每個子層輸出尺度的波動，引發訓練不穩定。

盤古Ultra使用的Sandwich-Norm層歸一化，則是在殘差連接前對每個子層的輸出做歸一化，并根據網絡深度對初始化值進行縮放，從而有效消除了訓練過程中的loss尖峰，使訓練過程更加平穩。

用更容易理解的話說，傳統方法僅在每個子層的輸入進行歸一化，但這種方法針對輸出也進行了歸一化，形成了Pre-Norm + 子層 + Post-Norm的“三明治”結構。

但是，僅僅使用Sandwich-Norm還不足以完全消除深度模型訓練中的不穩定性——隨著網絡層數的增加，每一層的輸出尺度仍然可能出現累積性的漂移。

為此，盤古Ultra在Sandwich-Norm的基礎上，進一步引入了深度縮放機制，對Post-Norm中的放縮參數γ進行了深度相關的初始化。

至于整個模型的初始化，傳統的初始化通常采用的Xavier初始化方法僅考慮模型寬度，而盤古Ultra采用的TinyInit同時依據模型深度和寬度來縮放初始化權重的標準差。

這種初始化方式有助于在前向傳播和反向傳播過程中，維持各層梯度的方差在一個合理的范圍內，避免了梯度消失或爆炸問題，使得訓練過程更加穩定，同時也加速了收斂。

實驗表明，TinyInit在深度模型訓練中取得了更好的收斂速度和下游任務性能；同時針對embedding層，保持權重的標準差接近1也能提升訓練穩定性。

另外，盤古團隊也針對Tokenizer進行了優化，通過在通用中英文、代碼、數學等不同領域分別進行詞頻統計，再合并去重，最終得到了一個兼顧領域覆蓋和編碼效率的153376個token的平衡詞表。

8192張昇騰NPU訓練集群

盤古Ultra的整個訓練流程主要分為三個階段——預訓練、長上下文擴展和指令調優。

其中預訓練又可以分為三個子階段：

通用階段：側重建立語言理解和知識儲備，使用了大量中英文通用語料，覆蓋網頁、書籍、百科等多個來源；
推理階段：引入更多高質量的數學和代碼數據，以增強模型的推理能力。同時還使用instruction數據來幫助模型學習執行任務；
退火階段：幫助模型鞏固知識和推理能力，并強化指令遵循能力。大量使用問答對和人類反饋數據。

研究者們采用了基于規則和模型的數據清洗方法，并設計了curriculum learning策略，讓模型循序漸進地學習不同難度的樣本。

預訓練中使用了AdamW優化器，并動態調整超參數。

預訓練后，模型在最長128K的長上下文數據上進一步訓練，通過擴大RoPE的基頻來實現長序列建模，以增強處理長文檔的能力。

最后的指令調優階則段使用監督微調（SFT）和強化學習（RL）來使模型更好地適應下游任務，學會執行指令并與人類偏好對齊。

訓練設施方面，盤古Ultra使用了一個由8192個昇騰AI處理器組成的大規模計算集群。

集群中每個節點包含8個NPU，通過華為高速緩存一致性互聯HCCS以全互聯的拓撲結構連接，每個NPU配備64GB內存，節點間則通過200Gbps的RoCE（RDMA over Converged Ethernet）網絡互聯。

為了實現盤古Ultra的高效訓練，研究團隊還采用了一套系統的并行策略和優化技術。

在并行策略的選擇上，盤古Ultra綜合考慮了模型的規模、數據的特性以及硬件的拓撲，最終采用了數據并行、張量并行、序列并行和流水線并行等多種并行方式的組合：

128路數據并行，將訓練數據分片到不同設備，保證了數據吞吐；
8路張量并行，利用設備內部高帶寬切分層內張量，實現高效通信；
序列并行用于處理超長序列以降低顯存壓力；
8段流水線并行，將不同層分布到不同設備，形成高效的計算流水線。

在并行策略的基礎上，盤古Ultra還從多個角度對訓練系統進行了深度優化。

一方面，通過使用ZeRO（Zero Redundancy Optimizer）分布式優化器，將模型狀態分片到不同設備，大幅降低了單個設備的內存占用，在提高數據并行度的同時，確保了每個設備的內存負擔在可接受范圍內。

另一方面，研究者們通過各種通信和計算優化技術，最小化了通信開銷，提升了計算效率：

通過算子融合（Kernel Fusion）將多個小算子合并，減少了內存訪問和kernel啟動；
通過通信計算重疊（Communication-Computation Overlapping）實現通信和計算的深度交織，隱藏通信延遲；
MC^2（Merged Computation & Communication）和BOA（Batch Optimization Accelerator）分別對張量并行和規范化層的通信進行了專門優化……

在算法、工程、數據各個層面的精細優化下，盤古Ultra實現了52%以上的算力利用率。

技術報告：
https://github.com/pangu-tech/pangu-ultra/blob/main/pangu-ultra-report.pdf

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦

熱點推薦

全面復現DeepSeek-R1-Zero數學代碼能力，訓練步數僅需其1/10

機器之心Pro 2025-04-23 18:08:34
3 跟貼 3
Transformer原作打臉DeepSeek觀點？一句Wait就能引發反思，RL都不用

新智元 2025-04-22 19:18:00
23 跟貼 23

科技解放生產力，近半數00后每天都要「問問AI」 | 年輕人「有問題就問」AI助手報告

36氪 2024-12-05 15:01:27
1 跟貼 1

MIT開發新方法，無需從頭訓練機器人即可執行復雜任務

DeepTech深科技 2024-11-05 18:05:35
5 跟貼 5
AI 時代的超級應用，是一個超級框

愛范兒 2025-03-13 11:56:19
0 跟貼 0

老板想本地跑AI，只給10萬還想體驗滿血DS，我該咋辦？

量子位 2025-04-14 15:31:01
0 跟貼 0

谷歌推出首款混合推理模型，思考程度可控，實現“按需付費”

DeepTech深科技 2025-04-23 18:04:47
0 跟貼 0
DeepSeek的橫空出世，讓AI+騰訊云數據庫產生了什么化學反應？

量子位 2025-03-04 20:07:47
0 跟貼 0

一句話讓DeepSeek控制你的電腦！微軟開源神器OmniParser V2

量子位 2025-02-18 20:48:36
0 跟貼 0
9.9萬買人形機器人，200多名消費者怎么看？

虎嗅APP 2025-04-24 06:56:08
0 跟貼 0
清華LeapLab開源cooragent框架：一句話構建您的本地智能體服務群

機器之心Pro 2025-04-23 18:35:45
4 跟貼 4
人形機器人組隊進廠打工！5只Figure 02在寶馬工廠

量子位 2024-11-22 10:57:40
0 跟貼 0
AI輔助編碼帶來思維方式轉變：從人寫代碼到人審代碼

量子位 2025-04-18 17:04:43
0 跟貼 0
Claude腦回路被開盒：AI會撒謊和暗中計劃

量子位 2025-04-04 12:20:26
0 跟貼 0
垂直小模型精準補位，MVP驗證成本更低更高效了

量子位 2025-04-21 14:49:47
0 跟貼 0
DeepSeek開口說話了反應超神無限打斷只要兩行代碼15分鐘

量子位 2025-03-07 14:20:34
0 跟貼 0
大模型如何讓智能硬件有腦有腳、聽話能干？

36氪 2025-01-26 10:30:50
0 跟貼 0
DeepSeek引爆AI革命，誰能笑到最后？

量子位 2025-03-11 17:16:22
0 跟貼 0
實測訊飛曉醫VS DeepSeek-R1，誰是更懂你的家庭健康助手？

量子位 2025-03-08 19:20:56
0 跟貼 0
DeepSeek開口說話了：只要15分鐘就能讓DeepSeek開口說話

量子位 2025-03-10 18:03:15
0 跟貼 0
DeepSeek應用如何落地？解鎖性能釋放x多模態融合xRAG增強

量子位 2025-03-07 22:58:40
0 跟貼 0
新能源時代的動力心臟之爭，華為已得先手

基地邊緣BaseEdge 2025-04-21 19:31:35
1 跟貼 1
市場份額50%！ openEuler系裝機量過千萬國產操作系統借開源突圍

量子位 2024-11-19 14:35:43
29 跟貼 29
劉亦菲走的大刀闊斧，余總像新兵蛋子，數數余總回頭了多少次？

小杰愛笑 2025-04-22 14:50:05
28 跟貼 28
中國制造再創“新高”，意大利老丈人認準華為汽車，準備開回羅馬

用耳朵聆聽 2025-04-23 14:12:27
1 跟貼 1
華為首發艙內激光視覺Limera，可夜晚識別30厘米障礙物

極果酷玩 2025-04-22 19:29:41
12 跟貼 12
華為鴻蒙，不值得一個尊重么？

烈焰童子 2025-04-22 18:39:48
0 跟貼 0
SK海力士有望逆襲三星電子？本月財報將揭曉DRAM“王座”落入誰家

財聯社 2025-04-23 16:44:05
0 跟貼 0
“迪拜人工智能周”聚焦前沿技術與產業落地，微軟、英偉達、OpenAI等科技公司與會

界面新聞 2025-04-22 16:57:18
0 跟貼 0
美女使用華為鴻蒙系統，很多軟件不支持，網友：不是華為的問題

幽默大聯盟 2025-04-23 15:19:00
1 跟貼 1
華為聯合11家車企發出智能輔助駕駛完全倡議

王長勝 2025-04-23 04:31:53
2 跟貼 2
朋友圈擴大，支持高速L3商用，華為乾崑智駕ADS4正式發布！

合車社 2025-04-22 23:02:41
0 跟貼 0
沒等來美國再次偉大，反而是錢包損失慘重，懂王迎來一輪反對浪潮

浩洋真知 2025-04-21 14:44:37
1 跟貼 1
這么好的設計，小米能夠吹仨星期，華為卻懶得說一下！

古德拜街拍 2025-04-22 09:19:01
0 跟貼 0
黃仁勛：DeepSeek激發全球推理熱情，推理將消耗100倍更多的算力

財聯社 2025-02-27 12:10:34
0 跟貼 0
芯片核爆！3nm！聯發科發布！

芯榜 2025-04-23 22:47:36
1 跟貼 1
含著金鑰匙出生的尚界！華為上汽強強聯合，第五界的含金量有多高

科技最前線 2025-04-21 23:18:37
0 跟貼 0
不知道有沒有華為參與，塞力斯首創以場景定義安全

科技鋒說 2025-04-23 16:50:48
1 跟貼 1
“甲亢哥”用華為三折疊拍視頻，一通亂點把視頻發出后還渾然不知

天目看看 2025-04-21 16:35:12
0 跟貼 0
雷軍1億搶到的男人，盧偉冰到底有多強？

華商韜略 2025-04-16 18:40:41
0 跟貼 0

著名演員陳道明坐問界M9現身賽力斯展臺，現場調侃：怎么來了這么多人！我開了三個月，我認為問界M9很好

著名演員陳道明坐問界M9現身賽力斯展臺，現場調侃：怎么來了這么多人！我開了三個月，我認為問界M9很好

和訊網

2025-04-23 11:05:37

NBA官宣年度大獎：布倫森當選最佳關鍵球員庫里票數第5詹姆斯第7

NBA官宣年度大獎：布倫森當選最佳關鍵球員庫里票數第5詹姆斯第7

羅說NBA

2025-04-24 06:34:09

特朗普“滑跪”，75國沒有料到，第一個獲得美降稅待遇的竟是中國

特朗普“滑跪”，75國沒有料到，第一個獲得美降稅待遇的竟是中國

影孖看世界

2025-04-23 17:27:30

再這么搞下去，崩塌是遲早的事

重遠投資觀

2025-04-23 20:14:38

暴雷！多家門店跑路關門，老板疑失聯，業主1.63億元血汗錢打水漂

暴雷！多家門店跑路關門，老板疑失聯，業主1.63億元血汗錢打水漂

冬天來旅游

2025-04-22 16:59:01

劉國梁辭去中國乒協主席職務孫穎莎、王楚欽等國乒隊員發聲

劉國梁辭去中國乒協主席職務孫穎莎、王楚欽等國乒隊員發聲

新京報

2025-04-23 17:34:05

比劉國梁主動辭職更讓人驚訝！不到48小時，體育界有四大變動

比劉國梁主動辭職更讓人驚訝！不到48小時，體育界有四大變動

涵豆說娛

2025-04-23 20:53:26

繼加州后美國又有11州起訴特朗普政府濫用關稅政策“違法”

繼加州后美國又有11州起訴特朗普政府濫用關稅政策“違法”

環球網資訊

2025-04-24 06:16:34

大S女兒在北京做了卷發，像個小公主，一個暖心舉動獲得大家稱贊

大S女兒在北京做了卷發，像個小公主，一個暖心舉動獲得大家稱贊

素素娛樂

2025-04-23 20:29:43

尺度太大，又見出軌女下屬的瓜！

尺度太大，又見出軌女下屬的瓜！

書畫藝術收藏

2025-04-23 20:00:03

晴天霹靂！晉級遭重傷，媒曝趙嘉仁腦內顱骨骨折，胡金秋賽后哽咽

晴天霹靂！晉級遭重傷，媒曝趙嘉仁腦內顱骨骨折，胡金秋賽后哽咽

南海浪花

2025-04-24 06:01:26

中方已亮明底線，不到24小時連退兩架波音飛機，特朗普口風變了

中方已亮明底線，不到24小時連退兩架波音飛機，特朗普口風變了

文雅筆墨

2025-04-23 21:45:20

雨果、莫雷加德等名將成立運動員聯合會，反對乒乓球賽事不合理規定

雨果、莫雷加德等名將成立運動員聯合會，反對乒乓球賽事不合理規定

懂球帝

2025-04-23 11:29:15

重慶榮昌鹵鵝哥，上海車展投喂360董事長周鴻祎：遭粉絲點名批評

重慶榮昌鹵鵝哥，上海車展投喂360董事長周鴻祎：遭粉絲點名批評

阿昌走遍中國

2025-04-23 22:07:23

中國突然亮出 “氫彈” 級殺器！美國徹底慌了：這仗沒法打了！

中國突然亮出 “氫彈” 級殺器！美國徹底慌了：這仗沒法打了！

軍迷小新055

2025-04-23 07:43:48

71歲成龍在四川買房，到樓盤監督裝修，看起來很疲憊，蒼老了好多

71歲成龍在四川買房，到樓盤監督裝修，看起來很疲憊，蒼老了好多

史行途

2025-04-23 15:44:35

劉國梁下課，蔡振華終復仇！兩人離任都與師徒矛盾有關，國乒傳統

劉國梁下課，蔡振華終復仇！兩人離任都與師徒矛盾有關，國乒傳統

漣漪讀史

2025-04-23 12:56:25

被小權力毀掉的人生，平靜得連個泡兒都不冒

被小權力毀掉的人生，平靜得連個泡兒都不冒

末名先生

2025-04-23 15:31:39

汕頭兩名男童溺亡后續：監控流出，路人扭頭就走，當地街道辦回應

汕頭兩名男童溺亡后續：監控流出，路人扭頭就走，當地街道辦回應

涵豆說娛

2025-04-23 18:28:50

一覺醒來，轉口貿易天塌了！

羅sir財話

2025-04-23 10:18:45

追蹤人工智能動態

10362文章數 176116關注度

往期回顧全部

科技要聞

馬斯克：中國用戶對FSD"最為苛刻"

頭條要聞

繼加州后美國又有11州起訴特朗普政府“違法”

頭條要聞

繼加州后美國又有11州起訴特朗普政府“違法”

體育要聞

金牌和金子，劉國梁改變國乒的這些年

娛樂要聞

于和偉領銜，央視諜戰劇要有天花板了

財經要聞

董明珠放話"海歸有間諜" 打工人破防了

汽車要聞

以經緯敘事奇瑞瑞虎新旗艦SUV瑞虎9L快評

態度原創

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

親子

藝術

家居

教育

房產

親子要聞

【關注】成都代孕公司哪里有代孕機構|GTR

藝術要聞

故宮珍藏的墨跡《十七帖》，比拓本更精良，這才是地道的魏晉寫法

家居要聞

開闊空間家居輕智能

動靜結合休閑娛樂并存
黑白紋理簡約低調空間
天臺月光灰白簡約空間

教育要聞

梯形ABCD的上下底及兩腰分別為10、15、6和5，求其面積

房產要聞

瘋狂兌現！這個項目，正在革新老黃埔居住天花板！

© 1997-2025 網易公司版權所有 About NetEase | 公司簡介 | 聯系方法 | 招聘信息 | 客戶服務 | 隱私政策 | 不良信息舉報 Complaint Center | 廉正舉報 | 侵權投訴

無障礙瀏覽進入關懷版主站蜘蛛池模板：平原县| 白河县| 陕西省| 焦作市| 隆尧县| 虹口区| 遵化市| 高密市| 西昌市| 纳雍县| 邻水| 岑巩县| 大方县| 南和县| 沙河市| 平山县| 朝阳区| 喀什市| 荔波县| 于都县| 新巴尔虎左旗| 信宜市| 全南县| 龙胜| 德钦县| 淳化县| 大渡口区| 中牟县| 博罗县| 依安县| 富蕴县| 大悟县| 讷河市| 全州县| 徐汇区| 娱乐| 枣阳市| 大港区| 云霄县| 台南市| 安福县|

<code id="hasjs"></code>

<em id="hasjs"><option id="hasjs"><em id="hasjs"></em></option></em>

<abbr id="hasjs"></abbr>

<dfn id="hasjs"></dfn>