99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

英偉達253B開源新王登場,Llama 4三天變陪襯!直逼DeepSeek-R1成推理天花板

0
分享至


新智元報道

編輯:編輯部 HYZ

【新智元導(dǎo)讀】Llama 4剛出世就被碾壓!英偉達強勢開源Llama Nemotron-253B推理模型,在數(shù)學(xué)編碼、科學(xué)問答中準確率登頂,甚至以一半?yún)?shù)媲美DeepSeek R1,吞吐量暴漲4倍。關(guān)鍵秘訣,就在于團隊采用的測試時Scaling。

Llama 4誕生不過3天,反手就被超越了。

剛剛,英偉達官宣開源「超大杯」Llama Nemotron推理模型,共有253B參數(shù),基于Llama-3.1-405B微調(diào)而來。

在多項基準測試中,Llama Nemotron一舉擊敗了兩款Llama 4模型。而且僅用一半的參數(shù),性能直逼DeepSeek R1。

尤其是,在復(fù)雜數(shù)學(xué)推理AIME(2024/2025)、科學(xué)推理GPQA Diamond、編碼LiveCodeBnech中,新模型取得SOTA。


相比DeepSeek R1 671B,它的推理吞吐量提升了4倍。


Llama-3.1-Nemotron-Ultra-253B-v1經(jīng)過后期訓(xùn)練,專注于推理、人類聊天偏好和任務(wù),如RAG(檢索增強生成)和工具調(diào)用。

它能支持128Ktoken的上下文長度,且能夠在單個8xH100芯片節(jié)點上進行推理。

這個模型之所以能達到如此強的推理性能,是因為在模型精度和效率之間取得了良好平衡,讓效率(吞吐量)直接轉(zhuǎn)化為成本節(jié)省。

通過采用一種新穎的神經(jīng)架構(gòu)搜索(NAS)方法,研究者大大減少了模型的內(nèi)存占用,從而支持更大的工作負載,并減少了在數(shù)據(jù)中心環(huán)境中運行模型所需的GPU數(shù)量。

現(xiàn)在,該模型已準備好支持商用。

Llama Nemotron超大杯上線,推理開源天花板

今年3 月,英偉達首次亮相了Llama Nemotron系列推理模型。

它一共包含三種規(guī)模:Nano、Super 和 Ultra,分別針對不同場景和計算資源需求,供開發(fā)者使用。

· Nano

Nano(8B)基于Llama 3.1 8B微調(diào)而來,專為PC和邊緣設(shè)備而設(shè)計。

如下圖,Llama Nemotron Nano在GPQA Diamond、AIME 2025、MATH-500、BFCL、IFEval、MBPP和MTBench等多項基準測試中,展現(xiàn)出領(lǐng)先性能。


圖 1. Llama Nemotron Nano在一系列推理和智能體基準測試中提供同類最佳性能

· Super

Super(49B)是從Llama 3.3 70B蒸餾而來,針對數(shù)據(jù)中心GPU進行了優(yōu)化,便可實現(xiàn)最高吞吐量下的最佳準確性。

下圖顯示,Llama Nemotron Super在GPQA Diamond、AIME 2024/2025、MATH-500、MBPP、Arena Hard、BFCL和IFEval等多項基準測試,取得了最優(yōu)性能。


圖 2. Llama Nemotron Super在一系列推理和智能體基準測試中提供領(lǐng)先性能

· Ultra

Ultra(253B)是從Llama 3.1 405B蒸餾而來,專為多GPU數(shù)據(jù)中心打造最強智能體而設(shè)計,

圖表顯示,采用FP8精度的Llama Nemotron Ultra 253B在GPQA、Complex Math、BFCL、LiveCodeBench以及IFEval上表現(xiàn)出色。


圖3. FP8精度的Llama Nemotron Ultra提供同類最佳的推理和智能體基準測試性能

Llama Nemotron家族模型均是基于開源 Llama構(gòu)建,并采用英偉達審核后的數(shù)據(jù)集合成數(shù)據(jù),因此全部可以商用。

秘密武器:測試時Scaling

英偉達是如何訓(xùn)練出性能如此卓越的模型的?背后的關(guān)鍵,就在于「測試時scaling」(或稱推理時scaling)和「推理」。

測試時scaling這項技術(shù),會在模型推理階段投入更多計算資源,用以思考和權(quán)衡各種選項,來提升模型響應(yīng)質(zhì)量,這就使得模型在關(guān)鍵下游任務(wù)上的性能得以提升。

對問題進行推理是一項復(fù)雜的任務(wù),而測試時投入的計算資源,正是使這些模型能達到前述需推理水平的關(guān)鍵因素。

它能讓模型在推理期間利用更多資源,開辟更廣闊的可能性空間,從而增加模型建立起必要關(guān)聯(lián)、找到原本可能無法獲得的解決方案的幾率。

盡管「推理」和「測試時scaling」對智能體工作流如此重要,但有一個共同問題,卻普遍困擾著如今最先進的推理模型——

開發(fā)者無法選擇何時讓模型進行推理,也就是說,做不到在「推理開啟」和「推理關(guān)閉」之間自由切換。

而Llama Nemotron系列模型則攻破了這一難題,用「系統(tǒng)提示詞」來控制推理開關(guān)!

如何構(gòu)建?

Llama 3.3 Nemotron 49B Instruct以Llama 3.3 70B Instruct為基礎(chǔ)模型,經(jīng)歷了一個廣泛的后訓(xùn)練階段后,不僅模型尺寸減小,還讓原始能力保留甚至增強了。

三個后訓(xùn)練階段如下。

1. 通過神經(jīng)架構(gòu)搜索 (NAS) 和知識蒸餾進行蒸餾。

2. 監(jiān)督微調(diào):使用了由英偉達創(chuàng)建的600億Token 合成數(shù)據(jù)(代表了所生成的 3000萬樣本中的400萬),以確保在「推理關(guān)閉」和「推理開啟」兩種模式下內(nèi)容的高質(zhì)量。在此階段,團隊利用了NVIDIA NeMo框架,有效且高效地擴展了后訓(xùn)練流程。

3. 強化學(xué)習(xí):這個階段是利用NVIDIA NeMo完成的,模型的對話能力和指令遵循性能得以增強,從而在廣泛的任務(wù)中都能提供高質(zhì)量的響應(yīng)。


第一個階段(步驟1和2)已在神經(jīng)架構(gòu)搜索 (NAS) 技術(shù)報告中詳細闡述。

簡而言之,該階段可被視為通過多種蒸餾和NAS方法,依據(jù)特定的旗艦硬件,將各模型的參數(shù)量「調(diào)整至合適尺寸」,從而達到預(yù)選的最優(yōu)值。

模型后訓(xùn)練的第二個階段(步驟3和4)則涉及由合成數(shù)據(jù)驅(qū)動的監(jiān)督微調(diào),目的在于實現(xiàn)幾個關(guān)鍵目標。

首要目標,就是提升模型在多種任務(wù)上的非推理性能。

后訓(xùn)練流程的這一環(huán)節(jié)(步驟3)利用了團隊精選的提示詞,通過基線模型 (Llama 3.3 70B Instruct) 以及Qwen2.5 7B Math和Coder模型生成合成數(shù)據(jù)。

這些數(shù)據(jù)隨后經(jīng)過團隊的精選與審核,用于增強模型在聊天、數(shù)學(xué)和代碼任務(wù)上的「推理關(guān)閉」模式下的性能。

同時,團隊也投入大量精力,確保在此階段,「推理關(guān)閉」模式下的指令遵循和函數(shù)調(diào)用性能達到同類最佳水平。

第二個目標(步驟4)是通過在精選的DeepSeek-R1數(shù)據(jù)(僅限數(shù)學(xué)、代碼和科學(xué)領(lǐng)域)上進行訓(xùn)練,打造出同類最佳的推理模型。

每一個提示詞和響應(yīng)都經(jīng)過嚴格篩選,確保在推理能力增強過程中僅使用高質(zhì)量數(shù)據(jù),并輔以NVIDIA NeMo框架的支持。這就能確保團隊可以選擇性地從 DeepSeek-R1中蒸餾出它在優(yōu)勢領(lǐng)域所具備的強大推理能力。

「推理開啟」/「推理關(guān)閉」兩種模式的訓(xùn)練(步驟3和4)是同時進行的,兩者唯一的區(qū)別在于系統(tǒng)提示詞。

這意味著,最終生成的模型既能作為推理模型運行,也能作為傳統(tǒng)的LLM運行,并通過一個開關(guān)(即系統(tǒng)提示詞)在兩種模式間切換。

這種設(shè)計,使得組織機構(gòu)能夠?qū)蝹€尺寸適宜的模型同時用于推理任務(wù)和非推理任務(wù)。

最后一個階段(步驟5和6)則采用了強化學(xué)習(xí)來更好地對齊用戶意圖與期望。

模型首先利用REINFORCE算法和基于啟發(fā)式的驗證器,針對指令遵循和函數(shù)調(diào)用這兩個任務(wù)進行RL以提升性能(步驟5)。

隨后,采用RLHF技術(shù),結(jié)合HelpSteer2數(shù)據(jù)集和NVIDIA Llama 3.1 Nemotron獎勵模型,對最終模型進行面向聊天應(yīng)用場景的對齊(步驟6)。

最終,這些后訓(xùn)練步驟打造出了同類最佳的推理模型,并且通過提供在兩種范式(推理與非推理)間切換的機制,確保了模型在函數(shù)調(diào)用和指令遵循方面的性能不受影響。

模型則能高效支持智能體AI工作流中的各個,同時還能保持針對旗艦級英偉達硬件優(yōu)化的最佳參數(shù)量。

性能刷新SOTA,吞吐量最高5倍提升

· Llama Nemotron Super

Llama Nemotron融合了DeepSeek-R1等模型強大的推理能力,以及Llama 3.3 70B Instruct具備的強大世界知識與對可靠工具調(diào)用及指令遵循,最終打造出在關(guān)鍵智能體任務(wù)上表現(xiàn)領(lǐng)先的模型。

結(jié)果顯示,Llama Nemotron 49B準確性最高,且吞吐量提升達5倍。


圖 5. Llama Nemotron Super為智能體任務(wù)提供了最高的準確性和吞吐量,從而降低了推理成本

· Llama Nemotron Ultra 253B

Llama Nemotron Ultra總參數(shù)量僅為253B,但其推理性能已達到甚至超越DeepSeek-R1等頂級開放推理模型。

與此同時,憑借優(yōu)化的模型尺寸實現(xiàn)了顯著更高的吞吐量,并保留了優(yōu)秀的工具調(diào)用能力。

這種卓越推理能力與毫不妥協(xié)的工具調(diào)用能力的結(jié)合,使其成為智能體工作流領(lǐng)域的同類最佳模型。

除了應(yīng)用Llama Nemotron Super的完整后訓(xùn)練流程外,Llama Nemotron Ultra還額外經(jīng)歷了一個專注的RL階段,旨在進一步增強其推理能力。

結(jié)果表明,相較于DeepSeek-R1 671B,Llama Nemotron Ultra的吞吐量提升高達4倍,并且在GPQA、AIME 2024、AIME 2025、BFCL、LiveCodeBench、MATH500和IFEval的等權(quán)重平均準確性方面取得最高分。


圖6. Llama Nemotron Ultra同時提供卓越的準確性和驚人的吞吐量

打造多智能體系統(tǒng),搞定復(fù)雜任務(wù)


由Llama 3.3 Nemotron 49B Instruct驅(qū)動的多智能體協(xié)作系統(tǒng),在Arena Hard 基準測試中,拿下了驚艷的92.7分。

傳統(tǒng)的測試時計算scaling方法,大多聚焦于那些有明確答案的問題,比如數(shù)學(xué)題、邏輯推理、編程競賽。

現(xiàn)實中,許多重要任務(wù)缺乏可驗證的解決方案,比如提出創(chuàng)新研究思路、撰寫學(xué)術(shù)論文,或是為復(fù)雜的軟件產(chǎn)品開發(fā)有效的交付策略。

這些問題,往往更具挑戰(zhàn)性,也更貼近實際需求。

Llama Nemotron測試時計算scaling系統(tǒng)正是為此而生,它模仿了人類解決復(fù)雜問題寫作模式,通過以下幾個步驟實現(xiàn):

1. 集思廣益:針對問題初步構(gòu)思一個或多個解決方案。

2. 獲取反饋:就初步方案征求朋友、同事或其他專家的意見。

3. 編輯修訂:根據(jù)收集到的反饋對初步方案進行修改。

4. 擇優(yōu)選取:在整合修訂意見后,選出最具潛力的最終解決方案。

這種方法使得測試時計算scaling技術(shù)能夠應(yīng)用于更廣泛的通用領(lǐng)域任務(wù)。

要形象地理解這個多智能體協(xié)作系統(tǒng),可以將其類比為一個團隊協(xié)同工作,為一個沒有標準答案的開放式問題尋找最佳解決方案。

與之相對,「長思考」則好比訓(xùn)練單個人深度、持久地鉆研一個問題,最終得出一個可以對照標準答案進行驗證的結(jié)果。

因此,多智能體系統(tǒng)強大之處在于,不僅提升解決復(fù)雜問題效率,還能通過協(xié)作挖掘更多可能性。

參考資料:

https://huggingface.co/nvidia/Llama-3_1-Nemotron-Ultra-253B-v1

https://developer.nvidia.com/blog/build-enterprise-ai-agents-with-advanced-open-nvidia-llama-nemotron-reasoning-models/

https://build.nvidia.com/nvidia/llama-3_1-nemotron-ultra-253b-v1?ncid=so-twit-273200

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
9歲兒童從25樓墜落至7樓平臺后幸存 家屬:孩子胸椎骨折,擔(dān)心影響后續(xù)生長發(fā)育

9歲兒童從25樓墜落至7樓平臺后幸存 家屬:孩子胸椎骨折,擔(dān)心影響后續(xù)生長發(fā)育

紅星新聞
2025-04-17 18:13:10
全國理發(fā)店開始倒閉潮!明明沒有電商沖擊,為啥還會自己干到黃?

全國理發(fā)店開始倒閉潮!明明沒有電商沖擊,為啥還會自己干到黃?

文辰國學(xué)
2025-04-14 18:45:28
彪悍啊!38歲熱依扎“去父留子”直接曬娃:姐不需要婚姻證明人生

彪悍啊!38歲熱依扎“去父留子”直接曬娃:姐不需要婚姻證明人生

娛樂白名單
2025-04-16 23:48:57
央視36集都市劇今晚開播!兩大視后和影后飆戲,我敢說收視會爆炸

央視36集都市劇今晚開播!兩大視后和影后飆戲,我敢說收視會爆炸

糊咖娛樂
2025-04-17 11:09:45
含劇毒無解藥!這些東西不能吃,高溫烹煮也無用,誤食極可能致死

含劇毒無解藥!這些東西不能吃,高溫烹煮也無用,誤食極可能致死

阿傖說事
2025-04-15 20:02:56
36歲白領(lǐng)女勇闖杭州相親市場:我這條件憑什么找不到,結(jié)局太現(xiàn)實

36歲白領(lǐng)女勇闖杭州相親市場:我這條件憑什么找不到,結(jié)局太現(xiàn)實

匹夫來搞笑
2025-04-17 19:53:14
董軍防長突然南下,事前沒有透露半點風(fēng)聲,要和鄰國聯(lián)手干件大事

董軍防長突然南下,事前沒有透露半點風(fēng)聲,要和鄰國聯(lián)手干件大事

小lu侃侃而談
2025-04-16 19:13:24
林豆豆有多美?1966年和毛主席在天安門的合影,她22歲,青春靚麗

林豆豆有多美?1966年和毛主席在天安門的合影,她22歲,青春靚麗

老謝談史
2025-04-17 12:05:25
再起波瀾?中國從巴西大規(guī)模進口大豆,外媒嗅出不對:規(guī)模異常大

再起波瀾?中國從巴西大規(guī)模進口大豆,外媒嗅出不對:規(guī)模異常大

史紀文譚
2025-04-16 23:24:14
比亞迪狠起來,連自己人都打,方程豹鈦3,秒殺元Plus、海師05

比亞迪狠起來,連自己人都打,方程豹鈦3,秒殺元Plus、海師05

小怪吃美食
2025-04-15 00:33:20
從國民弟弟到藝考傳奇,連續(xù)7年霸榜北電,他用實力撕碎流量標簽

從國民弟弟到藝考傳奇,連續(xù)7年霸榜北電,他用實力撕碎流量標簽

生如稗草
2025-04-17 13:34:59
央視紅人洛桑之死,時隔25年后,搭檔博林坦白:他根本沒喝多少酒

央視紅人洛桑之死,時隔25年后,搭檔博林坦白:他根本沒喝多少酒

農(nóng)村教育光哥
2025-04-12 10:47:17
名記:大衛(wèi)-格里芬想解雇威利-格林被拒絕 然后自己被解雇了

名記:大衛(wèi)-格里芬想解雇威利-格林被拒絕 然后自己被解雇了

直播吧
2025-04-17 08:44:15
盤點NBA25年自由市場上的6條大魚,多位頂級后衛(wèi)上榜,詹姆斯領(lǐng)銜

盤點NBA25年自由市場上的6條大魚,多位頂級后衛(wèi)上榜,詹姆斯領(lǐng)銜

大衛(wèi)的籃球故事
2025-04-17 17:38:09
最新后續(xù)!山西大同訂婚案,網(wǎng)友留言讓人寒心,三觀盡毀,痛心

最新后續(xù)!山西大同訂婚案,網(wǎng)友留言讓人寒心,三觀盡毀,痛心

魔都姐姐雜談
2025-04-17 08:43:07
呂頌賢夫妻堅持26年吃素不生子,就為不變老,今59歲近照難以置信

呂頌賢夫妻堅持26年吃素不生子,就為不變老,今59歲近照難以置信

蘇星河
2025-04-16 22:08:44
沒了!安切洛蒂,確定下課!

沒了!安切洛蒂,確定下課!

足球大號
2025-04-17 10:54:55
踢泰山遇困難!北京國安官方公告

踢泰山遇困難!北京國安官方公告

建哥說體育
2025-04-17 07:02:45
王炸來了!微信正式發(fā)布官方聊天助手

王炸來了!微信正式發(fā)布官方聊天助手

XCiOS俱樂部
2025-04-17 07:00:09
京東股權(quán)曝光:劉強東持股11.7%股權(quán),有72%投票權(quán) 正與美團死磕

京東股權(quán)曝光:劉強東持股11.7%股權(quán),有72%投票權(quán) 正與美團死磕

雷遞
2025-04-17 22:41:09
2025-04-17 23:51:00
新智元 incentive-icons
新智元
AI產(chǎn)業(yè)主平臺領(lǐng)航智能+時代
12544文章數(shù) 66013關(guān)注度
往期回顧 全部

科技要聞

余承東大講安全,絕口不提智駕"替你開車"

頭條要聞

美知名經(jīng)濟學(xué)家:特朗普低估了中國 也沒有留下逃生門

頭條要聞

美知名經(jīng)濟學(xué)家:特朗普低估了中國 也沒有留下逃生門

體育要聞

結(jié)束16年等待,一支強硬的阿森納向我們走來

娛樂要聞

張檬順利產(chǎn)子,韓國婆婆趕赴香港陪產(chǎn)

財經(jīng)要聞

李強:要把握政策力度 必要時敢于打破常規(guī)

汽車要聞

一躍跳過障礙/秒切防御姿態(tài) 看懂嵐圖"開掛"絕技

態(tài)度原創(chuàng)

手機
房產(chǎn)
教育
公開課
軍事航空

手機要聞

iQOO Z10 Turbo系列標配電競芯片Q1,超薄藍海電池

房產(chǎn)要聞

最后一波!15萬起上車海口超級大盤,還是準現(xiàn)房!

教育要聞

一元九次方程,這可難倒不少同學(xué)啊

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

朝鮮譴責(zé)美國派遣戰(zhàn)略轟炸機至朝鮮半島

無障礙瀏覽 進入關(guān)懷版 主站蜘蛛池模板: 阿巴嘎旗| 富裕县| 利川市| 高邮市| 石林| 兖州市| 嘉义市| 阜南县| 剑阁县| 磐石市| 津市市| 海口市| 弥勒县| 白朗县| 景东| 广西| 定襄县| 东港市| 朝阳县| 德清县| 明光市| 奉化市| 东海县| 华安县| 通化市| 阳城县| 河北省| 台安县| 顺平县| 秀山| 富顺县| 泸定县| 北海市| 昌乐县| 淮南市| 松江区| 承德县| 阳信县| 兴化市| 明水县| 宜兰市|