99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

全球開發(fā)者組團訓練,首個異步強化學習32B推理模型震撼來襲!數(shù)據(jù)已開源

0
分享至


新智元報道

編輯:英智 好困

【新智元導讀】全球首個去中心化強化學習訓練的32B模型震撼發(fā)布!無需授權,就能用自家異構計算資源參與其中,讓編碼、數(shù)學與科學領域的推理性能邁向新高度。

最近,全球第一個用去中心化強化學習訓練的32B模型——INTELLECT-2正式發(fā)布!

任何人都能用自己的異構計算資源參與,無需授權。

這種全新的范式,讓去中心化訓練在編碼、數(shù)學和科學領域,邁向前沿的推理性能。


INTELLECT-2是大規(guī)模去中心化強化學習的開端,他們的下一步計劃是用強化學習訓練端到端智能體。

去中心化強化學習正處于起步階段,若能匯聚社區(qū)和各方貢獻,開源AI有望超越閉源實驗室。

AI社區(qū)對這項工作給出了非常積極的肯定。



隨著OpenAI o1和DeepSeek R1的發(fā)布,出現(xiàn)了預訓練以外的擴展范式,借助RL進行優(yōu)化,讓模型有更多時間進行推理。

之前發(fā)布的成果曾探討,為何通過RL訓練的推理模型,相比標準的LLM預訓練,更適合去中心化訓練。

INTELLECT-2將有力地證實這一觀點。


博客鏈接:https://www.primeintellect.ai/blog/intellect-2

全球首個去中心化強化學習32B模型

過去一年,研究者致力于構建所有關鍵的開源組件,讓INTELLECT-2具備前沿的推理性能,支持異構計算節(jié)點,并允許無需授權的貢獻,能對32B參數(shù)模型進行去中心化RL訓練:

  • prime-RL:新推出的開源庫,用于完全異步的去中心化RL,基于具備容錯的去中心化訓練框架prime開發(fā)。

  • SYNTHETIC-1 & GENESYS:用于RL任務眾包和驗證環(huán)境的庫。

  • TOPLOC:實現(xiàn)高效、可驗證的推理方法,用于驗證INTELLECT-2中所有去中心化rollout節(jié)點的計算。

  • 協(xié)議測試網:提供基礎設施和經濟激勵,用于聚合和協(xié)調全球計算資源,打造真正自主的開源AI生態(tài)系統(tǒng)。


Prime-RL:去中心化訓練框架

INTELLECT-2基礎設施主要由三個組件構成:

  • 推理采樣節(jié)點(Inference Rollout Workers):一組去中心化節(jié)點,用最新的策略模型,從環(huán)境中收集推理軌跡(reasoning rollouts),并計算相應的獎勵。

  • TOPLOC驗證節(jié)點(TOPLOC Validators):負責高效驗證無需授權的rollout工作節(jié)點的推理計算,打造無需信任的系統(tǒng)。

  • GRPO訓練節(jié)點(GRPO Training Workers):從去中心化推理采樣節(jié)點收集到新生成的數(shù)據(jù)后,采用DeepSeek的GRPO訓練方法進行訓練。訓練完成后,這些訓練節(jié)點會通過Shardcast庫,將更新后的權重廣播給所有推理節(jié)點,以啟動下一輪數(shù)據(jù)收集。

該基礎設施具備以下特性:

  • 完全消除通信開銷:通過異步強化學習,新策略模型的廣播與正在進行的推理和訓練完全重疊,通信不再成為瓶頸。

  • 支持異構推理節(jié)點:允許任何人按自己的節(jié)奏生成推理軌跡(reasoning traces),跨節(jié)點處理速度沒有統(tǒng)一要求。

  • 資源需求低:在這種訓練設置中,占計算資源大頭的推理節(jié)點可以在消費級GPU上運行。例如,配備4塊RTX 3090 GPU的機器,足以支持32B參數(shù)模型的訓練。

  • 實現(xiàn)高效驗證:推理計算的驗證過程,不會引入訓練瓶頸。


異步強化學習

RL在本質上比傳統(tǒng)的LLM預訓練更具異步性。在去中心化RL中,數(shù)據(jù)收集和網絡訓練可以分開進行。

多個節(jié)點在并行環(huán)境中運行,各自異步收集經驗數(shù)據(jù),中央學習器負責接收和處理這些數(shù)據(jù)。

由于經驗數(shù)據(jù)到達的時間不同,且來自狀態(tài)空間的不同部分,每個步驟的發(fā)生速率也有所不同。

異步強化學習在Tulu 3和Llama 4中得到了成功應用,采用單步異步強化學習方法,提升了訓練效率。

消融實驗表明,即使采用四步異步訓練(即推理節(jié)點使用的策略模型落后四步),也能復現(xiàn)DeepScaleR的結果,且不會降低模型性能。

這樣的異步程度,在去中心化RL訓練中,即使全局互聯(lián)較弱,也能將通信時間完全隱藏在計算過程中。


同步DeepScaleR訓練與異步Prime-RL的比較:即使延遲增加(最多四步),Prime-RL的性能仍能與同步基線媲美

此外,異步強化學習不僅實現(xiàn)了去中心化訓練設置,還通過分別優(yōu)化訓練和推理引擎,進一步提高了效率。

例如,在prime-rl庫中,rollout節(jié)點可以利用vLLM,及全套推理優(yōu)化技術。

完全異步的在線RL訓練框架prime-rl已開源,任何人都能借此開啟全球去中心化RL訓練。

Shardcast

基礎設施中的一個關鍵組件,Shardcast是能盡快將新策略模型從訓練節(jié)點廣播到所有去中心化推理節(jié)點的機制。

Shardcast是一個通過基于HTTP的樹狀拓撲網絡分發(fā)大型文件的庫,由以下部分組成:

  • 源服務器(Origin Server):作為根節(jié)點,將大文件分片,并通過HTTP提供分片服務。

  • 中間節(jié)點(Middle Nodes):作為中間服務器,從上游服務器下載分片,并以流水線方式轉發(fā)。

  • 客戶端節(jié)點(Client Nodes):下載分片并重新組裝成原始文件。


TOPLOC驗證

TOPLOC是一種用于可驗證推理的局部敏感哈希方案,旨在檢測推理過程中的惡意修改。

它能實現(xiàn)以下功能:

  • 檢測推理過程中對模型、提示或精度的修改。

  • 有效應對GPU硬件的不確定性,這是可驗證計算中的主要挑戰(zhàn)之一。TOPLOC在不同類型的GPU、張量并行配置和注意力內核上都能可靠運行。

  • 驗證速度比生成速度快得多。

在INTELLECT-2中對TOPLOC進行生產環(huán)境測試,任何人都能以無需授權的方式貢獻GPU資源。


協(xié)議測試網

幾周前,團隊宣布了公共協(xié)議測試網的啟動,旨在實現(xiàn)真正自主的開源AI生態(tài)系統(tǒng)。

今天,首個無需授權的計算池開放,任何人都能在自己的GPU上運行協(xié)議測試網節(jié)點。

注冊、計算資源驗證、對惡意行為的懲罰等操作,都在公共以太坊Base測試網上完成。這帶來了諸多好處:

  • 全球規(guī)模的計算資源聚合:節(jié)點設計允許任何人在全球任何計算設備上運行,加入去中心化網絡,并最終因節(jié)點所做的貢獻獲得獎勵。這有助于擴展規(guī)模,無授權地整合來自全球的數(shù)據(jù)中心資源。

  • 為完全去中心化訓練奠定基礎:所有加入計算池的節(jié)點都以點對點(peer-to-peer)的方式進行通信和協(xié)調。這為完全去中心化、無授權地訓練和微調開源模型奠定了基礎,對構建真正自主的開源AI生態(tài)系統(tǒng)至關重要。


除了對基礎設施進行多項改進,在協(xié)議層面也有其他關鍵進展。

  • 檢測和防范攻擊與欺詐的機制:將TOPLOC驗證集成到節(jié)點中,實現(xiàn)高效驗證,有助于識別偽造GPU或污染數(shù)據(jù)集的行為。

  • 鼓勵誠實行為的激勵:為減少不誠信行為,嘗試采用經濟激勵,抑制偽造GPU或提交虛假數(shù)據(jù)等惡意行為。具體做法是要求節(jié)點預先抵押一定的資金,如果節(jié)點被認定存在不誠信行為,這些抵押資金將被扣除。

此外,團隊為節(jié)點的工作設定了24小時的驗證期,期間若發(fā)現(xiàn)問題,節(jié)點工作將被判定無效并扣除相應獎勵。如果節(jié)點出現(xiàn)惡意行為或試圖鉆機制的空子,最多會扣除24小時的獎勵。

模型訓練詳情

INTELLECT-2的目標是訓練出一個具有可控思考預算的前沿推理模型。

用戶和開發(fā)者可通過系統(tǒng)提示詞,指定模型在得出最終解決方案前,對一個問題應思考的token數(shù)量。

這種方法能讓訓練出的模型在實際應用中更加高效。

近期的研究(如ThinkPrune、L1和Deepscaler)表明,經過專門訓練、在嚴格約束下進行推理訓練的模型,幾乎能解決所有無約束推理模型可解決的問題,且速度更快,推理成本也更降低。

通過提示控制推理預算,用戶既能利用這一優(yōu)勢,又能在遇到極具挑戰(zhàn)性的問題時,選擇更長的推理時間。


「L1:利用RL控制推理模型的思考時長」的研究結果表明,推理模型可以被訓練來遵循其提示詞中指定的token數(shù)量,且模型性能會隨推理預算的增加而可預測地提升;團隊用自研框架prime-rl獨立復現(xiàn)了論文結果

為訓練出這樣的模型,團隊以QwQ-32B為基模型,遵循Deepseek-R1的方法,應用GRPO算法,結合數(shù)學和編程領域的可驗證獎勵。

在初步實驗中,以下幾個部分對控制模型思考預算、提升模型性能起到了重要作用:

通過長度獎勵實現(xiàn)可控思考預算

除了根據(jù)輸出的正確性給予任務獎勵外,還引入了長度獎勵,以引導模型遵循提示詞中指定的思維預算。

團隊參考了L1的研究思路,從指定范圍內采樣目標長度,將其加入提示詞,根據(jù)目標長度與實際響應長度的差異來分配獎勵。

與L1不同,團隊沒有從一個連續(xù)的值范圍中采樣目標長度,而是從一小組預定義的值中采樣,更有利于模型學習。

通過長度控制進行訓練,不僅讓模型更實用,還能更高效地利用異構推理硬件。

對于每個rollout過程,為GPU顯存和算力較低的推理節(jié)點分配較小的思考預算,為計算能力更強的節(jié)點分配較大的思考預算。

這樣,可以在較慢的節(jié)點設置較低的最大生成長度,從而在使用異構硬件時,各個rollout的處理時間基本一致。

離線數(shù)據(jù)過濾

實驗中發(fā)現(xiàn)仔細篩選數(shù)據(jù)對模型性能至關重要。

用原始的Deepscaler數(shù)據(jù)集和方法訓練DeepSeek-R1-Distill-Qwen-7B模型時,模型性能并未提升。

對數(shù)據(jù)難度進行嚴格篩選,只保留模型無法100%正確解答的問題。訓練過程中的獎勵增加,最終模型在數(shù)學基準測試中的表現(xiàn)也有提高。


在Deepscaler數(shù)據(jù)集的未過濾版本(左)和經難度過濾版本(右)上訓練DeepSeek-R1-Distill-Qwen-7B的獎勵軌跡

為篩選INTELLECT-2的訓練數(shù)據(jù)集,用DeepSeek-R1-Distill-Qwen-7B對所有問題進行8次采樣,以評估問題的難度。為確保訓練集中只保留具有挑戰(zhàn)性的問題,僅采用解答率為75%及以下的問題。

在線優(yōu)勢過濾:訓練過程中,如果所有完成結果都獲得相同的獎勵,這些問題就不會產生訓練信號,因為其優(yōu)勢值(以及相應的損失)為零。

團隊會過濾掉這些問題,繼續(xù)進行推理,直到獲得一整批具有非零優(yōu)勢的問題。

這提高了訓練效率,避免在無意義的樣本上浪費計算資源。此外,這意味著推理所需時間多于訓練,因此非常適合用去中心化推理節(jié)點。

訓練任務與驗證器

對于INTELLECT-2,團隊主要關注可驗證的數(shù)學和編程問題,從SYNTHETIC-1中選取了經過嚴格質量和難度篩選的任務子集。

完整的訓練數(shù)據(jù)集可在Hugging Face上獲取。


數(shù)據(jù)集地址:https://huggingface.co/datasets/PrimeIntellect/Intellect-2-RL-Dataset

如何貢獻計算資源

INTELLECT-2是首個真正意義上允許任何人用自己的計算資源參與的項目。

由于大家的熱情極高,計算池的容量早早就已經滿了。

現(xiàn)在想要貢獻算力,還得提申請排隊才行。


當然,并不是隨便什么算力他們都接受——

  • GPU必須是A100(80GB),H100(80GB),H200(141GB)

  • 算力節(jié)點需要是4卡或者8卡為一組



訓練進度和算力貢獻情況長這樣:


儀表盤:https://app.primeintellect.ai/intelligence

總結來看,INTELLECT-2的發(fā)布是大規(guī)模去中心化強化學習的開端。

基礎架構現(xiàn)已搭建完畢,接下來需要共同努力,將其擴展到更具影響力的應用領域。

參考資料:

https://x.com/PrimeIntellect/status/1912266266137764307

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
替補青訓2將副作用,泰山被強隊拉開差距 該換05后重建,石柯失誤

替補青訓2將副作用,泰山被強隊拉開差距 該換05后重建,石柯失誤

替補席看球
2025-04-26 21:45:57
崔康熙:很多問題沒法講,都是足球人士,從國安到這場也都看到了

崔康熙:很多問題沒法講,都是足球人士,從國安到這場也都看到了

直播吧
2025-04-26 22:06:19
老舊小區(qū)要被瘋搶?官方定調了:從2025年起,這2類房產將受益!

老舊小區(qū)要被瘋搶?官方定調了:從2025年起,這2類房產將受益!

野山歷史
2025-04-25 14:10:13
冒天下之大不韙!特朗普下令“挖海”對抗中國,遭到全世界痛罵

冒天下之大不韙!特朗普下令“挖海”對抗中國,遭到全世界痛罵

兵器雜志
2025-04-26 21:24:45
“不許賣給美國稀土”,中方用特朗普經典招數(shù),遏住美國“咽喉”

“不許賣給美國稀土”,中方用特朗普經典招數(shù),遏住美國“咽喉”

曹興教授TALK
2025-04-26 21:46:16
突發(fā)!馬英九強勢復出,臺灣爆發(fā)5萬人抗議活動,要拉賴清德下臺

突發(fā)!馬英九強勢復出,臺灣爆發(fā)5萬人抗議活動,要拉賴清德下臺

史行途
2025-04-26 15:37:38
波音給中國回信了!要求中方接收飛機,還聲稱要再給中國一個機會

波音給中國回信了!要求中方接收飛機,還聲稱要再給中國一個機會

獵火照狼山
2025-04-25 17:36:06
小龍蝦價格“大跳水”,為啥人們不愛吃了?4個原因勸退消費者

小龍蝦價格“大跳水”,為啥人們不愛吃了?4個原因勸退消費者

小談食刻美食
2025-04-26 08:24:08
驚喜!張?zhí)m宣布重大決定:雙喜臨門,馬上開始在抖音直播!

驚喜!張?zhí)m宣布重大決定:雙喜臨門,馬上開始在抖音直播!

說說史事
2025-04-26 10:43:46
北影節(jié)晚宴暴露咖位:林志玲無人問津,金晨被冷落,c位雷打不動

北影節(jié)晚宴暴露咖位:林志玲無人問津,金晨被冷落,c位雷打不動

頭號劇委會
2025-04-25 12:23:15
菲爾波:加盟巴薩的機會來得太早了,我認為我是英超水平的球員

菲爾波:加盟巴薩的機會來得太早了,我認為我是英超水平的球員

雷速體育
2025-04-26 20:30:11
G1廣廈109-90擊敗遼寧 球員評價:5人滿分,5人及格,2人低迷

G1廣廈109-90擊敗遼寧 球員評價:5人滿分,5人及格,2人低迷

籃球資訊達人
2025-04-26 22:03:00
二十年,蘋果在中國打造了世界領先的生產線;如今即將轉移至印度

二十年,蘋果在中國打造了世界領先的生產線;如今即將轉移至印度

凡人學電腦
2025-04-26 00:00:37
趙心童10-6領先雷佩凡,肖國棟10-11落后希金斯

趙心童10-6領先雷佩凡,肖國棟10-11落后希金斯

郝小小看體育
2025-04-26 20:35:41
藍莓大量上市!醫(yī)生提醒:建議這幾種疾病患者要注意,別亂吃

藍莓大量上市!醫(yī)生提醒:建議這幾種疾病患者要注意,別亂吃

男女那點事兒兒
2025-04-18 02:27:36
鄰居蹭我充電樁,我不哭不鬧,直接調大功率:愛蹭,就讓你蹭個夠

鄰居蹭我充電樁,我不哭不鬧,直接調大功率:愛蹭,就讓你蹭個夠

紅豆講堂
2025-04-15 11:17:56
中國女孩在日本電車打電話超5分鐘,被其他乘客從背后踹了幾腳,原來這在日本真的惹人厭

中國女孩在日本電車打電話超5分鐘,被其他乘客從背后踹了幾腳,原來這在日本真的惹人厭

日本物語
2025-04-24 08:31:17
哭笑不得!就因為洗韭菜這點事兒,竟讓北京一位雇主與保姆鬧掰?

哭笑不得!就因為洗韭菜這點事兒,竟讓北京一位雇主與保姆鬧掰?

墻頭草
2025-03-08 16:30:05
沒人結婚,成都崇州最豪華的喜宴中心倒閉了,才開業(yè)一年多

沒人結婚,成都崇州最豪華的喜宴中心倒閉了,才開業(yè)一年多

小人物看盡人間百態(tài)
2025-04-26 20:42:11
女子100米欄:吳艷妮13秒00獲第七名,牙買加選手12秒53奪冠

女子100米欄:吳艷妮13秒00獲第七名,牙買加選手12秒53奪冠

懂球帝
2025-04-26 20:41:19
2025-04-26 22:59:00
新智元 incentive-icons
新智元
AI產業(yè)主平臺領航智能+時代
12599文章數(shù) 66021關注度
往期回顧 全部

科技要聞

百度心響實測:“能用版Manus”開了個好頭

頭條要聞

馬斯克和美財長激烈爭吵細節(jié)披露:胸口相抵 狂飆臟話

頭條要聞

馬斯克和美財長激烈爭吵細節(jié)披露:胸口相抵 狂飆臟話

體育要聞

去更大的舞臺追夢 專訪中國男籃國手楊瀚森

娛樂要聞

金掃帚獎出爐,包貝爾意外獲“影帝”

財經要聞

韓國的"宇樹科技" 是怎樣被財閥毀掉的?

汽車要聞

充電5分鐘續(xù)航100公里 探訪華為兆瓦超充站

態(tài)度原創(chuàng)

藝術
房產
本地
時尚
公開課

藝術要聞

故宮珍藏的墨跡《十七帖》,比拓本更精良,這才是地道的魏晉寫法

房產要聞

教育理念再進階!解碼新世界星輝如何構筑「家校社成長生態(tài)圈」!

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

她美得好邪乎,讓人又怕又愛

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 临沭县| 五常市| 五原县| 江都市| 佛教| 闽侯县| 手机| 青州市| 扎鲁特旗| 稻城县| 越西县| 石泉县| 延边| 出国| 甘南县| 开封市| 新乡县| 页游| 湟中县| 台中县| 读书| 盐池县| 威信县| 石狮市| 汕尾市| 鄄城县| 青阳县| 兴安盟| 谢通门县| 玉树县| 沾益县| 玛曲县| 南华县| 铜梁县| 平潭县| 白沙| 大同市| 同仁县| 天门市| 屏东市| 宝坻区|