新智元報道
編輯:英智 好困
【新智元導讀】全球首個去中心化強化學習訓練的32B模型震撼發(fā)布!無需授權,就能用自家異構計算資源參與其中,讓編碼、數(shù)學與科學領域的推理性能邁向新高度。
最近,全球第一個用去中心化強化學習訓練的32B模型——INTELLECT-2正式發(fā)布!
任何人都能用自己的異構計算資源參與,無需授權。
這種全新的范式,讓去中心化訓練在編碼、數(shù)學和科學領域,邁向前沿的推理性能。
INTELLECT-2是大規(guī)模去中心化強化學習的開端,他們的下一步計劃是用強化學習訓練端到端智能體。
去中心化強化學習正處于起步階段,若能匯聚社區(qū)和各方貢獻,開源AI有望超越閉源實驗室。
AI社區(qū)對這項工作給出了非常積極的肯定。
隨著OpenAI o1和DeepSeek R1的發(fā)布,出現(xiàn)了預訓練以外的擴展范式,借助RL進行優(yōu)化,讓模型有更多時間進行推理。
之前發(fā)布的成果曾探討,為何通過RL訓練的推理模型,相比標準的LLM預訓練,更適合去中心化訓練。
INTELLECT-2將有力地證實這一觀點。
博客鏈接:https://www.primeintellect.ai/blog/intellect-2
全球首個去中心化強化學習32B模型
過去一年,研究者致力于構建所有關鍵的開源組件,讓INTELLECT-2具備前沿的推理性能,支持異構計算節(jié)點,并允許無需授權的貢獻,能對32B參數(shù)模型進行去中心化RL訓練:
prime-RL:新推出的開源庫,用于完全異步的去中心化RL,基于具備容錯的去中心化訓練框架prime開發(fā)。
SYNTHETIC-1 & GENESYS:用于RL任務眾包和驗證環(huán)境的庫。
TOPLOC:實現(xiàn)高效、可驗證的推理方法,用于驗證INTELLECT-2中所有去中心化rollout節(jié)點的計算。
協(xié)議測試網:提供基礎設施和經濟激勵,用于聚合和協(xié)調全球計算資源,打造真正自主的開源AI生態(tài)系統(tǒng)。
Prime-RL:去中心化訓練框架
INTELLECT-2基礎設施主要由三個組件構成:
推理采樣節(jié)點(Inference Rollout Workers):一組去中心化節(jié)點,用最新的策略模型,從環(huán)境中收集推理軌跡(reasoning rollouts),并計算相應的獎勵。
TOPLOC驗證節(jié)點(TOPLOC Validators):負責高效驗證無需授權的rollout工作節(jié)點的推理計算,打造無需信任的系統(tǒng)。
GRPO訓練節(jié)點(GRPO Training Workers):從去中心化推理采樣節(jié)點收集到新生成的數(shù)據(jù)后,采用DeepSeek的GRPO訓練方法進行訓練。訓練完成后,這些訓練節(jié)點會通過Shardcast庫,將更新后的權重廣播給所有推理節(jié)點,以啟動下一輪數(shù)據(jù)收集。
該基礎設施具備以下特性:
完全消除通信開銷:通過異步強化學習,新策略模型的廣播與正在進行的推理和訓練完全重疊,通信不再成為瓶頸。
支持異構推理節(jié)點:允許任何人按自己的節(jié)奏生成推理軌跡(reasoning traces),跨節(jié)點處理速度沒有統(tǒng)一要求。
資源需求低:在這種訓練設置中,占計算資源大頭的推理節(jié)點可以在消費級GPU上運行。例如,配備4塊RTX 3090 GPU的機器,足以支持32B參數(shù)模型的訓練。
實現(xiàn)高效驗證:推理計算的驗證過程,不會引入訓練瓶頸。
異步強化學習
RL在本質上比傳統(tǒng)的LLM預訓練更具異步性。在去中心化RL中,數(shù)據(jù)收集和網絡訓練可以分開進行。
多個節(jié)點在并行環(huán)境中運行,各自異步收集經驗數(shù)據(jù),中央學習器負責接收和處理這些數(shù)據(jù)。
由于經驗數(shù)據(jù)到達的時間不同,且來自狀態(tài)空間的不同部分,每個步驟的發(fā)生速率也有所不同。
異步強化學習在Tulu 3和Llama 4中得到了成功應用,采用單步異步強化學習方法,提升了訓練效率。
消融實驗表明,即使采用四步異步訓練(即推理節(jié)點使用的策略模型落后四步),也能復現(xiàn)DeepScaleR的結果,且不會降低模型性能。
這樣的異步程度,在去中心化RL訓練中,即使全局互聯(lián)較弱,也能將通信時間完全隱藏在計算過程中。
同步DeepScaleR訓練與異步Prime-RL的比較:即使延遲增加(最多四步),Prime-RL的性能仍能與同步基線媲美
此外,異步強化學習不僅實現(xiàn)了去中心化訓練設置,還通過分別優(yōu)化訓練和推理引擎,進一步提高了效率。
例如,在prime-rl庫中,rollout節(jié)點可以利用vLLM,及全套推理優(yōu)化技術。
完全異步的在線RL訓練框架prime-rl已開源,任何人都能借此開啟全球去中心化RL訓練。
Shardcast
基礎設施中的一個關鍵組件,Shardcast是能盡快將新策略模型從訓練節(jié)點廣播到所有去中心化推理節(jié)點的機制。
Shardcast是一個通過基于HTTP的樹狀拓撲網絡分發(fā)大型文件的庫,由以下部分組成:
源服務器(Origin Server):作為根節(jié)點,將大文件分片,并通過HTTP提供分片服務。
中間節(jié)點(Middle Nodes):作為中間服務器,從上游服務器下載分片,并以流水線方式轉發(fā)。
客戶端節(jié)點(Client Nodes):下載分片并重新組裝成原始文件。
TOPLOC驗證
TOPLOC是一種用于可驗證推理的局部敏感哈希方案,旨在檢測推理過程中的惡意修改。
它能實現(xiàn)以下功能:
檢測推理過程中對模型、提示或精度的修改。
有效應對GPU硬件的不確定性,這是可驗證計算中的主要挑戰(zhàn)之一。TOPLOC在不同類型的GPU、張量并行配置和注意力內核上都能可靠運行。
驗證速度比生成速度快得多。
在INTELLECT-2中對TOPLOC進行生產環(huán)境測試,任何人都能以無需授權的方式貢獻GPU資源。
協(xié)議測試網
幾周前,團隊宣布了公共協(xié)議測試網的啟動,旨在實現(xiàn)真正自主的開源AI生態(tài)系統(tǒng)。
今天,首個無需授權的計算池開放,任何人都能在自己的GPU上運行協(xié)議測試網節(jié)點。
注冊、計算資源驗證、對惡意行為的懲罰等操作,都在公共以太坊Base測試網上完成。這帶來了諸多好處:
全球規(guī)模的計算資源聚合:節(jié)點設計允許任何人在全球任何計算設備上運行,加入去中心化網絡,并最終因節(jié)點所做的貢獻獲得獎勵。這有助于擴展規(guī)模,無授權地整合來自全球的數(shù)據(jù)中心資源。
為完全去中心化訓練奠定基礎:所有加入計算池的節(jié)點都以點對點(peer-to-peer)的方式進行通信和協(xié)調。這為完全去中心化、無授權地訓練和微調開源模型奠定了基礎,對構建真正自主的開源AI生態(tài)系統(tǒng)至關重要。
除了對基礎設施進行多項改進,在協(xié)議層面也有其他關鍵進展。
檢測和防范攻擊與欺詐的機制:將TOPLOC驗證集成到節(jié)點中,實現(xiàn)高效驗證,有助于識別偽造GPU或污染數(shù)據(jù)集的行為。
鼓勵誠實行為的激勵:為減少不誠信行為,嘗試采用經濟激勵,抑制偽造GPU或提交虛假數(shù)據(jù)等惡意行為。具體做法是要求節(jié)點預先抵押一定的資金,如果節(jié)點被認定存在不誠信行為,這些抵押資金將被扣除。
此外,團隊為節(jié)點的工作設定了24小時的驗證期,期間若發(fā)現(xiàn)問題,節(jié)點工作將被判定無效并扣除相應獎勵。如果節(jié)點出現(xiàn)惡意行為或試圖鉆機制的空子,最多會扣除24小時的獎勵。
模型訓練詳情
INTELLECT-2的目標是訓練出一個具有可控思考預算的前沿推理模型。
用戶和開發(fā)者可通過系統(tǒng)提示詞,指定模型在得出最終解決方案前,對一個問題應思考的token數(shù)量。
這種方法能讓訓練出的模型在實際應用中更加高效。
近期的研究(如ThinkPrune、L1和Deepscaler)表明,經過專門訓練、在嚴格約束下進行推理訓練的模型,幾乎能解決所有無約束推理模型可解決的問題,且速度更快,推理成本也更降低。
通過提示控制推理預算,用戶既能利用這一優(yōu)勢,又能在遇到極具挑戰(zhàn)性的問題時,選擇更長的推理時間。
「L1:利用RL控制推理模型的思考時長」的研究結果表明,推理模型可以被訓練來遵循其提示詞中指定的token數(shù)量,且模型性能會隨推理預算的增加而可預測地提升;團隊用自研框架prime-rl獨立復現(xiàn)了論文結果
為訓練出這樣的模型,團隊以QwQ-32B為基模型,遵循Deepseek-R1的方法,應用GRPO算法,結合數(shù)學和編程領域的可驗證獎勵。
在初步實驗中,以下幾個部分對控制模型思考預算、提升模型性能起到了重要作用:
通過長度獎勵實現(xiàn)可控思考預算
除了根據(jù)輸出的正確性給予任務獎勵外,還引入了長度獎勵,以引導模型遵循提示詞中指定的思維預算。
團隊參考了L1的研究思路,從指定范圍內采樣目標長度,將其加入提示詞,根據(jù)目標長度與實際響應長度的差異來分配獎勵。
與L1不同,團隊沒有從一個連續(xù)的值范圍中采樣目標長度,而是從一小組預定義的值中采樣,更有利于模型學習。
通過長度控制進行訓練,不僅讓模型更實用,還能更高效地利用異構推理硬件。
對于每個rollout過程,為GPU顯存和算力較低的推理節(jié)點分配較小的思考預算,為計算能力更強的節(jié)點分配較大的思考預算。
這樣,可以在較慢的節(jié)點設置較低的最大生成長度,從而在使用異構硬件時,各個rollout的處理時間基本一致。
離線數(shù)據(jù)過濾
實驗中發(fā)現(xiàn)仔細篩選數(shù)據(jù)對模型性能至關重要。
用原始的Deepscaler數(shù)據(jù)集和方法訓練DeepSeek-R1-Distill-Qwen-7B模型時,模型性能并未提升。
對數(shù)據(jù)難度進行嚴格篩選,只保留模型無法100%正確解答的問題。訓練過程中的獎勵增加,最終模型在數(shù)學基準測試中的表現(xiàn)也有提高。
在Deepscaler數(shù)據(jù)集的未過濾版本(左)和經難度過濾版本(右)上訓練DeepSeek-R1-Distill-Qwen-7B的獎勵軌跡
為篩選INTELLECT-2的訓練數(shù)據(jù)集,用DeepSeek-R1-Distill-Qwen-7B對所有問題進行8次采樣,以評估問題的難度。為確保訓練集中只保留具有挑戰(zhàn)性的問題,僅采用解答率為75%及以下的問題。
在線優(yōu)勢過濾:訓練過程中,如果所有完成結果都獲得相同的獎勵,這些問題就不會產生訓練信號,因為其優(yōu)勢值(以及相應的損失)為零。
團隊會過濾掉這些問題,繼續(xù)進行推理,直到獲得一整批具有非零優(yōu)勢的問題。
這提高了訓練效率,避免在無意義的樣本上浪費計算資源。此外,這意味著推理所需時間多于訓練,因此非常適合用去中心化推理節(jié)點。
訓練任務與驗證器
對于INTELLECT-2,團隊主要關注可驗證的數(shù)學和編程問題,從SYNTHETIC-1中選取了經過嚴格質量和難度篩選的任務子集。
完整的訓練數(shù)據(jù)集可在Hugging Face上獲取。
數(shù)據(jù)集地址:https://huggingface.co/datasets/PrimeIntellect/Intellect-2-RL-Dataset
如何貢獻計算資源
INTELLECT-2是首個真正意義上允許任何人用自己的計算資源參與的項目。
由于大家的熱情極高,計算池的容量早早就已經滿了。
現(xiàn)在想要貢獻算力,還得提申請排隊才行。
當然,并不是隨便什么算力他們都接受——
GPU必須是A100(80GB),H100(80GB),H200(141GB)
算力節(jié)點需要是4卡或者8卡為一組
訓練進度和算力貢獻情況長這樣:
儀表盤:https://app.primeintellect.ai/intelligence
總結來看,INTELLECT-2的發(fā)布是大規(guī)模去中心化強化學習的開端。
基礎架構現(xiàn)已搭建完畢,接下來需要共同努力,將其擴展到更具影響力的應用領域。
參考資料:
https://x.com/PrimeIntellect/status/1912266266137764307
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.