99国产精品欲av蜜臀,可以直接免费观看的AV网站,gogogo高清免费完整版,啊灬啊灬啊灬免费毛片

網易首頁 > 網易號 > 正文 申請入駐

昆侖萬維開源7B和32B最強數學代碼推理模型,性能超越阿里QwQ-32B

0
分享至

繼2025年2月發布首款中文邏輯推理大模型Skywork-o1之后,昆侖萬維天工團隊在此基礎上持續迭代優化,4月13日,重磅推出全新升級的Skywork-OR1(OpenReasoner1)系列模型。

該系列在同等參數規模下實現了業界領先的推理性能,進一步突破了大模型在邏輯理解與復雜任務求解方面的能力瓶頸。同時,Skywork-OR1全面開放、免費使用,以完全開源的形式回饋開發者社區,堅定踐行天工團隊在推動AI技術發展上的開源路線。

此次開源涵蓋三款高性能模型,包括:Skywork-OR1-Math-7B:聚焦數學領域的專項模型,同時也具有較強的代碼能力。

  1. Skywork-OR1-7B-Preview:融合數學與代碼能力、兼具通用性與專業性的通用模型。
  2. Skywork-OR1-32B-Preview:面向更高復雜度任務、具備更強推理能力的旗艦版本。

此次發布的Skywork-OR1系列采用業界最高透明度的開源策略:不同于其他前沿開源推理模型僅開放模型權重,我們全面開源了模型權重、訓練數據集和完整訓練代碼,所有資源均已上傳至GitHub和Huggingface平臺。

配套的技術博客已發布于Notion平臺,詳細闡述了數據處理流程、訓練方法和關鍵技術發現,為社區提供了完全可復現的實踐參考。

目前Skywork-OR1-7B和Skywork-OR1-32B的能力還在持續提升,在兩周內我們還會發布兩個模型的正式版本,同時也會推出更為系統詳盡的技術報告,進一步分享我們在推理模型訓練中的經驗與洞察。我們相信,這種全方位的開源策略將有助于推動整個AI社區在推理能力研究上的共同進步。

Skywork-OR1系列開源地址:

https://github.com/SkyworkAI/Skywork-OR1

昆侖萬維天工團隊更多開源項目:

https://huggingface.co/Skywork

01模型開源與評測

在評測方面,Skywork-OR1系列模型引入了avg@k作為核心評估指標,用于衡量模型在進行k次嘗試時成功解決問題的平均表現。相較于傳統的pass@k指標僅關注是否“至少一次成功”,avg@k能更細致地捕捉模型在多輪生成過程中的穩定性與整體推理能力,從而更全面反映其真實性能水平與實用價值。



在數學推理任務中:通用模型Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview在AIME24與AIME25數據集上均實現了同參數規模下的最優表現,展現出強大的數學推理能力。

  1. 針對數學場景深度優化的專項模型Skywork-OR1-Math-7B更是在AIME24和AIME25上分別取得69.8與52.3的高分,遠超當前主流7B級別模型,充分驗證了其在高階數學推理任務中的專業優勢。
  2. Skywork-OR1-32B-Preview在所有benchmark上均實現了對QwQ-32B的超越,并在更難的AIME25上基本與R1持平。

在競賽編程任務中:通用模型Skywork-OR1-7B-Preview與Skywork-OR1-32B-Preview在LiveCodeBench數據集上均取得了同等參數規模下的最優性能。

  1. Skywork-OR1-32B-Preview表現尤為突出,其代碼生成與問題求解能力已接近DeepSeek-R1(參數規模高達671B),在大幅壓縮模型體量的同時實現了卓越的性價比,充分展現出天工團隊訓練策略的先進性。

其中Skywork-OR1-Math-7B表現尤為亮眼,作為一個專注于數學推理能力的7B參數模型,通過多階段GRPO訓練在復雜數學問題上實現了卓越表現,同時在代碼任務上也有較強的泛化能力。下圖是該模型在AIME24上的訓練準確率曲線,清晰呈現了多階段訓練過程中性能的穩定提升軌跡。

Skywork-OR1-Math-7B最終模型在AIME24和AIME24上分別達到69.8%和52.3%,超越了OpenAI-o3-mini(low),達到了當前尺寸SOTA性能。值得注意的是,盡管該模型訓練過程中未專門針對代碼能力進行優化,但在代碼評測基準上Livecodebench從37.6%提升到43.6%,相比基線模型的顯著提升,這也表明我們的訓練方法具有較好的領域泛化性。



02技術亮點

Skywork-OR1系列模型在數學推理與代碼生成任務上實現的顯著性能突破,離不開天工團隊在模型后訓練階段的長期自研積累與技術深耕。更多實驗設置可參考我們的技術博客,以下為Skywork-OR1的核心技術要點:

首先在數據選擇和預處理方面,Skywork-OR1構建了一個高質量數學和代碼數據集,用于強化學習以提升模型在數學和代碼領域的推理能力。我們采用嚴格篩選和評估機制,構建高質量強化學習訓練集。

團隊主要根據三個標準進行初步數據篩選:可驗證性(Verifiable)、正確性(Correct)與挑戰性(Challenging),剔除無法自動驗證的證明類題目、有誤題目、和缺少unittest的代碼問題。

數學領域主要依賴NuminaMath-1.5(含約89.6萬題),選用如AIME和Olympiads等較難子集,并補充了如DeepScaleR、Omni-MATH、AIME1983-2023難題來源,總計約11萬道數學題目。在代碼領域,我們以LeetCode和TACO數據為主,保留了單元測試完整、驗證通過的問題,并進行向量級語義去重,最終獲得13.7K條高質量代碼問題。

其次在數據過濾方面,為避免“全對”或“全錯”現象對策略學習無效,每道題進行了多輪采樣并驗證答案,并基于模型表現過濾難度極端的題目。在數據收集和整理過程中,我們還發現很多數學題存在不完整或格式不正確的問題。

為了進一步提升數學數據質量,我們還通過人類評審結合LLM自動判題機制,對語義不清、信息不全、格式錯誤或含有無關內容的題目進行清理。使用LLM-as-a-Judge的方式,對每題進行32次打分,設定投票門檻,剔除掉約1-2K道質量不達標的數學題。整體流程體現了我們在數據質量、模型難度匹配與效率間的深度平衡。

此外,Skywork-OR1采用了GroupRelativePolicyOptimization(GRPO)進行模型訓練,并引入了以下優化:

1.訓練時數據優化

Offline&OnlineFiltering:我們對采集的數據實施了雙重過濾機制,以優化訓練效果。在訓練前(離線過濾)階段,我們利用待訓練模型對數據進行正確性評估,精確剔除了正確率為0(完全錯誤)和1(完全正確)的樣本,確保初始訓練集具有學習價值。

在訓練過程中(在線過濾),我們實現了動態數據篩選策略——每個epoch開始時,自動將上一個epoch模型已完全掌握(全部答對)的數據從訓練集中移除。這種漸進式過濾機制確保了模型始終面對具有學習挑戰的數據,最大化了有效梯度的比例,從而提高訓練效率和模型性能。

RejectionSampling:在GRPO訓練實施過程中,我們引入了精細化的樣本篩選機制,動態剔除當前訓練步驟中采樣正確率為0或1的樣本。這些邊界樣本的policyloss為零,在包含entropyloss或KLloss的訓練設置下,會導致非policyloss的比重不當增加,從而引發訓練不穩定性。

例如,在啟用entropyloss的情況下,這種失衡可能導致entropy值異常攀升。通過實時rejectionsampling,我們有效維持了各損失函數間的原始比重,確保訓練過程的穩定性和收斂質量。

2.訓練Pipeline優化

MultiStageTraining:整體訓練流程上,我們采用迭代增加上下文窗口長度(seq_len)的策略,將訓練過程分為多個階段。這種方法首先在較小窗口下訓練,促使模型學會在有限token內高效完成任務,顯著提高token效率;隨后逐步擴展窗口大小,迭代增加生成長度,使模型逐漸掌握更復雜的長鏈思維能力。

實驗證明,多階段訓練能大規模縮短訓練時間,同時完全保持了模型的長度擴展能力。這種漸進式訓練方法既確保了計算效率,又不犧牲模型在復雜問題上的推理深度。

TruncatedAdvantageMask:在多階段訓練初期,由于上下文窗口限制,復雜問題的回答可能被截斷。關于是否使用這些樣本進行訓練,我們研究了兩種處理策略:Adv-MaskBefore(計算優勢前排除截斷樣本)和Adv-MaskAfter(計算后將截斷樣本優勢置零)。

實驗表明,這些策略能緩解響應長度衰減,但在我們的訓練框架下,即使不屏蔽截斷樣本,模型也能有效適應長度限制并在進入下一階段時迅速提升性能。雖然屏蔽有助于保持更好的test-timescaling能力,但在最大長度評估下并未有端到端性能提升,這也證明我們的多階段訓練方法具有較強魯棒性。

3.訓練時模型探索

在強化學習訓練中,保持模型的探索能力是提升性能的關鍵因素。我們將模型輸出的熵(Entropy)作為模型輸出多樣性和探索能力的一個近似指標,通過它來觀測模型的探索能力。我們的探索控制方法主要分為兩大類:一類是通過增強內在訓練多樣性,使模型不易優化到單一輸出方向,減緩熵衰減的速度;另一類是通過外在引導機制直接增加模型輸出多樣性,如強化學習中常見的熵損失。基于這一分類,我們實施了多層次的探索控制策略。

HigherTemperature:在強化學習采樣時,我們采用了較高的采樣溫度τ=1.0(相比常見的0.6),以增強模型的探索能力。在GRPO框架下,我們觀察到低溫度采樣會導致模型迅速進入低熵狀態,策略更新過度集中于特定token。相比之下,τ=1.0維持了更高的群組內多樣性,既保證了足夠的正確樣本提供學習信號,又允許模型探索更廣泛的解決路徑,在我們的對比實驗中展現出更優的性能表現。

EnhancingInternalTrainingDiversity:除了temperature之外,我們還發現通過精細的數據過濾、增加批量大小和減少數據重復使用等方法,可以通過增加數據多樣性方法間接增加訓練內在多樣性,從源頭上防止模型優化到單一輸出方向。這些措施使模型能在更長時間內維持較高的熵值,實現了在保持較高探索性的同時達到同等準確率的優勢效果,有效避免了過早陷入局部最優。

AdaptiveEntropyControl:除了上述方法外,我們還提出了自適應熵控制(AdaptiveEntropyControl)方法作為額外的探索引導機制。盡管初期實驗中發現傳統的固定系數熵損失在參數較好的情況下能取得較好的提升,但其對訓練數據和超參數極為敏感——此前調整好的參數在后續切換數據或修改其他超參數的實驗中可能導致訓練崩潰。結合前述的多樣性控制策略,我們采取了更為謹慎的熵控制方法:只有當熵值下降到預設閾值以下時才提供熵增加的鼓勵。通過設定目標熵值并動態調整熵損失系數,我們專注于防止熵值降至特定下界,同時最小化對正常訓練軌跡的干擾。

整體而言,我們認為應當更側重在內在層面增加訓練多樣性,減少人為對訓練進程的干擾,從而保證訓練的可擴展性。

4.訓練Loss優化

為提升強化學習訓練的穩定性,我們對GRPO的損失函數進行了改進與優化。

NoKLloss:近期不少從base模型開始訓練的推理模型,由于base模型輸出模式較差,自然地放棄了KL損失項。然而,對于基于精細構造的coldstartSFT模型進行訓練的情況,是否采用KL損失的研究相對較少。在我們的實驗中,我們發現即使是從高質量SFT模型出發,KL損失項仍會限制模型性能的進一步提升,強制將actor模型約束在原始分布附近。因此,除特定階段外,我們在所有公開發布的Skywork-OR1系列模型中均未使用KL損失項,這使模型能夠更充分地探索和優化推理能力。

Token-levelpolicyloss:為消除原始GRPO中對生成長度的隱性偏好,我們移除了策略損失中的長度歸一化項,并將損失在訓練批次內的所有token上進行平均,以提升優化過程的一致性與穩定性。

更多技術細節和實驗對比可以參照我們的技術博客:

https://capricious-hydrogen-41c.notion.site/Skywork-Open-Reaonser-Series-1d0bc9ae823a80459b46c149e4f51680,或繼續關注后續發布的技術報告。

03堅定開源

自2023年以來,昆侖萬維堅定地開源大模型回饋開發者和行業。截至目前在HuggingFace上已上傳22個模型、6個數據集,收獲了開發者社區的好評。

2025年開源的Skywork-R1V多模態視覺推理模型、SkyReels-V1面向AI短劇創作的視頻生成模型、Skywork-o1推理模型以及2024年開源的Skywork-Reward獎勵模型,不僅在HuggingFace上下載數據表現亮點,開發者討論度和模型熱度依然居高不下。



來源:https://huggingface.co/Skywork

當前,全球人工智能領域的競爭日趨激烈,競賽的焦點正逐步從基礎模型能力擴展到推理能力的比拼。AI大模型能否有效模仿人類的思維過程、具備邏輯推理和復雜任務的求解能力,已成為衡量技術先進性與通用智能潛力的關鍵指標。

在此背景下,為打破科技巨頭對核心AI大模型技術的壟斷壁壘,推動技術自主可控發展,中國多家企業紛紛投身于開源大模型生態的建設。未來,昆侖萬維仍繼續秉持“AllinAGI與AIGC”戰略、“實現通用人工智能,讓每個人更好地塑造和表達自我”的使命,持續加大在通用大模型、開源框架和推理能力提升等方向的研究投入,力求在全球AI技術浪潮中搶占先機、塑造競爭優勢。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網易號”用戶上傳并發布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
剛剛!一大三甲原黨委書記,主動投案

剛剛!一大三甲原黨委書記,主動投案

醫療器械經銷商聯盟
2025-04-26 08:01:11
突然起火!北京全市車主趕緊檢查!

突然起火!北京全市車主趕緊檢查!

美麗大北京
2025-04-26 18:19:05
胖東來“殺魚姐翻車了”!太高估自己離職后,發現自己啥也不是!

胖東來“殺魚姐翻車了”!太高估自己離職后,發現自己啥也不是!

歸史
2025-04-26 13:38:08
險造22分逆轉!倫納德:這場失利很艱難 但我們沒有輕易放棄

險造22分逆轉!倫納德:這場失利很艱難 但我們沒有輕易放棄

北青網-北京青年報
2025-04-27 13:48:09
教皇方濟各離世,了解其家庭情況

教皇方濟各離世,了解其家庭情況

驚奇理查茲
2025-04-24 05:33:20
女生辱師被罰停課超時,家長登門道歉未果,網友:這次我站校方?

女生辱師被罰停課超時,家長登門道歉未果,網友:這次我站校方?

教育人看世界
2025-04-26 21:38:29
過安檢能讓多少人“身敗名裂”?網友分享太炸裂,一看一個不吱聲

過安檢能讓多少人“身敗名裂”?網友分享太炸裂,一看一個不吱聲

奇特短尾矮袋鼠
2024-06-26 20:24:41
山東大爺20年吃掉14噸糖,每天吃4斤,檢查后醫生卻說:繼續吃

山東大爺20年吃掉14噸糖,每天吃4斤,檢查后醫生卻說:繼續吃

坦然風云
2025-04-22 00:06:20
林熙蕾在香港為杜琪峰慶生,打扮大方洗盡鉛華,丈夫也在陪著喝酒

林熙蕾在香港為杜琪峰慶生,打扮大方洗盡鉛華,丈夫也在陪著喝酒

樹娃
2025-04-27 11:17:38
情侶住民宿不講衛生,女房東收拾房間感到尷尬:計生用品也扔地上

情侶住民宿不講衛生,女房東收拾房間感到尷尬:計生用品也扔地上

唐小糖說情感
2025-04-24 08:18:35
曹駿“拿長槍”在全網火了,爾冬升的評價,終于有人信了!

曹駿“拿長槍”在全網火了,爾冬升的評價,終于有人信了!

何嗀愛捕漁
2025-04-26 19:11:59
2025 款奔馳 GLS 上市:3.0T 動力,106-139.82 萬元

2025 款奔馳 GLS 上市:3.0T 動力,106-139.82 萬元

IT之家
2025-04-26 22:17:07
臺媒:臺前民代蔡正元被戴電子腳鐐

臺媒:臺前民代蔡正元被戴電子腳鐐

參考消息
2025-04-26 19:26:08
當不成總統了?美最新民調出爐,美航母參戰,特朗普或被彈劾下臺

當不成總統了?美最新民調出爐,美航母參戰,特朗普或被彈劾下臺

小宇宙雙色球
2025-04-27 04:03:33
46歲周杰倫身體狀況惹人擔憂,生圖氣色不佳,網友勸他退休養老

46歲周杰倫身體狀況惹人擔憂,生圖氣色不佳,網友勸他退休養老

萌神木木
2025-04-25 21:23:40
曝36歲中糧信托高管女廁所猥褻女性,事發全過程披露,一細節反常

曝36歲中糧信托高管女廁所猥褻女性,事發全過程披露,一細節反常

博士觀察
2025-04-26 20:20:23
DeepSeek分析:人一過了45歲,能做到以下十點,就已經很成功了!

DeepSeek分析:人一過了45歲,能做到以下十點,就已經很成功了!

小人物看盡人間百態
2025-03-22 16:44:21
你無意間摸到過什么不該摸的東西!網友看過全部笑岔氣了

你無意間摸到過什么不該摸的東西!網友看過全部笑岔氣了

解讀熱點事件
2025-01-13 01:34:06
一個國家被穆斯林化,需要多少年?

一個國家被穆斯林化,需要多少年?

世界就是這么精彩
2025-04-13 15:03:31
中石化發文普及油箱容量知識:28升油箱可以裝42升汽油

中石化發文普及油箱容量知識:28升油箱可以裝42升汽油

小怪吃美食
2025-04-27 06:14:51
2025-04-27 14:39:00
產業家
產業家
產業互聯網第一媒體
849文章數 1323關注度
往期回顧 全部

科技要聞

賈躍亭:FF市值到百億美元能基本還完債務

頭條要聞

短劇女演員余茵回應被叫"小老太":我非得是大美女嗎

頭條要聞

短劇女演員余茵回應被叫"小老太":我非得是大美女嗎

體育要聞

裝死一個賽季,卡皇掀翻了棺材板

娛樂要聞

24歲女星夏依丹離世!死因讓人心碎

財經要聞

商務部等6部門:下調離境退稅起退點

汽車要聞

蔚來李斌的"十年磨一劍" 從看得見 到看不見

態度原創

數碼
游戲
本地
健康
公開課

數碼要聞

微軟Windows 11 AI+ PC更多AI功能推出 Win10將于10月14日停止更新

Switch2攝像頭銷量猛漲!但遭吐槽外觀設計太無聊

本地新聞

云游湖北 | 漢川文旅新體驗:千年陶藝邂逅湖光

唇皰疹和口腔潰瘍是"同伙"嗎?

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關懷版 主站蜘蛛池模板: 南涧| 桑植县| 荆门市| 田东县| 鄄城县| 桑植县| 澄江县| 吉水县| 凯里市| 富顺县| 甘孜县| 大丰市| 儋州市| 贞丰县| 渭南市| 昌平区| 维西| 揭东县| 玛沁县| 台东县| 长汀县| 建瓯市| 余姚市| 平湖市| 陈巴尔虎旗| 安平县| 柳河县| 精河县| 合肥市| 西充县| 枝江市| 方山县| 武义县| 济源市| 遂宁市| 连山| 周宁县| 咸宁市| 海伦市| 禄丰县| 化德县|