æ•´ç† | è¯è¡›(wèi)ã€æ ¸å坿¨‚
剛剛,OpenAI çš„ CEO Sam Altman å°(duì)外發(fÄ)布é‡å¤§è®Šæ›´è¨ˆ(jì)劃:整åˆå¤šé …(xià ng)尖端技術(shù)çš„ GPT-5 å°‡å…è²»(fèi)開放,o3 å’Œ o4-mini å³å°‡åœ¨å¹¾å‘¨å…§(nèi)亮相,o3 Pro 也å³å°‡ä¸Šç·šã€‚Altman 還表示,他們?cè)诤èŠå–¾çŸ«éޏ?duì) o3 之剿‰€å±•示的內(nèi)容進(jìn)行了改進(jìn)。
ç¶²(wÇŽng)å‹å€‘?cè)è°¡ç—¼@之余紛紛表示,“OpenAI ä¹Ÿæ‰“ç®—åƒ DeepSeek 那樣把模型開æºäº†å—Žï¼Ÿâ€å¹¶ä¸”,這次 OpenAI å’Œ DeepSeek åˆæ˜¯â€œå‰åŽè…³â€ç™¼(fÄ)布更新。
å°±åœ¨å‰æ—¥ï¼ˆ4 月 3 日),DeepSeek 和清è¯å¤§å¸(xué)ç ”ç©¶äººå“¡æœ€æ–°ç™¼(fÄ)表了一篇關(guÄn)于çŽ(jiÇŽng)勵(lì)模型和 Scaling Law 的論文,æ£åœ¨ AI 社å€(qÅ«)ä¸è¢«å»£æ³›è¨Žè«–。有許多人稱:這表示“R2 馬上è¦ä¾†äº†â€ã€‚還有網(wÇŽng)å‹é€™æ¨£è‚¯å®šå…¶æˆæžœï¼šâ€œå¾žæˆ‘在 o3 推ç†éˆä¸è®€åˆ°çš„å…§(nèi)容來看,這很å¯èƒ½æ˜¯ o3 方法論。â€
總的來說,DeepSeek 找到了一個(gè)èƒ½å¤ æœ‰æ•ˆå¯¦(shÃ)ç¾(xià n)æŽ¨ç†æ™‚(shÃ)æ“´(kuò)展ã€é€²(jìn)而æå‡æ¨¡åž‹æ•´é«”æ€§èƒ½çš„æ–°æ–¹æ³•ã€‚ä¸»è¦æˆæžœå¦‚下:
æå‡ºä¸€ç¨®å為自原則批判微調(dià o)(SPCT)的方法,用于促進(jìn)通用çŽ(jiÇŽng)勵(lì)建模在推ç†éšŽæ®µçš„坿“´(kuò)展性,并由æ¤è¨“(xùn)練出 DeepSeek-GRM 模型,åˆå¼•入了元 RM 來指導(dÇŽo)投票éŽç¨‹ï¼Œé€²(jìn)ä¸€æ¥æœ‰æ•ˆæå‡ DeepSeek-GRM çš„æŽ¨ç†æ€§èƒ½ã€‚據(jù)悉,DeepSeek-GRM 模型還將被開æºã€‚
通éŽå¯¦(shÃ)è‰è¡¨æ˜Žï¼ŒSPCT 顯著æé«˜äº† DeepSeek-GRM 的質(zhì)é‡å’ŒæŽ¨ç†éšŽæ®µå¯æ“´(kuò)展性,在å„種çŽ(jiÇŽng)勵(lì)建模基準(zhÇ”n)測(cè)試ä¸å„ª(yÅu)于ç¾(xià n)有方法和多個(gè)å¼·(qiáng)å¤§é–‹æºæ¨¡åž‹ã€‚
å°‡ SPCT 訓(xùn)練方案應(yÄ«ng)用于更大è¦(guÄ«)模的大語言模型,并發(fÄ)ç¾(xià n)相比于在訓(xùn)練階段擴(kuò)大模型è¦(guÄ«)æ¨¡ï¼Œåœ¨æŽ¨ç†æ™‚(shÃ)æ“´(kuò)展的性能收益更高。
çŽ(jiÇŽng)勵(lì)建模到底是什么?
ç•¶(dÄng)å‰ï¼Œå¼·(qiáng)化å¸(xué)ç¿’(xÃ)(RL)作為大語言模型(LLM)的一種訓(xùn)ç·´åŽæ–¹æ³•,已大è¦(guÄ«)模地被廣泛應(yÄ«ng)用,并在大語言模型與人類價(jià )值觀的å°(duì)齊ã€é•·(zhÇŽng)期推ç†ä»¥åŠç’°(huán)å¢ƒé©æ‡‰(yÄ«ng)能力方é¢å–得了顯著的æå‡ã€‚
çŽ(jiÇŽng)勵(lì)建模(Reward Modeling)是強(qiáng)化å¸(xué)ç¿’(xÃ)ä¸çš„一個(gè)é—œ(guÄn)éµçµ„æˆéƒ¨åˆ†ï¼Œå°(duì)于為大語言模型的回復(fù)ç”Ÿæˆæº–(zhÇ”n)確的çŽ(jiÇŽng)勵(lì)信號(hà o)至關(guÄn)é‡è¦ã€‚æœ‰ç ”ç©¶è¡¨æ˜Žï¼Œåœ¨è¨“(xùn)練或推ç†éšŽæ®µï¼Œåªè¦æœ‰é«˜è³ª(zhì)é‡ä¸”å¯é çš„çŽ(jiÇŽng)勵(lì)機(jÄ«)åˆ¶ï¼Œå¤§èªžè¨€æ¨¡åž‹å°±èƒ½åœ¨ç‰¹å®šé ˜(lÇng)域ä¸å–得出色的表ç¾(xià n)。
é€™äº›ç‰¹å®šé ˜(lÇng)域ä¸çš„高質(zhì)é‡çŽ(jiÇŽng)勵(lì)主è¦ä¾†è‡ªäºŽå…·æœ‰æ˜Žç¢ºæ¢ä»¶çš„人為è¨(shè)計(jì)ç’°(huán)境或者來自于é‡å°(duì)å¯é©—(yà n)è‰å•題的手工制定è¦(guÄ«)則,例如部分?jÇn)?shù)å¸(xué)å•題和編碼任務(wù)ã€‚åœ¨ä¸€èˆ¬é ˜(lÇng)域ä¸ï¼ŒçŽ(jiÇŽng)勵(lì)ç”Ÿæˆæ›´å…·æŒ‘戰(zhà n)æ€§ï¼Œå› ?yà n)æ¥ ?jiÇŽng)勵(lì)的標(biÄo)準(zhÇ”n)æ›´åŠ å¤šæ¨£å’Œå¾©(fù)雜,并且通常沒有明確的åƒè€ƒæ¨™(biÄo)準(zhÇ”n)或事實(shÃ)便“š(jù)。
通俗地講,ç¾(xià n)在大模型在生æˆå›žå¾©(fù)時(shÃ)需è¦å°(duì)å…§(nèi)容進(jìn)行“打分â€ï¼Œæ¯”å¦‚åˆ¤æ–·çœ¾å¤šç”æ¡ˆä¸å“ªå€‹(gè)更為準(zhÇ”n)確ã€å“ªå€‹(gè)更符åˆå®‰å…¨è¦(guÄ«)范,目å‰å®ƒå€‘?nèi)匀ç°è•¾å›‰è°Œç¥Ÿæ„µA(yù)å…ˆè¨(shè)定的è¦(guÄ«)則來進(jìn)行評(pÃng)判。但在é¢å°(duì)實(shÃ)際的復(fù)é›œæƒ…æ³æ™‚(shÃ),這種方å¼å°±ä¸å¤ªå¤ 用了,需è¦å¤§æ¨¡åž‹èƒ½å¤ ?qÅ«)å´¿F(xià n)自我å¸(xué)ç¿’(xÃ),å¸(xué)會(huì)自主地應(yÄ«ng)å°(duì)å„種情æ³ä¸‹çš„“打分†。
å› æ¤ï¼Œç„¡è«–是從訓(xùn)ç·´åŽéšŽæ®µï¼ˆå¦‚大è¦(guÄ«)模的強(qiáng)化å¸(xué)ç¿’(xÃ))還是推ç†éšŽæ®µçš„角度(如çŽ(jiÇŽng)勵(lì)建模引導(dÇŽo)çš„æœç´¢ï¼‰ä¾†çœ‹ï¼Œé€šç”¨çŽ(jiÇŽng)勵(lì)建模å°(duì)于æå‡å¤§èªžè¨€æ¨¡åž‹åœ¨æ›´å»£æ³›æ‡‰(yÄ«ng)用ä¸çš„æ€§èƒ½éƒ½è‡³é—œ(guÄn)é‡è¦ã€‚在實(shÃ)è¸ä¸ï¼Œè¦ä½¿çŽ(jiÇŽng)勵(lì)建模既具有通用性,åˆèƒ½åœ¨æŽ¨ç†éšŽæ®µå¯¦(shÃ)ç¾(xià n)有效擴(kuò)展,å˜åœ¨è‘—諸多挑戰(zhà n)。
據(jù)了解,çŽ(jiÇŽng)勵(lì)建模方法主è¦ç”±çŽ(jiÇŽng)勵(lì)生æˆèŒƒå¼å’Œè©•(pÃng)分模å¼?jÄ«ng)Q定,這從本質(zhì)上影響著çŽ(jiÇŽng)勵(lì)建模在推ç†éšŽæ®µçš„坿“´(kuò)展性以åŠè¼¸å…¥çš„éˆæ´»æ€§ï¼Œè€ŒçŽ(jiÇŽng)勵(lì)建模的性能å¯é€šéŽå¢žåŠ è¨“(xùn)練計(jì)ç®—é‡å’ŒæŽ¨ç†è¨ˆ(jì)ç®—é‡ä¾†åР以æå‡ã€‚ç¾(xià n)有的çŽ(jiÇŽng)勵(lì)生æˆèŒƒå¼åŒ…括標(biÄo)é‡å¼ã€åŠæ¨™(biÄo)é‡å¼å’Œç”Ÿæˆå¼æ–¹æ³•,評(pÃng)åˆ†æ¨¡å¼æœ‰é€é€é»ž(diÇŽn)å’Œæˆå°(duì)å¼ã€‚
然而,æˆå°(duì)å¼çŽ(jiÇŽng)勵(lì)建模僅考慮æˆå°(duì)回復(fù)的相å°(duì)åå¥½ï¼Œç¼ºä¹æŽ¥å—單個(gè)或多個(gè)回復(fù)ä½œç‚ºè¼¸å…¥çš„éˆæ´»æ€§ï¼›æ¨™(biÄo)é‡å¼çŽ(jiÇŽng)勵(lì)建模很難為åŒä¸€å€‹(gè)回復(fù)生æˆå¤šæ¨£åŒ–çš„çŽ(jiÇŽng)勵(lì)信號(hà o),阻礙了通éŽåŸºäºŽé‡‡æ¨£çš„æŽ¨ç†æ™‚(shÃ)æ“´(kuò)展方法來ç²å¾—更好的çŽ(jiÇŽng)勵(lì)。雖然當(dÄng)å‰å·²æœ‰ä¸åŒçš„å¸(xué)ç¿’(xÃ)方法來æé«˜çŽ(jiÇŽng)勵(lì)質(zhì)é‡ï¼Œä½†å…¶ä¸å¾ˆå°‘有方法關(guÄn)注推ç†éšŽæ®µçš„坿“´(kuò)å±•æ€§ï¼Œä¹Ÿå¾ˆå°‘ç ”ç©¶åˆ°å¸(xué)ç¿’(xÃ)到的çŽ(jiÇŽng)勵(lì)生æˆè¡Œç‚ºèˆ‡çŽ(jiÇŽng)勵(lì)å»ºæ¨¡åœ¨æŽ¨ç†æ™‚(shÃ)æ“´(kuò)展的有效性之間的è¯(lián)系,導(dÇŽo)致性能æå‡ä¾ç„¶æœ‰é™ã€‚
DeepSeek çš„ä¸»è¦æŠ€è¡“(shù)çªç ´
DeepSeek 團(tuán)隊(duì)在æ¤å‰çš„ç ”ç©¶ä¸ç™¼(fÄ)ç¾(xià n),æ°ç•¶(dÄng)?shù)膶W(xué)ç¿’(xÃ)方法å¯ä»¥å¯¦(shÃ)ç¾(xià n)有效的推ç†éšŽæ®µå¯æ“´(kuò)展性,這就æå‡ºäº†ä¸€å€‹(gè)å•題:能å¦è¨(shè)計(jì)一種å¸(xué)ç¿’(xÃ)方法,旨在為通用çŽ(jiÇŽng)勵(lì)建模實(shÃ)ç¾(xià n)æœ‰æ•ˆçš„æŽ¨ç†æ™‚(shÃ)æ“´(kuò)展呢?
為æ¤ï¼Œé€™æ¬¡ä»–們分æžäº†ä¸åŒçš„çŽ(jiÇŽng)勵(lì)建模方法,并發(fÄ)ç¾(xià n):é€é»ž(diÇŽn)生æˆå¼çŽ(jiÇŽng)勵(lì)建模(GRM)å¯ä»¥åœ¨ç´”語言表示ä¸çµ±(tÇ’ng)一å°(duì)單個(gè)ã€æˆå°(duì)和多個(gè)回復(fù)的評(pÃng)分;æŸäº›åŽŸå‰‡å¯ä»¥åœ¨åˆé©çš„æ¨™(biÄo)準(zhÇ”n)下指導(dÇŽo)生æˆå¼çŽ(jiÇŽng)勵(lì)建模的çŽ(jiÇŽng)勵(lì)生æˆï¼Œå¾žè€Œæé«˜çŽ(jiÇŽng)勵(lì)質(zhì)é‡ã€‚那么,çŽ(jiÇŽng)勵(lì)建模的推ç†éšŽæ®µå¯æ“´(kuò)展性或許å¯ä»¥é€šéŽæ“´(kuò)展高質(zhì)é‡åŽŸå‰‡çš„ç”Ÿæˆå’Œæº–(zhÇ”n)確的批判來實(shÃ)ç¾(xià n)。
SPCT
åŸºäºŽé€™ä¸€åˆæ¥ç™¼(fÄ)ç¾(xià n),該團(tuán)隊(duì)æå‡ºäº†ä¸€ç¨®æ–°ç©Žçš„å¸(xué)ç¿’(xÃ)方法——自原則批判微調(dià o)(Self-Principled Critique Tuning,簡(jiÇŽn)稱為 SPCT),以在生æˆå¼çŽ(jiÇŽng)勵(lì)建模ä¸åŸ¹é¤Š(yÇŽng)有效的推ç†éšŽæ®µå¯æ“´(kuò)展行為。通éŽåˆ©ç”¨åŸºäºŽè¦(guÄ«)則的在線強(qiáng)化å¸(xué)ç¿’(xÃ),自原則批判微調(dià o)使生æˆå¼çŽ(jiÇŽng)勵(lì)å»ºæ¨¡èƒ½å¤ ?qÅ«)Wç¿’(xÃ)æ ¹æ“š(jù)輸入查詢和回復(fù)è‡ªé©æ‡‰(yÄ«ng)地æå‡ºåŽŸå‰‡å’Œæ‰¹åˆ¤ï¼Œå¾žè€Œåœ¨ä¸€èˆ¬é ˜(lÇng)域ä¸ç²å¾—更好的çµ(jié)æžœçŽ(jiÇŽng)勵(lì)。
ç°¡(jiÇŽn)單來說就是,SPCT å¯ä»¥â€œæ•™â€å¤§æ¨¡åž‹è‡ªä¸»åˆ¶å®šè©•(pÃng)分標(biÄo)準(zhÇ”n)。
SPCT 的架構(gòu)
據(jù)介紹,SPCT 包å«å…©å€‹(gè)階段:作為冷啟動(dòng)的拒絕å¼å¾®èª¿(dià o),以åŠåŸºäºŽè¦(guÄ«)則的在線強(qiáng)化å¸(xué)ç¿’(xÃ)ï¼Œé€šéŽæŽ¨é€²(jìn)生æˆåŽŸå‰‡å’Œé»ž(diÇŽn)è©•(pÃng)以增強(qiáng)生æˆå¼çŽ(jiÇŽng)勵(lì)生æˆï¼ŒåŒæ™‚(shÃ)æ”¯æŒæŽ¨ç†æ™‚(shÃ)æ“´(kuò)展。
å…¶ä¸ï¼Œæ‹’絕å¼å¾®èª¿(dià o)çš„æ ¸å¿ƒæ˜¯è®“ GRM ç”Ÿæˆæ ¼å¼æ£ç¢ºä¸”é©ç”¨äºŽå¤šç¨®è¼¸å…¥é¡žåž‹çš„åŽŸå‰‡å’Œæ‰¹åˆ¤ã€‚èˆ‡ä»¥å¤šç¨®æ ¼å¼æ··åˆå–® / é›™ / 多響應(yÄ«ng)數(shù)據(jù)çš„å…ˆå‰æ–¹æ¡ˆä¸åŒï¼Œé€é»ž(diÇŽn) GRM éˆæ´»ç”Ÿæˆä»»æ„數(shù)é‡éŸ¿æ‡‰(yÄ«ng)çš„çŽ(jiÇŽng)勵(lì)。數(shù)據(jù)æ§‹(gòu)建時(shÃ),除通用指令數(shù)據(jù)外,還使用é (yù)訓(xùn)ç·´ GRM 從å«å¤šéŸ¿æ‡‰(yÄ«ng)çš„ RM 數(shù)據(jù)ä¸é‡‡æ¨£æŸ¥è©¢åŠå°(duì)應(yÄ«ng)響應(yÄ«ng)。
è¶…è¶Šä»¥å¾€ç ”ç©¶çš„ä¸€å¤§é—œ(guÄn)鵿˜¯ï¼ŒDeepSeek 團(tuán)隊(duì)觀察到,æç¤ºé‡‡æ¨£è»Œè·¡å¯èƒ½æœƒ(huì)ç°¡(jiÇŽn)化生æˆçš„æ‰¹åˆ¤ï¼ˆå°¤å…¶åœ¨æŽ¨ç†ä»»å‹™(wù)ä¸ï¼‰ï¼Œå‡¸é¡¯äº†åœ¨ç·š RL å°(duì) GRM çš„å¿…è¦æ€§å’Œæ½›åœ¨å„ª(yÅu)å‹¢(shì)。
而該團(tuán)隊(duì)也通éŽåŸºäºŽè¦(guÄ«)則的在線 RL 來進(jìn)一æ¥å¾®èª¿(dià o)了 GRM,其采用 GRPO 的原始è¨(shè)置,使用基于è¦(guÄ«)則的產(chÇŽn)出çŽ(jiÇŽng)勵(lì)。在滾動(dòng)éŽç¨‹ä¸ï¼ŒGRM 基于查詢和響應(yÄ«ng)生æˆåŽŸå‰‡å’Œé»ž(diÇŽn)è©•(pÃng)ï¼Œç„¶åŽæå–é (yù)測(cè)çŽ(jiÇŽng)勵(lì)å¹¶èˆ‡çœŸå€¼é€šéŽæº–(zhÇ”n)確率è¦(guÄ«)則進(jìn)行比較。與 DeepSeek R1 ä¸åŒï¼Œä»–們這次ä¸ä½¿ç”¨æ ¼å¼çŽ(jiÇŽng)勵(lì),而是應(yÄ«ng)用更大的 KL 懲罰系數(shù)ä»¥ç¢ºä¿æ ¼å¼å¹¶é¿å…åš´(yán)é‡å差。
基于 SPCT çš„æŽ¨ç†æ™‚(shÃ)æ“´(kuò)展
為利用更多推ç†è¨ˆ(jì)ç®—æå‡ DeepSeek-GRM 的生æˆå¼çŽ(jiÇŽng)勵(lì)ç”Ÿæˆæ€§èƒ½ï¼Œè©²åœ˜(tuán)隊(duì)探索了基于采樣的ç–略,以實(shÃ)ç¾(xià n)æœ‰æ•ˆçš„æŽ¨ç†æ™‚(shÃ)æ“´(kuò)展。
首先是通éŽç”Ÿæˆå¼çŽ(jiÇŽng)勵(lì)進(jìn)行投票。通éŽç”¨ SPCT 進(jìn)行åŽè¨“(xùn)練,DeepSeek 基于 Gemma-2-27B æå‡ºäº† DeepSeek-GRM-27B,其通éŽå¤šæ¬¡é‡‡æ¨£ä¾†æ“´(kuò)大計(jì)ç®—é‡çš„使用。通éŽå¹¶è¡Œé‡‡æ¨£ï¼ŒDeepSeek-GRM å¯ä»¥ç”Ÿæˆä¸åŒçš„原則集以åŠç›¸æ‡‰(yÄ«ng)的批判,然åŽå°(duì)最終çŽ(jiÇŽng)勵(lì)進(jìn)è¡ŒæŠ•ç¥¨ã€‚é€šéŽæ›´å¤§è¦(guÄ«)模的采樣,DeepSeek-GRM å¯ä»¥æ ¹æ“š(jù)更多樣化的原則åšå‡ºæ›´æº–(zhÇ”n)確的判斷,并輸出更精細(xì)çš„çŽ(jiÇŽng)勵(lì)。
直觀解釋是:若æ¯å€‹(gè)原則å¯è¦–為判斷視角的代ç†ï¼Œæ›´å¤šåŽŸå‰‡å¯èƒ½æ›´æº–(zhÇ”n)ç¢ºåœ°åæ˜ 真實(shÃ)分布,æé«˜æ“´(kuò)展有效性。值得注æ„的是,為é¿å…ä½ç½®åå·®å¹¶å¢žåŠ å¤šæ¨£æ€§ï¼Œæœƒ(huì)åœ¨é‡‡æ¨£å‰æ‰“亂響應(yÄ«ng)é †åºã€‚
除æ¤ä¹‹å¤–,DeepSeek 團(tuán)隊(duì)還訓(xùn)練了一個(gè)å…ƒçŽ(jiÇŽng)勵(lì)模型(meta RM)來引導(dÇŽo)投票éŽç¨‹ã€‚DeepSeek-GRM 的投票éŽç¨‹éœ€è¦å¤šæ¬¡é‡‡æ¨£ï¼Œéƒ¨åˆ†ç”Ÿæˆçš„原則和點(diÇŽn)è©•(pÃng)å¯èƒ½å› 隨機(jÄ«)性或模型é™åˆ¶å˜åœ¨å差或低質(zhì)é‡å•題。元çŽ(jiÇŽng)勵(lì)模型為é€é»ž(diÇŽn)標(biÄo)é‡ RM,訓(xùn)練目標(biÄo)為è˜(shÃ)別 DeepSeek-GRM 所生æˆåŽŸå‰‡å’Œé»ž(diÇŽn)è©•(pÃng)çš„æ£ç¢ºæ€§ã€‚
準(zhÇ”n)確率超越 GPT-4oï¼Œé ˜(lÇng)域å差更å°
從實(shÃ)é©—(yà n)çµ(jié)果看,SPCT 顯著æé«˜äº† GRM 的質(zhì)é‡å’Œå¯æ“´(kuò)展性,在多個(gè)ç¶œåˆçŽ(jiÇŽng)勵(lì)建模基準(zhÇ”n)測(cè)試ä¸å„ª(yÅu)于ç¾(xià n)有方法和模型,且ä¸å˜åœ¨åš´(yán)é‡çš„é ˜(lÇng)域å差。
ä¸åŒæ–¹æ³•和模型在 RM 基準(zhÇ”n)測(cè)試上的總體çµ(jié)æžœ
該團(tuán)隊(duì)å°‡ DeepSeek-GRM-27B çš„æ€§èƒ½èˆ‡å…¬é–‹æ¨¡åž‹çš„å·²å ±(bà o)告çµ(jié)果以åŠå„基準(zhÇ”n)方法的復(fù)ç¾(xià n)çµ(jié)果進(jìn)行了比較,并發(fÄ)ç¾(xià n),DeepSeek-GRM-27B 在總體性能上優(yÅu)于基準(zhÇ”n)方法,并且與強(qiáng)大的公開çŽ(jiÇŽng)勵(lì)模型相比,如 Nemotron-4-340B-Reward å’Œ GPT-4o,å–得了具有競(jìng)çˆ(zhÄ“ng)åŠ›çš„æ€§èƒ½ï¼›é€šéŽæŽ¨ç†æ™‚(shÃ)æ“´(kuò)展,DeepSeek-GRM-27B èƒ½å¤ é€²(jìn)ä¸€æ¥æå‡å¹¶å–得最佳的總體çµ(jié)果。
詳細(xì)比較ä¸ï¼Œæ¨™(biÄo)é‡ RM(DeepSeek-BTRM-27Bã€DeepSeek-PairRM-27Bï¼‰å’ŒåŠæ¨™(biÄo)é‡ RM(CLoud-Gemma-2-27B)在ä¸åŒåŸºæº–(zhÇ”n)上表ç¾(xià n)å‡ºé¡¯è‘—é ˜(lÇng)域å差,在å¯é©—(yà n)è‰ä»»å‹™(wù)(PPE æ£ç¢ºæ€§ï¼‰ä¸Šå„ª(yÅu)于 GRM,但在其他基準(zhÇ”n)上ä¸åŠã€‚多數(shù)公共標(biÄo)é‡ RM 也å˜åœ¨åš´(yán)é‡é ˜(lÇng)域å差。LLM-as-a-Judge 與 DeepSeek-GRM-27B 趨勢(shì)相似但性能較低,å¯èƒ½æ˜¯å› ?yà n)槿狈υ瓌t引導(dÇŽo)。總之,SPCT æé«˜äº† GRM çš„çŽ(jiÇŽng)勵(lì)生æˆèƒ½åŠ›ï¼Œèˆ‡æ¨™(biÄo)é‡å’ŒåŠæ¨™(biÄo)é‡çŽ(jiÇŽng)勵(lì)模型相比,å差明顯更å°ã€‚
ä¸åŒæ–¹æ³•在 RM 基準(zhÇ”n)測(cè)è©¦ä¸Šçš„æŽ¨ç†æ™‚(shÃ)æ“´(kuò)展çµ(jié)æžœ
在最多 8 次采樣下,DeepSeek-GRM-27B 相比貪心解碼和單次采樣性能æå‡æœ€å¤§ï¼Œä¸”隨計(jì)ç®—é‡å¢žåŠ ï¼ˆæœ€å¤š 32 次采樣)展ç¾(xià n)出強(qiáng)æ“´(kuò)展?jié)摿ΑT诿總€(gè)基準(zhÇ”n)測(cè)試ä¸ï¼Œå…ƒçŽ(jiÇŽng)勵(lì)模型也顯示出其在為 DeepSeek-GRM éŽæ¿¾ä½Žè³ª(zhì)é‡è»Œè·¡æ–¹é¢çš„æœ‰æ•ˆæ€§ã€‚LLM-as-a-Judge é€šéŽ token æ¦‚çŽ‡åŠ æ¬Š(quán)投票也顯著æå‡æ€§èƒ½ï¼Œè¡¨æ˜Žå®šé‡æ¬Š(quán)é‡å¯æé«˜å¤šæ•¸(shù)投票的å¯é 性。Cloud-Gemma-2-27B 性能æå‡æœ‰é™ï¼Œä¸»è¦å› 標(biÄo)é‡çŽ(jiÇŽng)勵(lì)生æˆç¼ºä¹æ–¹å·®ã€‚
總之,SPCT æé«˜äº† GRM çš„æŽ¨ç†æ™‚(shÃ)坿“´(kuò)展性,并且元çŽ(jiÇŽng)勵(lì)模型進(jìn)ä¸€æ¥æå‡äº†æ“´(kuò)展性能。
æ“¬è° SPCT ä¸åŒçµ„æˆéƒ¨åˆ†çš„æ¶ˆèžç ”究,粗體數(shù)å—表示最佳性能
令人驚è¨çš„æ˜¯ï¼Œå³ä½¿æ²’有使用拒絕采樣的評(pÃng)估數(shù)據(jù)進(jìn)行冷啟動(dòng),經(jÄ«ng)éŽåœ¨ç·š RL åŽï¼Œé€šç”¨æŒ‡ä»¤å¾®èª¿(dià o)çš„ GRM ä»ç„¶æœ‰é¡¯è‘—æå‡ï¼Œå¾ž 66.1 到 68.7。æ¤å¤–ï¼Œéžæç¤ºé‡‡æ¨£ä¼¼ä¹Žæ¯”æç¤ºé‡‡æ¨£æ›´é‡è¦ï¼Œå¯èƒ½æºè‡ªæç¤ºé‡‡æ¨£è»Œè·¡ä¸çš„æ·å¾‘å•題。這些çµ(jié)果表明在線訓(xùn)ç·´å°(duì) GRM çš„é‡è¦æ€§ã€‚èˆ‡ä»¥å¾€çš„ç ”ç©¶ç™¼(fÄ)ç¾(xià n)一致,DeepSeek 團(tuán)隊(duì)確èª(rèn)通用指令數(shù)據(jù)å°(duì) GRM 性能至關(guÄn)é‡è¦ã€‚原則生æˆå°(duì) DeepSeek-GRM-27B çš„è²ªå¿ƒè§£ç¢¼å’ŒæŽ¨ç†æ™‚(shÃ)é–“æ“´(kuò)展å‡è‡³é—œ(guÄn)é‡è¦ã€‚
該團(tuán)隊(duì)還通éŽåœ¨ä¸åŒè¦(guÄ«)模的大語言模型上進(jìn)行訓(xùn)ç·´åŽè™•ç†ï¼Œé€²(jìn)一æ¥ç ”究了 DeepSeek-GRM-27B åœ¨æŽ¨ç†æ™‚(shÃ)間和訓(xùn)練時(shÃ)é–“æ–¹é¢çš„æ“´(kuò)展性能。其發(fÄ)ç¾(xià n),DeepSeek-GRM-27B 使用 32 個(gè)樣本進(jìn)行直接投票å¯ä»¥é”(dá)到與 671B æ··åˆå°ˆå®¶æ¨¡åž‹ï¼ˆMoE)相當(dÄng)?shù)男阅埽?jiÇŽng)勵(lì)模型引導(dÇŽo)的投票在 8 次采樣時(shÃ)å¯ä»¥å–得最佳çµ(jié)果,這表明與擴(kuò)大模型è¦(guÄ«)模相比,DeepSeek-GRM-27B çš„æŽ¨ç†æ™‚(shÃ)æ“´(kuò)展是有效的。
最åŽï¼Œä»–å€‘ä½¿ç”¨åŒ…å« 300 個(gè)樣本的下采樣測(cè)試集å°(duì) DeepSeek-R1 進(jìn)行了測(cè)試,發(fÄ)ç¾(xià n)其性能甚至ä¸åŠ 236B MoE RFT 模型,這表明為推ç†ä»»å‹™(wù)æ“´(kuò)展æ€ç¶éˆé•·(zhÇŽng)度并ä¸èƒ½é¡¯è‘—æå‡ GRM 的性能。
盡管當(dÄng)å‰çš„æ–¹æ³•在效率和特定任務(wù)æ–¹é¢é¢è‡¨æŒ‘戰(zhà n),但 DeepSeek ç›¸ä¿¡ï¼Œé€šéŽ SPCT ä¹‹å¤–çš„åŠªåŠ›ï¼Œå…·æœ‰æ›´é«˜å¯æ“´(kuò)展性和效率的 GRM å¯ä»¥ä½œç‚ºé€šç”¨çŽ(jiÇŽng)勵(lì)系統(tÇ’ng)的通用接å£ï¼ŒæŽ¨å‹•(dòng)大語言模型訓(xùn)ç·´åŽéšŽæ®µå’ŒæŽ¨ç†çš„剿²¿ç™¼(fÄ)展。
https://arxiv.org/abs/2504.02495
è²æ˜Žï¼šæœ¬æ–‡ç‚º InfoQ ç¿»è¯æ•´ç†ï¼Œä¸ä»£è¡¨å¹³è‡º(tái)觀點(diÇŽn),未經(jÄ«ng)許å¯ç¦æ¢è½‰(zhuÇŽn)載。
會(huì)è°æŽ¨è–¦
在 AI 大模型é‡å¡‘軟件開發(fÄ)的時(shÃ)代,我們?nèi)绾伟ç›å…†å…铮咳绾瓮黄è夹g(shù)邊界?4 月 10-12 日,QCon å…¨çƒè»Ÿä»¶é–‹ç™¼(fÄ)大會(huì)· 北京站 é‚€ä½ å…±èµ´ 3 天沉浸å¼å¸(xué)ç¿’(xÃ)之約,跳出「技術(shù)ç¹æˆ¿ã€ï¼ŒæŽ¢ç´¢å‰æ²¿ç§‘技的無é™å¯èƒ½ã€‚
本次大會(huì)將匯èšé ‚尖技術(shù)專家ã€å‰µ(chuà ng)新實(shÃ)è¸è€…ï¼Œå…±åŒæŽ¢è¨Žå¤šè¡Œæ¥(yè) AI è½åœ°æ‡‰(yÄ«ng)用,分享一手實(shÃ)è¸ç¶“(jÄ«ng)é©—(yà n),深度åƒèˆ‡ DeepSeek 主題圓桌,洞見未來趨勢(shì)。
ç‰¹åˆ¥è²æ˜Žï¼šä»¥ä¸Šå…§(nèi)容(å¦‚æœ‰åœ–ç‰‡æˆ–è¦–é »äº¦åŒ…æ‹¬åœ¨å…§(nèi))為自媒體平臺(tái)“網(wÇŽng)易號(hà o)â€ç”¨æˆ¶ä¸Šå‚³å¹¶ç™¼(fÄ)布,本平臺(tái)僅æä¾›ä¿¡æ¯å˜å„²(chÇ”)æœå‹™(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.