上個月,DeepSeek悄悄做了一次更新,發(fā)布了一個小版本:DeepSeek-V3-0324。
這個版本大幅提高了在推理類任務(wù)上的表現(xiàn)水平,在數(shù)學(xué)、代碼類相關(guān)評測集上取得了超過 GPT-4.5 的得分成績。
怎么做到的呢?DeepSeek官方文檔是這么說↓
新版 V3 模型借鑒 DeepSeek-R1 模型訓(xùn)練過程中所使用的強(qiáng)化學(xué)習(xí)技術(shù),與之前的 DeepSeek-V3 使用同樣的 base 模型,僅改進(jìn)了后訓(xùn)練方法。
這里面提到了一個詞:后訓(xùn)練。
啥是后訓(xùn)練,跟預(yù)訓(xùn)練有啥區(qū)別?
今天我們用最通俗的比喻,來講講大模型三個不同階段的訓(xùn)練方法:?預(yù)訓(xùn)練(Pre-training)?后訓(xùn)練(Post-training)?微調(diào)(Fine-tuning)。
先看預(yù)訓(xùn)練
預(yù)訓(xùn)練就是用大量的通用數(shù)據(jù)集先訓(xùn)練模型,讓它掌握基礎(chǔ)知識和技能(通用語言能力和世界常識,比如剛發(fā)布的Llama 4在200種語言上進(jìn)行預(yù)訓(xùn)練)。
這就好比我們的中小學(xué)階段,系統(tǒng)地學(xué)習(xí)語文、數(shù)學(xué)、英語等基礎(chǔ)學(xué)科知識。
這個階段數(shù)據(jù)規(guī)模龐大,訓(xùn)練成本高,周期長(數(shù)萬GPU天),比如Llama 4 Scout預(yù)訓(xùn)練就使用了40萬億tokens數(shù)據(jù)。
想想我們小時候刷過的題、吃過的苦、花費(fèi)的時間、挨過的罵……
預(yù)訓(xùn)練的成本和時間一下子就具象化了。
再說后訓(xùn)練
后訓(xùn)練是指在預(yù)訓(xùn)練完成后的進(jìn)一步訓(xùn)練階段,目的在于讓模型更好地適應(yīng)實(shí)際的特定任務(wù)或應(yīng)用場景。
這就好比高中畢業(yè)(預(yù)訓(xùn)練結(jié)束),考上大學(xué),有了明確的專業(yè)方向,開始強(qiáng)化專業(yè)知識。
后訓(xùn)練階段,數(shù)據(jù)規(guī)模小,通常是特定領(lǐng)域的數(shù)據(jù)(專業(yè)基礎(chǔ)課和專業(yè)課),訓(xùn)練周期短(修夠?qū)W分就行)。
回想一下你的大學(xué)生活,是不是比以前輕松多了。
不過,后訓(xùn)練往往不止一次,可能要根據(jù)實(shí)際需求,持續(xù)深造,不斷優(yōu)化。
這就好比我們上完本科,可能還要碩士、博士,持續(xù)深造,讓自己的專業(yè)能力越來越扎實(shí)。
目前,在模型后訓(xùn)練環(huán)節(jié),比較流行的是采用強(qiáng)化學(xué)習(xí)(RL:Reinforcement Learning)的方法。比如在DeepSeek-V3小版本發(fā)布的通告里,就特別指出了自己采用了強(qiáng)化學(xué)習(xí)進(jìn)行后訓(xùn)練。
簡單講,強(qiáng)化學(xué)習(xí)就后訓(xùn)練的過程中不斷告訴模型:①你做得好,繼續(xù)保持(給正反饋);②你做的不好,趕緊改正(給負(fù)反饋)。
通過這種“獎懲機(jī)制”,讓模型學(xué)習(xí)更有針對性,表現(xiàn)也更好。
但是這種”打一巴掌、給個甜棗“的方法,有時候會把模型心態(tài)搞崩,太過于追求獎勵的結(jié)果了而走極端。
所以,為了避免走極端,最近流行一種新的強(qiáng)化學(xué)習(xí)方法,叫做GRPO(引導(dǎo)式正則化策略優(yōu)化),比如DeepSeek R1的訓(xùn)練就采用了這種方法。
GRPO就是在傳統(tǒng)強(qiáng)化學(xué)習(xí)的獎勵機(jī)制之上,加入一個額外的約束(正則項),確保和最初的“比較好的模型”不會差距太大。
這樣模型就可以平穩(wěn)地進(jìn)步,既能拿到高獎勵,又不會走極端。
如此,GRPO成了當(dāng)下大模型后訓(xùn)練中,最流行的強(qiáng)化學(xué)習(xí)手段,能更安全、穩(wěn)定地提升AI的表現(xiàn),生成的內(nèi)容更符合人類喜歡的風(fēng)格和預(yù)期。
最后說說微調(diào)
嚴(yán)格來講,把微調(diào)單拎出來講并不科學(xué),因為微調(diào)其實(shí)也是模型「后訓(xùn)練」的一種方法。
不過,一般后訓(xùn)練(像前面說的強(qiáng)化學(xué)習(xí)方法),發(fā)生在模型提供商那里。模型提供商在「預(yù)訓(xùn)練」完成以后,通過多次「后訓(xùn)練」優(yōu)化,最終把模型打造成可交付的產(chǎn)品或服務(wù)。
而微調(diào)這種「后訓(xùn)練」,通常發(fā)生在模型使用者那里(尤其是行業(yè)客戶場景)。
只因出徒后的大模型雖然基礎(chǔ)知識豐富、專業(yè)能力一流,可是實(shí)戰(zhàn)技巧卻是空白,到了行業(yè)場景沒法直接上崗。
比如——
怎么辦呢?進(jìn)行上崗培訓(xùn),這就是微調(diào)。
微調(diào)是針對特定任務(wù)(修電腦)的訓(xùn)練,數(shù)據(jù)量小但很精準(zhǔn)、具體,老司機(jī)會把他的具體修理經(jīng)驗交給你,讓你的知識更接地氣。
至此,一個大模型經(jīng)過預(yù)訓(xùn)練、后訓(xùn)練、微調(diào)。
終于可以上崗干活啦。
簡單總結(jié)下↓
預(yù)訓(xùn)練:基礎(chǔ)知識廣泛學(xué);
后訓(xùn)練:專業(yè)領(lǐng)域深入學(xué);
微調(diào):具體實(shí)操崗前學(xué)。
好了,基本概念介紹完畢。
從目前的國內(nèi)的趨勢看,做大規(guī)模預(yù)訓(xùn)練的公司會越來越少(坊間傳聞,今年上半年真正在做預(yù)訓(xùn)練的公司只有兩三家)。
未來訓(xùn)練方面的主要需求都是后訓(xùn)練和微調(diào)(當(dāng)然更大的需求是推理)。
可是說,隨著DeepSeek的半路殺出,國內(nèi)大模型戰(zhàn)役的第一階段,已經(jīng)結(jié)束,“裸泳者”即將浮出水面。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.